Automatische Vergabe von RVK-Notationen

Automatische Vergabe von RVK-Notationen Automatische Vergabe von RVK-Notationen Magnus Pfeffer [email protected] 23.06.2007 Vortr...
2 downloads 2 Views 196KB Size
Automatische Vergabe von RVK-Notationen

Automatische Vergabe von RVK-Notationen

Magnus Pfeffer [email protected]

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Überblick  Anlass des Projekts  Grundlagen fallbasiertes Schließen  Umsetzung und Implementierung  Experimente  Ergebnisse  Mögliche Erweiterungen

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Anlass des Projekts  Größere Bibliotheksbereiche  RVK zur gemeinsamen Aufstellung  Unterstützung der Retrosystematisierung  Unterstützung der Platzbedarfsplanung  Virtuelle systematische Aufstellung im Katalog

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Fallbasiertes Schließen  Maschinelles Lernverfahren  Prinzip: ähnliches Problem – ähnliche Lösung  Algorithmus  Aufbau Fallbasis mit bekannten Lösungen  Vergleich neuer Fall mit allen Fällen der Basis  Finden des ähnlichsten Falls der Basis  Adaption oder Übernahme von dessen Lösung

 Ohne Adaption: fallbasierte Klassifikation

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Umsetzung auf RVK-Vergabe  Probleme/Fälle  Titelaufnahmen ohne RVK-Notation

 Lösungen  Klassifikation

 Fallbasis  Bereits klassifizierte Titel

 Vergleich  Ähnlichkeitsmaß

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Annahmen  Nur korrekte Notationen im Verbund  Inhaltliche Klassifikation  ↯ RVK-Klassen mit formalen Kriterien  Zeitschriften  Reihen  Jahr der Veröffentlichung als Notationsbestandteil

 Eindeutige Klassifikation

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Ähnlichkeitsmaß  „Krux“ des Verfahrens  Realisierung: Ähnlichkeitsfunktion  Formale Kriterien  Selbstvergleich maximale Ähnlichkeit  Symmetrisch  Normiert

 Inhaltliche Kriterien  Berücksichtigung aller relevanten Daten  Gewichtung der Attribute

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Ähnlichkeitsfunktion  Nur inhaltstragende Kategorien  Titelwörter  Mehrsprachig  Zusammengesetzte Wörter  Flektierte Wörter

 Schlagwörter  Kontrolliertes Vokabular

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Ähnlichkeitsfunktion  Normierung der Titelwörter  Englisch  Endungen abschneiden

 Deutsch  Wortzerlegung  Grundformbestimmung

 Vergleich von Wortmengen  Mehrfachauftreten nicht berücksichtigt

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Umsetzung  Datenquelle  Verbundabzug im MAB2-Format  Extraktion von Titel- und Schlagwörtern

 RVK  XML-Datenabzug → Baumdarstellung  Entfernung der problematischen Notationen

 Zerlegung und Normierung aller Wörter  Tools: Morphy, Snowball  Titelwörter → Lexeme

 Aufbau von Indices  Titelwörter  Schlagwörter-IDs  Lexeme 23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Umsetzung  Vergleich  Suche aller Elemente im Index

→ Liste potentiell ähnlicher Titel  Direkter Vergleich mittels Ähnlichkeitsfunktion

 Retrieval  Klassifikation(en)  Klassifikation(en) des ähnlichsten Titel  Häufigste Klassifikation(en) der n ähnlichsten Titel  Alle Klassifikationen der n ähnlichsten Titel

 Absoluter Wert der Ähnlichkeit

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Ähnlichkeitsfunktion  Simple: #(A ∩ B) / Max(#A, #B)  Nur Übereinstimmungen  Symmetrisch und Normiert

 Hamming: 1 – [ #((A U B) - (A ∩ B)) / #A + #B ]  Auch Nicht-Übereinstimmungen  Symmetrisch und normiert

 Edit: 1 – [ #((A U B) - (A ∩ B)) / #A + #B ]  Aber unterschiedliche Gewichtung der Nicht-Übereinstimmungen  Nicht symmetrisch  Normiert

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Experimente  Testläufe Juni 2007  Masterarbeit HU Berlin  Verschiedene Ähnlichkeitsfunktionen  Verschiedene Retrievals

 Testverfahren  Klassifikation von 1000 Titeln mit Notationen (Goldstandard)  Vergleichswert: Distanz im RVK-Baum

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Ergebnisse  Theoretisches Maximum  Notationen aller Titel mit einem übereinstimmenden Element

 Zahlen  94,7% korrekt (mindestens eine Notation identisch)  4,5% gut (minimale Distanz der Notationen: 1-3)  0,7% befriedigend (Notationen im gleichen Fachgebiet)  0,1% falsch (Notationen in unterschiedlichen Fachgebieten)  Durchschnittlich 14950 Notationen

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Ergebnisse  Sieger  Funktion: Hamming  Elemente: Lexeme mit Schlagwörtern kombiniert  Retrieval: Notation(en) der/des ähnlichsten Titels

 Zahlen  51,4% korrekt (mindestens eine Notation identisch)  22,7% gut (minimale Distanz der Notationen: 1-3)  11,1% befriedigend (Notationen im gleichen Fachgebiet)  14,8% falsch (Notationen in unterschiedlichen Fachgebieten)  Durchschnittlich 5 Notationen

 Retrieval mit Häufigkeiten nahezu identisch 23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Praktische Umsetzung UB Mannheim  Einspielung in Online-Katalog  Verbalisierung der Notation als Hilfe-Popup  Erstmals vollständiger systematischer Zugang

 Einsatz in der Retrosystematisierung  Nutzung durch Referenten  Titellisten nach RVK sortiert  Sehr hoher Nutzen

 Einsatz in der Bedarfplanung  Höhere Genauigkeit als reine Interpolation

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Weitere Arbeiten  RVK  Doppelklassen zusammenführen  Vollständiges Ausblenden der formalen Klassen

 Verfahren  Expansion der Schlagwörter-IDs zu Wörtern  Bessere Grundformzerlegung

 Implementierung  Alternative zu Morphy  Optimierung der Fallbasis  Schnellere Verarbeitung

 Ziel: Web Service 23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Fragen/Diskussion

23.06.2007

Vortrag HU Berlin

Automatische Vergabe von RVK-Notationen

Automatische Vergabe von RVK-Notationen

Magnus Pfeffer [email protected]

23.06.2007

Vortrag HU Berlin

1

1

Automatische Vergabe von RVK-Notationen

Überblick  Anlass des Projekts  Grundlagen fallbasiertes Schließen  Umsetzung und Implementierung  Experimente  Ergebnisse  Mögliche Erweiterungen

23.06.2007

Vortrag HU Berlin

2

2

Automatische Vergabe von RVK-Notationen

Anlass des Projekts  Größere Bibliotheksbereiche  RVK zur gemeinsamen Aufstellung  Unterstützung der Retrosystematisierung  Unterstützung der Platzbedarfsplanung  Virtuelle systematische Aufstellung im Katalog

23.06.2007

Vortrag HU Berlin

3

Die UB Mannheim hat ihre ehemals 11 Bereichsbibliotheken in 4 Freihandbereichen zusammengelegt, die nach einer einheitlichen Systematik aufgestellt werden. Die Entscheidung für die RVK als Systematik fiel aufgrund der bereits verfügbaren Klassifikationen in den Verbunddaten, dem größeren Nutzerkreis und der damit verbundenen Hoffnung auf eine weitgehende Übernahme von Fremddaten bei der Systematisierung. Von 1,2 Millionen Titeln der UB Mannheim waren Anfang 2007 etwa 50% mit einer oder mehreren RVK-Notationen versehen. Mit der automatischen Systematisierung der verbleibenden 600.000 Titel sollte neben der Unterstützung der Fachreferenten bei der Retrosystematisierung auch eine Datengrundlage für die Abschätzung des Platzbesdarfs der einzelnen Systemstellen in den Bereichen geschaffen werden. Die Annotation aller Titel im Katalog mit RVK-Notationen würde einen systematischen Zugang zum Gesamtbestand der UB Mannheim bieten, der in einem „virtuellen Bücherregal“ online zugänglich ist.

3

Automatische Vergabe von RVK-Notationen

Fallbasiertes Schließen  Maschinelles Lernverfahren  Prinzip: ähnliches Problem – ähnliche Lösung  Algorithmus  Aufbau Fallbasis mit bekannten Lösungen  Vergleich neuer Fall mit allen Fällen der Basis  Finden des ähnlichsten Falls der Basis  Adaption oder Übernahme von dessen Lösung

 Ohne Adaption: fallbasierte Klassifikation

23.06.2007

Vortrag HU Berlin

4

Aufgrund der bereits vorhandenen systematisierten Titeldaten bietet sich für eine automatische Systematisierung der verbleibenden Titel das Verfahren des fallbasierten Schließens an. Dabei wird von der Idee ausgegangen, dass ähnliche Probleme („Fälle“) auch ähnliche Lösungen haben und durch den Vergleich eines neuen Problems mit den bereits gelösten vielleicht nicht die optimale aber zumindest eine adäquate Lösung gefunden werden kann. Diese muss gegebenenfalls adaptiert werden. Im der vorliegenden Problemstellung wird die gefundene Lösung übernommen, also eine fallbasierte Klassifikation vorgenommen.

4

Automatische Vergabe von RVK-Notationen

Umsetzung auf RVK-Vergabe  Probleme/Fälle  Titelaufnahmen ohne RVK-Notation

 Lösungen  Klassifikation

 Fallbasis  Bereits klassifizierte Titel

 Vergleich  Ähnlichkeitsmaß

23.06.2007

Vortrag HU Berlin

5

Die Übertragung auf die Vergabe von RVK-Notationen anhand der Titeldaten ist unkompliziert: Die bereits klassifizierten Titel bilden die Fallbasis und die noch nicht klassifizierten Titel werden mit diesen vergleichen.

5

Automatische Vergabe von RVK-Notationen

Annahmen  Nur korrekte Notationen im Verbund  Inhaltliche Klassifikation  ↯ RVK-Klassen mit formalen Kriterien  Zeitschriften  Reihen  Jahr der Veröffentlichung als Notationsbestandteil

 Eindeutige Klassifikation

23.06.2007

Vortrag HU Berlin

6

Das Verfahren impliziert einige Annahme über die Art und Qualität der Daten, die in die Fallbasis übernommen werden: So wird davon ausgegangen, dass alle Notationen in den Verbunddaten korrekt und vollständig sind. Das Verfahren baut allein auf inhaltliche Merkmale auf, was in einem Widerspruch zu RVK-Klassen steht, die anhand von formalen Kriterien vergeben werden. Die Zuordnung zu diesen Klassen kann nicht mittels fallbasiertem Schließen durchgeführt werden und es muss darauf geachtet werden, dass keine Titel mit „formalen“ Klassifikationen Teil der Fallbasis werden. Idealerweise sollte die Klassifikation eindeutig sein. Sollten mehrere Klassifikationen für einen Titel gegeben sein, muss – im Rahmen des Verfahrens – davon ausgegangen werden, dass diese gleichwertig und inhaltlich sehr ähnlich sind. Die Tatsache, dass in bestimmten Fällen der Inhalt eines Buches zwei inhaltlich unterschiedliche Klassifikationen ermöglicht, kann nur unzureichend abgebildet werden.

6

Automatische Vergabe von RVK-Notationen

Ähnlichkeitsmaß  „Krux“ des Verfahrens  Realisierung: Ähnlichkeitsfunktion  Formale Kriterien  Selbstvergleich maximale Ähnlichkeit  Symmetrisch  Normiert

 Inhaltliche Kriterien  Berücksichtigung aller relevanten Daten  Gewichtung der Attribute

23.06.2007

Vortrag HU Berlin

7

Das Ähnlichkeitsmaß ist der eigentliche Kern des Verfahrens. Wünschenswert für ein solches Maß sind einige formale Vorgaben: • Reflexivität: Ein Titel soll zu sich selbst maximal ähnlich sein • Symmetrie: X verglichen mit Y soll die gleiche Ähnlichkeit ergeben wir Y verglichen mit X • Normierung: Die Ähnlichkeit soll in einem definierten Wertebereich liegen. Üblich ist [0..1] mit 1 als maximale Ähnlichkeit. Inhaltlich muss beim Formulieren des Ähnlichkeitsmaßes darauf geachtet werden, dass alle relevanten Daten aus den Titeln berücksichtigt und angemessen gewichtet werden.

7

Automatische Vergabe von RVK-Notationen

Ähnlichkeitsfunktion  Nur inhaltstragende Kategorien  Titelwörter  Mehrsprachig  Zusammengesetzte Wörter  Flektierte Wörter

 Schlagwörter  Kontrolliertes Vokabular

23.06.2007

Vortrag HU Berlin

8

Für den inhaltlichen Vergleich von Titeldaten können nur die Titel- und Schlagwörter herangezogen werden. Alle anderen Daten enthalten formale Informationen. Während die Schlagwörter normiert vorliegen, sind die Titelwörter nicht ohne weiteres für einen Vergleich geeignet. Sie liegen in unterschiedlichen Sprachen und als zusammengesetzte und flektierte Wörter vor.

8

Automatische Vergabe von RVK-Notationen

Ähnlichkeitsfunktion  Normierung der Titelwörter  Englisch  Endungen abschneiden

 Deutsch  Wortzerlegung  Grundformbestimmung

 Vergleich von Wortmengen  Mehrfachauftreten nicht berücksichtigt

23.06.2007

Vortrag HU Berlin

9

Da eine Übersetzung eine weitere Komplexitätsstufe in das Verfahren eingebracht hätte, wurden die Titel in den unterschiedlichen Sprachen getrennt behandelt. Englische Titelwörter lassen sich recht einfach durch das Erkennen und Abschneiden der häufigsten Endungen (-ing, -ed, -s, …) soweit normieren, dass ein Vergleich möglich wird. Deutsche Titelwörter müssen aufwändiger bearbeitet werden; die Zerlegung zusammengesetzter Wörter sowie die Überführung aller Teilwörter in eine Grundform ist erforderlich. Die so normierten Wörter eines Titels müssen dann nur noch mit den entsprechenden Wörtern eines anderen Titels verglichen werden. Dabei werden derzeit nur Wortmengen verglichen, ein mehrfach auftretendes Wort als nur einfach gezählt. Wenig sinntragende Wörter wie Artikel und Präpositionen, die sehr häufig auftauchen, werden beim Vergleich nicht berücksichtigt.

9

Automatische Vergabe von RVK-Notationen

Umsetzung  Datenquelle  Verbundabzug im MAB2-Format  Extraktion von Titel- und Schlagwörtern

 RVK  XML-Datenabzug → Baumdarstellung  Entfernung der problematischen Notationen

 Zerlegung und Normierung aller Wörter  Tools: Morphy, Snowball  Titelwörter → Lexeme

 Aufbau von Indices  Titelwörter  Schlagwörter-IDs  Lexeme 23.06.2007

Vortrag HU Berlin

10

Für die konkrete Umsetzung an der UB Mannheim diente ein Verbundabzug im MAB2-Format als Grundlage. Aus den Daten wurden die Felder für die Titelangaben und die Schlagwörter selektiert. Die RVK-Klassen wurden aus der von der UB Regensburg bereitgestellten XMLdarstellung extrahiert und ein Großteil der Notationen mit formalen Komponenten selektiert. Diese Klassen wurden dann aus den Titelaufnahmen entfernt. Für die linguistische Analyse wurden alle gefundenen deutschen Titelwörter mit Hilfe des Tools „Morphy“ zerlegt und auf die Grundform reduziert. Für die englischsprachigen Titelwörter wurde das Tool „Snowball“ verwendet. Für die Umsetzung der Ähnlichkeitsfunktion(en) wurden separate Indices für die Titelwörter, die Identnummern der Schlagwörter und die zerlegten und reduzierten Titelwörter (Lexeme) aufgebaut.

10

Automatische Vergabe von RVK-Notationen

Umsetzung  Vergleich  Suche aller Elemente im Index

→ Liste potentiell ähnlicher Titel  Direkter Vergleich mittels Ähnlichkeitsfunktion

 Retrieval  Klassifikation(en)  Klassifikation(en) des ähnlichsten Titel  Häufigste Klassifikation(en) der n ähnlichsten Titel  Alle Klassifikationen der n ähnlichsten Titel

 Absoluter Wert der Ähnlichkeit

23.06.2007

Vortrag HU Berlin

11

Um für einen noch nicht klassifizierten Titel den ähnlichsten Titel in der Fallbasis zu finden, werden zunächst alle in Frage kommenden Titel anhand der Indices bestimmt und anschließend mit Hilfe der Ähnlichkeitsfunktion direkt verglichen. Das Verfahren liefert zu jedem nicht klassifizierten Titel die Menge der Titel aus der Fallbasis mit der Ähnlichkeit größer Null. Diese können nach Ähnlichkeit absteigend sortiert werden und je nach Zielsetzung der Klassifikation ausgewertet werden.

11

Automatische Vergabe von RVK-Notationen

Ähnlichkeitsfunktion  Simple: #(A ∩ B) / Max(#A, #B)  Nur Übereinstimmungen  Symmetrisch und Normiert

 Hamming: 1 – [ #((A U B) - (A ∩ B)) / #A + #B ]  Auch Nicht-Übereinstimmungen  Symmetrisch und normiert

 Edit: 1 – [ #((A U B) - (A ∩ B)) / #A + #B ]  Aber unterschiedliche Gewichtung der Nicht-Übereinstimmungen  Nicht symmetrisch  Normiert

23.06.2007

Vortrag HU Berlin

12

Es wurden mehrere Ähnlichkeitsfunktionen getestet, die von bekannten Verfahren zum Vergleich von Zeichenketten abgeleitet wurden. Diese unterscheiden sich in der Gewichtung der übereinstimmenden und nicht übereinstimmenden Elemente.

12

Automatische Vergabe von RVK-Notationen

Experimente  Testläufe Juni 2007  Masterarbeit HU Berlin  Verschiedene Ähnlichkeitsfunktionen  Verschiedene Retrievals

 Testverfahren  Klassifikation von 1000 Titeln mit Notationen (Goldstandard)  Vergleichswert: Distanz im RVK-Baum

23.06.2007

Vortrag HU Berlin

13

Um die verschiedenen Funktionen und Retrievals vergleichen zu können, wurden 1000 bereits klassifizierte Titel aus der Fallbasis entnommen und automatisch klassifiziert. Dabei wurde die vorhandene Klassifikation als „Goldstandard“ gewertet und die Qualität der automatischen Klassifikation bestimmt. Im besten Fall gab es eine absolute Übereinstimmung, ansonsten wurde die kleinste Distanz im RVK-Baum der gefundenen Notation(en) zum Goldstandard bestimmt.

13

Automatische Vergabe von RVK-Notationen

Ergebnisse  Theoretisches Maximum  Notationen aller Titel mit einem übereinstimmenden Element

 Zahlen  94,7% korrekt (mindestens eine Notation identisch)  4,5% gut (minimale Distanz der Notationen: 1-3)  0,7% befriedigend (Notationen im gleichen Fachgebiet)  0,1% falsch (Notationen in unterschiedlichen Fachgebieten)  Durchschnittlich 14950 Notationen

23.06.2007

Vortrag HU Berlin

14

Um die Ergebnisse richtig bewerten zu können, wurde geprüft, ob die korrekte Notation überhaupt durch den Vergleich von Titel- und Schlagwörtern gefunden werden kann. Dies ist nur in 95% der Fälle überhaupt möglich.

14

Automatische Vergabe von RVK-Notationen

Ergebnisse  Sieger  Funktion: Hamming  Elemente: Lexeme mit Schlagwörtern kombiniert  Retrieval: Notation(en) der/des ähnlichsten Titels

 Zahlen  51,4% korrekt (mindestens eine Notation identisch)  22,7% gut (minimale Distanz der Notationen: 1-3)  11,1% befriedigend (Notationen im gleichen Fachgebiet)  14,8% falsch (Notationen in unterschiedlichen Fachgebieten)  Durchschnittlich 5 Notationen

 Retrieval mit Häufigkeiten nahezu identisch 23.06.2007

Vortrag HU Berlin

15

Die besten Ergebnisse lieferte die Kombination des Hamming-Abstandes von Lexemen mit einem Retrieval, dass die Notationen des/der Titel mit der größten Ähnlichkeit liefert. Die unterschiedliche Gewichtung von nicht-übereinstimmenden Elementen bei der „Edit“-basierten Ähnlichkeitsfunktion führte insgesamt zu einer Verschlechterung des Gesamtergebnisses. Die „Simple“-Ähnlichkeitsfunktion lieferte wie erwartet deutlich schlechtere Ergebnisse. Erstaunlich war, dass bereits der Vergleich der unzerlegten Titelwörter ein sehr gutes Ergebnis brachte und die Verwendung der Lexeme nur wenige Prozentpunkte Verbesserung brachte. Bei den Retrievalverfahren lag die Variante „Häufigste Notation der ähnlichsten N Titel“ nahezu gleichauf.

15

Automatische Vergabe von RVK-Notationen

Praktische Umsetzung UB Mannheim  Einspielung in Online-Katalog  Verbalisierung der Notation als Hilfe-Popup  Erstmals vollständiger systematischer Zugang

 Einsatz in der Retrosystematisierung  Nutzung durch Referenten  Titellisten nach RVK sortiert  Sehr hoher Nutzen

 Einsatz in der Bedarfplanung  Höhere Genauigkeit als reine Interpolation

23.06.2007

Vortrag HU Berlin

16

Es wurde der Gesamtbestand der UB Mannheim automatisch klassifiziert und die Daten in den OPAC eingespielt. Somit bestand erstmals ein einheitlicher systematischer Zugang zu den Medien der UB Mannheim. Die Fachreferenten konnten für die Retrosystematisierung des Freihandbestandes aus OPAC-Anfragen Listen generieren, die nach RVK sortiert werden konnten. “Falsch” klassifizierte Titel fielen beim Bearbeiten der Listen sofort auf; die Arbeit ließ sich wesentlich beschleunigen. Anhand dieser Listen ließ sich auch eine recht genaue Abschätzung für den Platzbedarf der einzelnen Systemstellen in den neuen Bibliotheksbereichen ermitteln.

16

Automatische Vergabe von RVK-Notationen

Weitere Arbeiten  RVK  Doppelklassen zusammenführen  Vollständiges Ausblenden der formalen Klassen

 Verfahren  Expansion der Schlagwörter-IDs zu Wörtern  Bessere Grundformzerlegung

 Implementierung  Alternative zu Morphy  Optimierung der Fallbasis  Schnellere Verarbeitung

 Ziel: Web Service 23.06.2007

Vortrag HU Berlin

17

17

Automatische Vergabe von RVK-Notationen

Fragen/Diskussion

23.06.2007

Vortrag HU Berlin

18

18

Suggest Documents