Automatische Vergabe von RVK-Notationen
Automatische Vergabe von RVK-Notationen
Magnus Pfeffer
[email protected]
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Überblick Anlass des Projekts Grundlagen fallbasiertes Schließen Umsetzung und Implementierung Experimente Ergebnisse Mögliche Erweiterungen
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Anlass des Projekts Größere Bibliotheksbereiche RVK zur gemeinsamen Aufstellung Unterstützung der Retrosystematisierung Unterstützung der Platzbedarfsplanung Virtuelle systematische Aufstellung im Katalog
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Fallbasiertes Schließen Maschinelles Lernverfahren Prinzip: ähnliches Problem – ähnliche Lösung Algorithmus Aufbau Fallbasis mit bekannten Lösungen Vergleich neuer Fall mit allen Fällen der Basis Finden des ähnlichsten Falls der Basis Adaption oder Übernahme von dessen Lösung
Ohne Adaption: fallbasierte Klassifikation
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Umsetzung auf RVK-Vergabe Probleme/Fälle Titelaufnahmen ohne RVK-Notation
Lösungen Klassifikation
Fallbasis Bereits klassifizierte Titel
Vergleich Ähnlichkeitsmaß
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Annahmen Nur korrekte Notationen im Verbund Inhaltliche Klassifikation ↯ RVK-Klassen mit formalen Kriterien Zeitschriften Reihen Jahr der Veröffentlichung als Notationsbestandteil
Eindeutige Klassifikation
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Ähnlichkeitsmaß „Krux“ des Verfahrens Realisierung: Ähnlichkeitsfunktion Formale Kriterien Selbstvergleich maximale Ähnlichkeit Symmetrisch Normiert
Inhaltliche Kriterien Berücksichtigung aller relevanten Daten Gewichtung der Attribute
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Ähnlichkeitsfunktion Nur inhaltstragende Kategorien Titelwörter Mehrsprachig Zusammengesetzte Wörter Flektierte Wörter
Schlagwörter Kontrolliertes Vokabular
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Ähnlichkeitsfunktion Normierung der Titelwörter Englisch Endungen abschneiden
Deutsch Wortzerlegung Grundformbestimmung
Vergleich von Wortmengen Mehrfachauftreten nicht berücksichtigt
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Umsetzung Datenquelle Verbundabzug im MAB2-Format Extraktion von Titel- und Schlagwörtern
RVK XML-Datenabzug → Baumdarstellung Entfernung der problematischen Notationen
Zerlegung und Normierung aller Wörter Tools: Morphy, Snowball Titelwörter → Lexeme
Aufbau von Indices Titelwörter Schlagwörter-IDs Lexeme 23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Umsetzung Vergleich Suche aller Elemente im Index
→ Liste potentiell ähnlicher Titel Direkter Vergleich mittels Ähnlichkeitsfunktion
Retrieval Klassifikation(en) Klassifikation(en) des ähnlichsten Titel Häufigste Klassifikation(en) der n ähnlichsten Titel Alle Klassifikationen der n ähnlichsten Titel
Absoluter Wert der Ähnlichkeit
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Ähnlichkeitsfunktion Simple: #(A ∩ B) / Max(#A, #B) Nur Übereinstimmungen Symmetrisch und Normiert
Hamming: 1 – [ #((A U B) - (A ∩ B)) / #A + #B ] Auch Nicht-Übereinstimmungen Symmetrisch und normiert
Edit: 1 – [ #((A U B) - (A ∩ B)) / #A + #B ] Aber unterschiedliche Gewichtung der Nicht-Übereinstimmungen Nicht symmetrisch Normiert
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Experimente Testläufe Juni 2007 Masterarbeit HU Berlin Verschiedene Ähnlichkeitsfunktionen Verschiedene Retrievals
Testverfahren Klassifikation von 1000 Titeln mit Notationen (Goldstandard) Vergleichswert: Distanz im RVK-Baum
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Ergebnisse Theoretisches Maximum Notationen aller Titel mit einem übereinstimmenden Element
Zahlen 94,7% korrekt (mindestens eine Notation identisch) 4,5% gut (minimale Distanz der Notationen: 1-3) 0,7% befriedigend (Notationen im gleichen Fachgebiet) 0,1% falsch (Notationen in unterschiedlichen Fachgebieten) Durchschnittlich 14950 Notationen
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Ergebnisse Sieger Funktion: Hamming Elemente: Lexeme mit Schlagwörtern kombiniert Retrieval: Notation(en) der/des ähnlichsten Titels
Zahlen 51,4% korrekt (mindestens eine Notation identisch) 22,7% gut (minimale Distanz der Notationen: 1-3) 11,1% befriedigend (Notationen im gleichen Fachgebiet) 14,8% falsch (Notationen in unterschiedlichen Fachgebieten) Durchschnittlich 5 Notationen
Retrieval mit Häufigkeiten nahezu identisch 23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Praktische Umsetzung UB Mannheim Einspielung in Online-Katalog Verbalisierung der Notation als Hilfe-Popup Erstmals vollständiger systematischer Zugang
Einsatz in der Retrosystematisierung Nutzung durch Referenten Titellisten nach RVK sortiert Sehr hoher Nutzen
Einsatz in der Bedarfplanung Höhere Genauigkeit als reine Interpolation
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Weitere Arbeiten RVK Doppelklassen zusammenführen Vollständiges Ausblenden der formalen Klassen
Verfahren Expansion der Schlagwörter-IDs zu Wörtern Bessere Grundformzerlegung
Implementierung Alternative zu Morphy Optimierung der Fallbasis Schnellere Verarbeitung
Ziel: Web Service 23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Fragen/Diskussion
23.06.2007
Vortrag HU Berlin
Automatische Vergabe von RVK-Notationen
Automatische Vergabe von RVK-Notationen
Magnus Pfeffer
[email protected]
23.06.2007
Vortrag HU Berlin
1
1
Automatische Vergabe von RVK-Notationen
Überblick Anlass des Projekts Grundlagen fallbasiertes Schließen Umsetzung und Implementierung Experimente Ergebnisse Mögliche Erweiterungen
23.06.2007
Vortrag HU Berlin
2
2
Automatische Vergabe von RVK-Notationen
Anlass des Projekts Größere Bibliotheksbereiche RVK zur gemeinsamen Aufstellung Unterstützung der Retrosystematisierung Unterstützung der Platzbedarfsplanung Virtuelle systematische Aufstellung im Katalog
23.06.2007
Vortrag HU Berlin
3
Die UB Mannheim hat ihre ehemals 11 Bereichsbibliotheken in 4 Freihandbereichen zusammengelegt, die nach einer einheitlichen Systematik aufgestellt werden. Die Entscheidung für die RVK als Systematik fiel aufgrund der bereits verfügbaren Klassifikationen in den Verbunddaten, dem größeren Nutzerkreis und der damit verbundenen Hoffnung auf eine weitgehende Übernahme von Fremddaten bei der Systematisierung. Von 1,2 Millionen Titeln der UB Mannheim waren Anfang 2007 etwa 50% mit einer oder mehreren RVK-Notationen versehen. Mit der automatischen Systematisierung der verbleibenden 600.000 Titel sollte neben der Unterstützung der Fachreferenten bei der Retrosystematisierung auch eine Datengrundlage für die Abschätzung des Platzbesdarfs der einzelnen Systemstellen in den Bereichen geschaffen werden. Die Annotation aller Titel im Katalog mit RVK-Notationen würde einen systematischen Zugang zum Gesamtbestand der UB Mannheim bieten, der in einem „virtuellen Bücherregal“ online zugänglich ist.
3
Automatische Vergabe von RVK-Notationen
Fallbasiertes Schließen Maschinelles Lernverfahren Prinzip: ähnliches Problem – ähnliche Lösung Algorithmus Aufbau Fallbasis mit bekannten Lösungen Vergleich neuer Fall mit allen Fällen der Basis Finden des ähnlichsten Falls der Basis Adaption oder Übernahme von dessen Lösung
Ohne Adaption: fallbasierte Klassifikation
23.06.2007
Vortrag HU Berlin
4
Aufgrund der bereits vorhandenen systematisierten Titeldaten bietet sich für eine automatische Systematisierung der verbleibenden Titel das Verfahren des fallbasierten Schließens an. Dabei wird von der Idee ausgegangen, dass ähnliche Probleme („Fälle“) auch ähnliche Lösungen haben und durch den Vergleich eines neuen Problems mit den bereits gelösten vielleicht nicht die optimale aber zumindest eine adäquate Lösung gefunden werden kann. Diese muss gegebenenfalls adaptiert werden. Im der vorliegenden Problemstellung wird die gefundene Lösung übernommen, also eine fallbasierte Klassifikation vorgenommen.
4
Automatische Vergabe von RVK-Notationen
Umsetzung auf RVK-Vergabe Probleme/Fälle Titelaufnahmen ohne RVK-Notation
Lösungen Klassifikation
Fallbasis Bereits klassifizierte Titel
Vergleich Ähnlichkeitsmaß
23.06.2007
Vortrag HU Berlin
5
Die Übertragung auf die Vergabe von RVK-Notationen anhand der Titeldaten ist unkompliziert: Die bereits klassifizierten Titel bilden die Fallbasis und die noch nicht klassifizierten Titel werden mit diesen vergleichen.
5
Automatische Vergabe von RVK-Notationen
Annahmen Nur korrekte Notationen im Verbund Inhaltliche Klassifikation ↯ RVK-Klassen mit formalen Kriterien Zeitschriften Reihen Jahr der Veröffentlichung als Notationsbestandteil
Eindeutige Klassifikation
23.06.2007
Vortrag HU Berlin
6
Das Verfahren impliziert einige Annahme über die Art und Qualität der Daten, die in die Fallbasis übernommen werden: So wird davon ausgegangen, dass alle Notationen in den Verbunddaten korrekt und vollständig sind. Das Verfahren baut allein auf inhaltliche Merkmale auf, was in einem Widerspruch zu RVK-Klassen steht, die anhand von formalen Kriterien vergeben werden. Die Zuordnung zu diesen Klassen kann nicht mittels fallbasiertem Schließen durchgeführt werden und es muss darauf geachtet werden, dass keine Titel mit „formalen“ Klassifikationen Teil der Fallbasis werden. Idealerweise sollte die Klassifikation eindeutig sein. Sollten mehrere Klassifikationen für einen Titel gegeben sein, muss – im Rahmen des Verfahrens – davon ausgegangen werden, dass diese gleichwertig und inhaltlich sehr ähnlich sind. Die Tatsache, dass in bestimmten Fällen der Inhalt eines Buches zwei inhaltlich unterschiedliche Klassifikationen ermöglicht, kann nur unzureichend abgebildet werden.
6
Automatische Vergabe von RVK-Notationen
Ähnlichkeitsmaß „Krux“ des Verfahrens Realisierung: Ähnlichkeitsfunktion Formale Kriterien Selbstvergleich maximale Ähnlichkeit Symmetrisch Normiert
Inhaltliche Kriterien Berücksichtigung aller relevanten Daten Gewichtung der Attribute
23.06.2007
Vortrag HU Berlin
7
Das Ähnlichkeitsmaß ist der eigentliche Kern des Verfahrens. Wünschenswert für ein solches Maß sind einige formale Vorgaben: • Reflexivität: Ein Titel soll zu sich selbst maximal ähnlich sein • Symmetrie: X verglichen mit Y soll die gleiche Ähnlichkeit ergeben wir Y verglichen mit X • Normierung: Die Ähnlichkeit soll in einem definierten Wertebereich liegen. Üblich ist [0..1] mit 1 als maximale Ähnlichkeit. Inhaltlich muss beim Formulieren des Ähnlichkeitsmaßes darauf geachtet werden, dass alle relevanten Daten aus den Titeln berücksichtigt und angemessen gewichtet werden.
7
Automatische Vergabe von RVK-Notationen
Ähnlichkeitsfunktion Nur inhaltstragende Kategorien Titelwörter Mehrsprachig Zusammengesetzte Wörter Flektierte Wörter
Schlagwörter Kontrolliertes Vokabular
23.06.2007
Vortrag HU Berlin
8
Für den inhaltlichen Vergleich von Titeldaten können nur die Titel- und Schlagwörter herangezogen werden. Alle anderen Daten enthalten formale Informationen. Während die Schlagwörter normiert vorliegen, sind die Titelwörter nicht ohne weiteres für einen Vergleich geeignet. Sie liegen in unterschiedlichen Sprachen und als zusammengesetzte und flektierte Wörter vor.
8
Automatische Vergabe von RVK-Notationen
Ähnlichkeitsfunktion Normierung der Titelwörter Englisch Endungen abschneiden
Deutsch Wortzerlegung Grundformbestimmung
Vergleich von Wortmengen Mehrfachauftreten nicht berücksichtigt
23.06.2007
Vortrag HU Berlin
9
Da eine Übersetzung eine weitere Komplexitätsstufe in das Verfahren eingebracht hätte, wurden die Titel in den unterschiedlichen Sprachen getrennt behandelt. Englische Titelwörter lassen sich recht einfach durch das Erkennen und Abschneiden der häufigsten Endungen (-ing, -ed, -s, …) soweit normieren, dass ein Vergleich möglich wird. Deutsche Titelwörter müssen aufwändiger bearbeitet werden; die Zerlegung zusammengesetzter Wörter sowie die Überführung aller Teilwörter in eine Grundform ist erforderlich. Die so normierten Wörter eines Titels müssen dann nur noch mit den entsprechenden Wörtern eines anderen Titels verglichen werden. Dabei werden derzeit nur Wortmengen verglichen, ein mehrfach auftretendes Wort als nur einfach gezählt. Wenig sinntragende Wörter wie Artikel und Präpositionen, die sehr häufig auftauchen, werden beim Vergleich nicht berücksichtigt.
9
Automatische Vergabe von RVK-Notationen
Umsetzung Datenquelle Verbundabzug im MAB2-Format Extraktion von Titel- und Schlagwörtern
RVK XML-Datenabzug → Baumdarstellung Entfernung der problematischen Notationen
Zerlegung und Normierung aller Wörter Tools: Morphy, Snowball Titelwörter → Lexeme
Aufbau von Indices Titelwörter Schlagwörter-IDs Lexeme 23.06.2007
Vortrag HU Berlin
10
Für die konkrete Umsetzung an der UB Mannheim diente ein Verbundabzug im MAB2-Format als Grundlage. Aus den Daten wurden die Felder für die Titelangaben und die Schlagwörter selektiert. Die RVK-Klassen wurden aus der von der UB Regensburg bereitgestellten XMLdarstellung extrahiert und ein Großteil der Notationen mit formalen Komponenten selektiert. Diese Klassen wurden dann aus den Titelaufnahmen entfernt. Für die linguistische Analyse wurden alle gefundenen deutschen Titelwörter mit Hilfe des Tools „Morphy“ zerlegt und auf die Grundform reduziert. Für die englischsprachigen Titelwörter wurde das Tool „Snowball“ verwendet. Für die Umsetzung der Ähnlichkeitsfunktion(en) wurden separate Indices für die Titelwörter, die Identnummern der Schlagwörter und die zerlegten und reduzierten Titelwörter (Lexeme) aufgebaut.
10
Automatische Vergabe von RVK-Notationen
Umsetzung Vergleich Suche aller Elemente im Index
→ Liste potentiell ähnlicher Titel Direkter Vergleich mittels Ähnlichkeitsfunktion
Retrieval Klassifikation(en) Klassifikation(en) des ähnlichsten Titel Häufigste Klassifikation(en) der n ähnlichsten Titel Alle Klassifikationen der n ähnlichsten Titel
Absoluter Wert der Ähnlichkeit
23.06.2007
Vortrag HU Berlin
11
Um für einen noch nicht klassifizierten Titel den ähnlichsten Titel in der Fallbasis zu finden, werden zunächst alle in Frage kommenden Titel anhand der Indices bestimmt und anschließend mit Hilfe der Ähnlichkeitsfunktion direkt verglichen. Das Verfahren liefert zu jedem nicht klassifizierten Titel die Menge der Titel aus der Fallbasis mit der Ähnlichkeit größer Null. Diese können nach Ähnlichkeit absteigend sortiert werden und je nach Zielsetzung der Klassifikation ausgewertet werden.
11
Automatische Vergabe von RVK-Notationen
Ähnlichkeitsfunktion Simple: #(A ∩ B) / Max(#A, #B) Nur Übereinstimmungen Symmetrisch und Normiert
Hamming: 1 – [ #((A U B) - (A ∩ B)) / #A + #B ] Auch Nicht-Übereinstimmungen Symmetrisch und normiert
Edit: 1 – [ #((A U B) - (A ∩ B)) / #A + #B ] Aber unterschiedliche Gewichtung der Nicht-Übereinstimmungen Nicht symmetrisch Normiert
23.06.2007
Vortrag HU Berlin
12
Es wurden mehrere Ähnlichkeitsfunktionen getestet, die von bekannten Verfahren zum Vergleich von Zeichenketten abgeleitet wurden. Diese unterscheiden sich in der Gewichtung der übereinstimmenden und nicht übereinstimmenden Elemente.
12
Automatische Vergabe von RVK-Notationen
Experimente Testläufe Juni 2007 Masterarbeit HU Berlin Verschiedene Ähnlichkeitsfunktionen Verschiedene Retrievals
Testverfahren Klassifikation von 1000 Titeln mit Notationen (Goldstandard) Vergleichswert: Distanz im RVK-Baum
23.06.2007
Vortrag HU Berlin
13
Um die verschiedenen Funktionen und Retrievals vergleichen zu können, wurden 1000 bereits klassifizierte Titel aus der Fallbasis entnommen und automatisch klassifiziert. Dabei wurde die vorhandene Klassifikation als „Goldstandard“ gewertet und die Qualität der automatischen Klassifikation bestimmt. Im besten Fall gab es eine absolute Übereinstimmung, ansonsten wurde die kleinste Distanz im RVK-Baum der gefundenen Notation(en) zum Goldstandard bestimmt.
13
Automatische Vergabe von RVK-Notationen
Ergebnisse Theoretisches Maximum Notationen aller Titel mit einem übereinstimmenden Element
Zahlen 94,7% korrekt (mindestens eine Notation identisch) 4,5% gut (minimale Distanz der Notationen: 1-3) 0,7% befriedigend (Notationen im gleichen Fachgebiet) 0,1% falsch (Notationen in unterschiedlichen Fachgebieten) Durchschnittlich 14950 Notationen
23.06.2007
Vortrag HU Berlin
14
Um die Ergebnisse richtig bewerten zu können, wurde geprüft, ob die korrekte Notation überhaupt durch den Vergleich von Titel- und Schlagwörtern gefunden werden kann. Dies ist nur in 95% der Fälle überhaupt möglich.
14
Automatische Vergabe von RVK-Notationen
Ergebnisse Sieger Funktion: Hamming Elemente: Lexeme mit Schlagwörtern kombiniert Retrieval: Notation(en) der/des ähnlichsten Titels
Zahlen 51,4% korrekt (mindestens eine Notation identisch) 22,7% gut (minimale Distanz der Notationen: 1-3) 11,1% befriedigend (Notationen im gleichen Fachgebiet) 14,8% falsch (Notationen in unterschiedlichen Fachgebieten) Durchschnittlich 5 Notationen
Retrieval mit Häufigkeiten nahezu identisch 23.06.2007
Vortrag HU Berlin
15
Die besten Ergebnisse lieferte die Kombination des Hamming-Abstandes von Lexemen mit einem Retrieval, dass die Notationen des/der Titel mit der größten Ähnlichkeit liefert. Die unterschiedliche Gewichtung von nicht-übereinstimmenden Elementen bei der „Edit“-basierten Ähnlichkeitsfunktion führte insgesamt zu einer Verschlechterung des Gesamtergebnisses. Die „Simple“-Ähnlichkeitsfunktion lieferte wie erwartet deutlich schlechtere Ergebnisse. Erstaunlich war, dass bereits der Vergleich der unzerlegten Titelwörter ein sehr gutes Ergebnis brachte und die Verwendung der Lexeme nur wenige Prozentpunkte Verbesserung brachte. Bei den Retrievalverfahren lag die Variante „Häufigste Notation der ähnlichsten N Titel“ nahezu gleichauf.
15
Automatische Vergabe von RVK-Notationen
Praktische Umsetzung UB Mannheim Einspielung in Online-Katalog Verbalisierung der Notation als Hilfe-Popup Erstmals vollständiger systematischer Zugang
Einsatz in der Retrosystematisierung Nutzung durch Referenten Titellisten nach RVK sortiert Sehr hoher Nutzen
Einsatz in der Bedarfplanung Höhere Genauigkeit als reine Interpolation
23.06.2007
Vortrag HU Berlin
16
Es wurde der Gesamtbestand der UB Mannheim automatisch klassifiziert und die Daten in den OPAC eingespielt. Somit bestand erstmals ein einheitlicher systematischer Zugang zu den Medien der UB Mannheim. Die Fachreferenten konnten für die Retrosystematisierung des Freihandbestandes aus OPAC-Anfragen Listen generieren, die nach RVK sortiert werden konnten. “Falsch” klassifizierte Titel fielen beim Bearbeiten der Listen sofort auf; die Arbeit ließ sich wesentlich beschleunigen. Anhand dieser Listen ließ sich auch eine recht genaue Abschätzung für den Platzbedarf der einzelnen Systemstellen in den neuen Bibliotheksbereichen ermitteln.
16
Automatische Vergabe von RVK-Notationen
Weitere Arbeiten RVK Doppelklassen zusammenführen Vollständiges Ausblenden der formalen Klassen
Verfahren Expansion der Schlagwörter-IDs zu Wörtern Bessere Grundformzerlegung
Implementierung Alternative zu Morphy Optimierung der Fallbasis Schnellere Verarbeitung
Ziel: Web Service 23.06.2007
Vortrag HU Berlin
17
17
Automatische Vergabe von RVK-Notationen
Fragen/Diskussion
23.06.2007
Vortrag HU Berlin
18
18