Protokoll der 2. Sitzung der Ad-hoc-AG Kooperative Kataloganreicherung Mittwoch, den 22. Oktober 2008 Ort: ULB Darmstadt, Direktionszimmer Zeit: 10.00 – 16.15 Uhr Teilnehmer: Fr. Albrecht (HebisVZ, Sitzungsleitung), Hr. Gerlach (ULB Darmstadt), Hr. Junkes-Kirchen (UB Frankfurt), Fr. Matiasch (Zentralbibl. der Ev. Kirche in Hessen u. Nassau), Hr. Menzel (HLB Fulda), Fr. Schmidt (UB Marburg), Hr. Schneider (HebisVZ), Hr. Schorde (Bibl. FH Frankfurt), Fr. Thomä (UB Gießen) Entschuldigt: Fr. Eckert (UB Mainz), Fr. Moos (Bibl. FH Frankfurt), Hr. Naujoks (Bibl. FH Wiesbaden), Fr. Stegmann (Bibl. Hochschule Darmstadt) Protokoll: H. Gerlach

Tagesordnung: 1. Begrüßung 2. Organisatorisches 3. Protokoll der Kick-off-Sitzung am 4.9.2008 4. Praktische Vorführung der Arbeitsabläufe beim Scannen von Inhaltsverzeichnissen in der ULB Darmstadt 5. Fragen und Diskussion 6. Einrichtung eines zentralen Servers für Kataloganreicherungsdaten a. Beantwortung der Fragen aus der letzten Sitzung durch Herrn Schneider b. Bericht zum Stand von Konzept und praktischer Umsetzung 7. Erste Überlegungen für die Geschäftsgänge und Arbeitsabläufe (unter Berücksichtigung der Bedienung des zentralen Servers) 8. Verschiedenes

TOP 1: Begrüßung Frau Albrecht begrüßt die Teilnehmer der Arbeitsgruppe.

TOP 2: Organisatorisches Aufgrund der umfangreichen Tagesordnung wird eine gemeinsame Mittagspause eingeplant.

TOP 3: Protokoll der Kick-off-Sitzung am 4.9.2008 Da das Protokoll krankheitsbedingt verspätet vorlag, wird die vorliegende Fassung in der Sitzung besprochen. In den nächsten Tagen wird eine korrigierte Version verschickt.

Frau Albrecht hat sich bezüglich der Catalogue-Enrichment-Aktivitäten der DNB und des SWBs informiert: a) DNB: das Scannen der Inhaltsverzeichnisse wurde outgesourcet. Zum Zuge kamen die Firmen Imageware und AGI. Laut Herrn Schneider von der DNB ist auch die Firma SRZ ein in Frage kommender Anbieter in diesem Bereich b) SWB: die von Bibliotheken gescannten Inhaltsverzeichnisse, Klappentexte, etc. werden vom BSZ zentral weiterverarbeitet (OCR, Katalog-Verlinkung) und in das Informationssystem SWBplus eingebracht (SWBplus wurde technisch weiterentwickelt – es basiert nun auf einem Java-Content-Repositorium mit XMLSchnittstellen). Herr Schneider ergänzt, dass der SWB plant auch Orts-, Personen- und Sachregister einzuscannen. Rechtsgrundlage hierfür ist ein Schreiben des Börsenvereins (Juli 2007) zum Thema Anreicherung von Bibliothekskatalogen. Frau Albrecht hat Unterlagen zu Kataloganreicherungsaktivitäten des HBZ und des SWBs, sowie Informationen zu den Firmen Imageware, AGI und SRZ als Tischvorlage zusammengestellt. Frau Schmidt weist auf einen interessanten Artikel aus dem Bibliotheksdienst von Irmgard Siebert und Dietmar Haubfleisch („Catalogue Enrichment in Nordrhein-Westfalen – Geschichte, Ergebnisse, Perspektiven“) hin.

TOP 4: Praktische Vorführung der Arbeitsabläufe beim Scannen von Inhaltsverzeichnissen in der ULB Darmstadt Herr Gerlach demonstriert den Workflow zum Scannen von Inhaltsverzeichnissen an der ULB Darmstadt: Eine sogenannte Scan-Station besteht aus einem handelsüblichen PC, an dem ein hochwertiger Flachbettscanner (DIN A4) angeschlossen ist. Neben der lizenzierten Erfassungssoftware intelligentCapture sind Hilfsprogramme, für z.B. OCR, installiert. Vor dem Scannen der Inhaltsverzeichnisse müssen die Bücher • mit einem Barcode (enthält die Buchnummer) versehen sein • und die Formalerschließung vorliegen. Der erste Arbeitsschritt ist das Erfassen der Buchnummer mit Hilfe eines Barcode-Lesestiftes. Die Software intelligentCapture führt nun vollautomatisch folgende Arbeitsschritte aus: a) Anfrage an den Opac und Herunterladen des zugehörigen Katalogeintrags b) Prüfung, ob das vorliegende Buch schon an einer Scan-Station in Darmstadt bearbeitet worden ist c) Prüfung mit Hilfe der ISBN (falls vorhanden), ob in dandelon.com schon ein Inhaltsverzeichnis zu dem Buchtitel existiert – falls dies der Fall ist, wird es heruntergeladen Wenn der Buchtitel in Darmstadt oder einer anderen an dandelon.com beteiligten Bibliothek schon bearbeitet wurde, kann in der Regel auf das eigentliche Scannen verzichtet werden. Falls keine Fremdleistung vorliegt wird, wird mit dem Flachbettscanner Titelblatt und Inhaltsverzeichnis eingescannt: • nach dem Scannen des Titelblatts wird ein Rahmen/Ausschnitt definiert, der dann abgespeichert wird – dieser wird i.d.R. unverändert bei dem Scannen der Folgeseiten beibehalten



Fehler können bei der zuletzt gescannten Seite durch Wiederholung des Einscanvorgangs korrigiert werden Sobald mit dem Scannen eines neuen Inhaltsverzeichnisses begonnen wird, führt die Software intelligentCapture im Hintergrund vollautomatisch folgende Arbeitsschritte für das zuletzt gescannte Inhaltsverzeichnis durch: a) Generierung des Inhaltsverzeichnistextes mittels OCR und Ermittlung einer OCRErkennungsrate zwecks Qualitätskontrolle b) Erzeugung von PDF-Dateien aus Tiff-Dateien und OCR-Text (Image over text) c) Genierung von maschinellen Indexaten mit Hilfe von Allgemein-Thesauri (deutsch, englisch) Als letzte Arbeitsschritte finden Datenexporte statt: a) Export der erzeugten Daten (PDF-Datei des Inhaltsverzeichnisses, OCR-Text, Katalogdaten u. maschinelle Indexate) für die Suchmaschine dandelon.com b) Export von Daten für Hebis: PDF- und XML-Dateien mit Titelaufnahmekategorien

TOP 5: Fragen und Diskussion Herr Schneider sieht auf einem zukünftigen hessischen Server für Kataloganreicherungsdaten zwei Arten von Scans und ihren zugehörigen Metadaten: a) Scans mit PPN (von Hebis-Teilnehmerbibliotheken) b) Fremdleistungs-Scans Bei Fremdleistungs-Scans ergibt sich generell ein Zuordnungsproblem. Ausgenommen hiervon sind Daten der Reihe A von der Deutschen Nationalbibliothek. Auf dem Server sollen auch die Scan-Daten selbst abgelegt werden, da die ULB Darmstadt die Suche in Inhaltsverzeichnissen auch in lokalen Katalogangeboten integrieren möchte. Generell wird ein zeitnaher Austausch von Kataloganreichungsdaten zwischen den Verbünden als erstrebenswert angesehen. Bei Titeln, die eine ISBN besitzen, ist hierbei nicht mit technischen Problemen zu rechnen. Herr Schneider schlägt eine automatische Überprüfung (monatlich) im Hintergrund vor, die versucht Titelaufnahmedaten mit Scan-Daten anzureichern. Hierbei ist mehrstufiges Verfahren für die eigentliche Zuordnung zu entwickeln, welches in einer bestimmten Reihenfolge diverse Kategorien abgleicht: PPN, ISBN, Auflage, Erscheinungsjahr, etc. Daneben sollte der Server auch einen Online-Check mittels PPN anbieten, um zu ermitteln ob schon ein Inhaltsverzeichnis vorliegt. In diesem Fall erübrigt sich das Einscannen. Diese Online-Abfrage sollte in einer Scan-Software integriert sein. Herr Junkes-Kirchen weist darauf hin, dass bei der Kataloganreicherung von Spezialbeständen das Vorhandensein von Scan-Daten eher unwahrscheinlich ist. Herr Menzel erfragt die Verteilung der Aufgaben zwischen den Bibliotheken und der Verbundzentrale. Ein mögliche Realisierung könnte auch wie folgt aussehen: a) in den Bibliotheken wird geprüft, ob Scan-Daten schon exisieren; falls dies nicht der Fall ist, werden Scan-Dateien erzeugt; die erzeugten Bilddateien werden in die Verbundzentrale hochgeladen b) in der Verbundzentrale werden für alle Bibliotheken zentral PDF-Dateien erzeugt; OCR durchgeführt, etc.

Herr Schneider merkt an, dass die Kataloganreicherung bei Buchtiteln aufgrund einer eindeutigen PPN einfach realisierbar ist. Die Beschäftigung mit Zeitschriften ist nicht angedacht, da hier völlig andere Vorraussetzungen vorliegen. Auf Anregung von Frau Thomä möchte die Arbeitsgruppe verschiedene Anbieter im Bereich Kataloganreicherung, zwecks Präsentation ihrer Software-Produkte, im Dezember nach Frankfurt einladen.

TOP 6: Einrichtung eines zentralen Servers für Kataloganreicherungsdaten a) Beantwortung der Fragen aus der letzten Sitzung durch Herrn Schneider b) Bericht zum Stand von Konzept und praktischer Umsetzung Herr Schneider kündigt für den Jahresanfang 2009 einen Scan-Daten-Server mit folgenden Grundfunktionalitäten an: II. Online-Check via PPN, ob Scan-Daten zu dem jeweiligem Buchtitel schon vorhanden ist III. Upload, der in Bibliotheken erzeugten Scan-Daten, sowie das Einspielen der Daten in den Verbundkatalog Frau Albrecht weist darauf hin, dass die Adhoc-AG Provinienz-Erschließung auf ihrer letzten Sitzung das Konzeptpapier zur HeBIS-Scans Kataloganreicherungs-Datenbank durchgesehen hat. Ziel beider AGs sollte die Vermeidung von Widersprüchen sein. Im Einzelnen wurden zu folgenden Punkten Anmerkungen gemacht: • Neben OCR-Ergebnissen können auch andere textuelle Eingaben möglich sein (z.B. bei Fraktur) • Die Web-Schnittstelle, zur Überprüfung des Vorhandenseins von Scan-Daten zu einer bestimmten PPN, wird bei maschinellen Massenabgleichen nicht als zeitkritischer Dienst angesehen • Metadaten zu gescannten Inhaltsverzeichnissen von der ULB Darmstadt (AGI-ID, maschinelle Indexate) sollen zunächst wie bisher exportiert werden (zukünftig vielleicht via XML) • Als ID für den Lieferanten von Scan-Daten soll die ILN verwendet werden • Auf ein Passwort (z.B. für Löschaufträge) kann verzichtet werden • Ein Scan bezieht sich genau auf eine PPN • Für jede ILN und PPN soll es maximal einen Datensatz geben Nach längerer Diskussion zu dem Sachverhalt des Löschens von Scan-Daten einigt man sich auf folgendes Verfahren (Vorschlag Herr Schneider): 1) Löschungen können mit Hilfe eines Web-Formulars vorgenommen werden 2) In der Scan-Datenbank werden die betreffenden Scan-Daten nur als gelöscht markiert (Lösch-Flag) 3) Eine Email wird an den Scan-Beauftragten der Bibliothek verschickt, welche die Scan-Daten erzeugt hat Nach ausführlicher Erörterung möglicher Formatvarianten, sowie der Berücksichtigung unterschiedlicher Qualitäten von Scan-Daten, einigt man sich auf ein möglichst einfaches und einheitliches Format:

• •

PDF mit embedded Text (OCR-Ergebnis) – angezeigt wird die gescannte Bilddatei (Image over Text) Beschränkung auf PDF-Format

TOP 7: Erste Überlegungen für Geschäftsgänge und Arbeitsabläufe (unter Berücksichtigung der Bedienung des zentralen Servers) Wurde schon unter TOP 5 und 6 mitbesprochen.

TOP 8: Verschiedenes Wie schon in TOP 5 besprochen, sollen am nächsten Sitzungstermin verschiedene Firmen ihre Dienstleistungen im Bereich der Kataloganreicherung vorstellen. Angedacht ist eine Präsentationsdauer von 1½ Stunden pro Anbieter. Herr Schneider wird einen Fragenkatalog erarbeiten und diesen bis zur 47. Kalenderwoche an die eingeladenen Firmen verschicken. Nach Möglichkeit soll das nächste Treffen in den Räumlichkeiten der Fachhochschulbibliothek Frankfurt am 9.12. oder 10.12. stattfinden. Frau Albrecht bittet die Anwesenden um Durchsicht der Unterlagen zu den verschiedenen Scan-Dienstleistern und ihren Produkten. Desweiteren soll der Sachverhalts der Kataloganreicherung in den eigenen Bibliotheken diskutiert werden.