Über das Projekt
Dieser Service bietet eine bildbasierte Ähnlichkeitssuche über einen Bestand von 57 Millionen maschinell erkannten Bildern aus über 3 Digitalisaten der Bayerischen Staatsbibliothek. Kriterium ist allein die Ähnlichkeit von Bildmotiven nach äußerlichen Merkmalen (Farben, Texturen, markante Formen und Kontraste). Er entstand in Kooperation mit dem Fraunhofer-Institut für Nachrichtentechnik (Heinrich Hertz Institut). Eine ausführliche Beschreibung des Projektes und der eingesetzten Technologie findet sich in einem Schwerpunktbeitrag der Zeitschrift Datenbank-Spektrum (Februar 2017).
Fraunhofer-Institut für Nachrichtentechnik
Abteilung Videokodierung und Maschinelles Lernen
Einsteinufer 37, 10587 Berlin
Tel: +49 30 31002-0
www.hhi.fraunhofer.de
Die Datengrundlage
Mit ihrem historischen Bestand von mehr als 2,4 Millionen digitaler Büchern zählt die Bayerische Staatsbibliothek zu den bedeutendsten Kulturinstitutionen der Welt. Dieser Bestand umfasst vorwiegend urheberrechtsfreie Werke vom 8. bis ins 20. Jahrhundert, von der mittelalterlichen Bibelhandschrift bis zur Boulevardzeitung der 1920er Jahre. Diese Vielfalt des zu digitalisierenden schriftlichen Kulturerbes und das hohe Tempo der Massendigitalisierung in den letzten Jahren hat ihren Preis – die inhaltliche Erschließung der Werke hinkt hinterher, insbesondere bei Werken, die nicht mittels Optical Character Recognition-Verfahren (OCR) automatisiert maschinenlesbar transformiert und zugänglich gemacht werden können. Dies gilt insbesondere für mittelalterliche Handschriften, Alte Druck- und Spezialbestände. Deshalb blieben auch die meisten Bilder für den Nutzer weitestgehend verborgen und konnten lediglich durch das Durchblättern am Bildschirm entdeckt werden. Dies war Motivation für die Bayerische Staatsbibliothek, gemeinsam mit dem Fraunhofer Heinrich-Hertz-Institut in Berlin ein System zu ähnlichkeitsbasierten Bildsuche aufzubauen, welches sämtliche Bildinhalte aller 2,4 Mio. Digitalisate automatisch identifiziert.
Das eingesetzte Verfahren
Um Suchvorgänge zu ermöglichen muss der Bestand der digitalisierten Bücher entsprechend aufbereitet bzw. indexiert werden. Die vom Fraunhofer Heinrich-Hertz-Institut in Berlin entwickelte Software extrahiert mittels morphologischer Verfahren alle Bilder aus den Buchseiten. Diese werden danach aufgrund von Farb- und Kantenmerkmalen klassifiziert. Bilder „ohne Informationswert“ werden mit Hilfe von Methoden aus dem Bereich des maschinellen Lernens herausgefiltert.
Mit diesem Verfahren konnten aus den digitalisierten Werken der BSB bislang mehr als 43 Mio. einzelne Bilder identifiziert werden, welche über diese Web-Applikation dem Anwender direkt zur Verfügung stehen. Dank der Vielfalt und Reichhaltigkeit der indexierten Bestände spricht dieses Angebot nicht nur Historiker und Buchwissenschaftler an, sondern Interessierte aus den unterschiedlichsten Fachrichtungen. Die Ähnlichkeitssuche stellt dabei unbekannte, ungewöhnliche und oftmals überraschende Bezüge zwischen unterschiedlichsten Werken her.
Die Suche erfolgt nicht über die Bilder selbst. Dies wäre bei einem Bestand von circa 43 Mio. nicht in Echtzeit durchführbar. Vielmehr kommen Deskriptoren zum Einsatz. Deskriptoren sind Datensätze, die in sehr komprimierter Form die visuelle Information eines Bildes enthalten. In unserem Fall hat der zu einem Bild gehörende Deskriptor einen Umfang von 96 Byte. Zusätzlich wird eine Distanzfunktion benötigt, die den Abstand zweier Deskriptoren angibt. Diese Funktion soll über die Deskriptoren den visuellen Unterschied zweier Bilder möglichst optimal abbilden. Aus der Distanzfunktion wird die Ähnlichkeitsfunktion berechnet, die einen Wert zwischen 0.0 und 1.0 ausgibt. Der Wert 0.0 bedeutet dabei maximale Unähnlichkeit, der Wert 1.0 maximale Ähnlichkeit bzw. Identität. Der visuelle Deskriptor enthält
Informationen bezüglich der Farb- als auch der Verteilung der Kantenorientierung des Bildes. Da zurzeit 43 Millionen Bilder und damit die
gleiche Anzahl Deskriptoren vorliegen, müssen pro Suchanfrage 43 Millionen Deskriptorenvergleiche durchgeführt werden.
Die Projekthistorie
Die Arbeiten an diesem Projekt begannen 2011. Am Anfang stand eine erste prototypische Umsetzung mit 250 digitalisierten Werken der BSB. Nach vielen Monaten intensiver Entwicklungsarbeit konnte im April 2013 schließlich das erste Angebot der BSB zur Bildähnlichkeitssuche online gehen. Bereits damals standen rund 4 Millionen einzelne Bildsegmente aus 60.000 Büchern für eine Ähnlichkeitssuche zur Verfügung. Diese Zahl konnte in den folgenden Jahren auf 6 Millionen Bildsegmente aus 80.000 Bänden gesteigert werden. Im Jahr 2016 wurde eine neue Version entwickelt. Sie erfasst alle Digitalisate der BSB und bietet nun mehr als 43 Millionen Bilder zur Suche an.