Kompetenzzentrum OCR – Automatische Texterkennung als Serviceangebot

Will, Larissa; Huff, Dorothee; Weil, Stefan; Kamlah, Jan
https://zenodo.org/records/10698464
Zum TEI/XML Dokument

Durchsuchbare Volltexte historischer Drucke und Handschriften bieten einen zeitgemäßen, umfassenden Zugang zum Kulturgut vergangener Epochen. Sie ermöglichen Forschenden, auf eine breite Palette von Informationen zuzugreifen und diese für ihre wissenschaftliche Arbeit zu nutzen. Darüber hinaus dienen sie als Grundlage für Anwendungen im Bereich der Data Science, da umfangreiche Textdatenbanken bereitgestellt werden können, die für Analysen und Erkenntnisse genutzt werden können (Weil und Kamlah, 2019).

Die Möglichkeiten, die die verschiedenen Texterkennungsprogramme in diesem Bereich mittlerweile bieten, sind breit, jedoch ist die Anwendung sowie die Vor- und Nachverarbeitung nicht immer intuitiv. Im Projekt OCR-BW haben die Universitätsbibliotheken Mannheim und Tübingen seit 2019 das „Kompetenzzentrum Volltexterkennung von handschriftlichen und gedruckten Werken“ aufgebaut und beraten seitdem Informationseinrichtungen und wissenschaftliche Projekte in Baden-Württemberg und darüber hinaus zu diesem Thema (Weil und Kamlah, 2020; Projektübersicht OCR-BW, 2023).

Das Kompetenzzentrum kann ein breites Know-how für unterschiedliche Programme wie z. B. Tesseract (2023), Transkribus (READ-COOP, 2023) und eScriptorium (Scripta, 2023) vorweisen. Die UB Mannheim ist zudem bis Ende 2023 mit zwei Teilprojekten an OCR-D (2023) beteiligt, wodurch auch hier Synergien entstehen (Projekte der UB Mannheim, 2023). Nach Auslaufen des Projekts OCR-BW 2022 werden die Services im Sinne der Nachhaltigkeit und aufgrund der weiterhin bestehenden Bedarfe als Teil des bibliothekarischen Portfolios fortgeführt. Durch die Volltexterkennung von Handschriften und historischen Drucken werden sowohl Forschenden neue Möglichkeiten im Umgang mit Quellen in der wissenschaftlichen Arbeit ermöglicht als auch Bibliotheken ein doppeltes Tätigkeitsfeld eröffnet (Gehrlein et. al, 2020). Neben dem Einsatz für die Bereitstellung von Volltexten zum Zweck der weiteren Erschließung von eigenen Beständen ist das Thema auch für den wissenschaftsunterstützenden Dienst einer Bibliothek relevant (Weil, 2018). Bedarf für die Verwendung von Texterkennungsprogrammen besteht nicht nur in den Geisteswissenschaften, sondern – wie sich gezeigt hat – auch für konkrete Forschungsfragen aus anderen Disziplinen. Zum einen können mithilfe von automatischer Texterkennung große Textkorpora bearbeitet werden, zum anderen wird der Zugriff auf Originalquellen auch ohne paläographische Kenntnisse erleichtert. So werden Kurrent-, Sütterlin- oder Frakturschrift in vielen geisteswissenschaftlichen Studiengängen nur rudimentär behandelt, Naturwissenschaftler*innen fehlt die paläographische Grundausbildung oftmals gänzlich.

Die Anwendung der Texterkennungssoftware und das Lesen des Quellenmaterials stellen jedoch nicht die einzigen Hürden dar, sondern auch zahlreiche andere Fragestellungen müssen im Vorfeld geklärt werden: Welchen rechtlichen Beschränkungen unterliegen die Werke? Ist die Bereitstellung von durchsuchbaren Volltexten im Einzelfall kritisch zu bewerten? Nach welchen Richtlinien werden die Texte transkribiert und Trainingsmaterial erzeugt? Wie wird mit Fehlerraten (sog. Character Error Rate oder Word Error Rate) umgegangen? Und ist die Nachnutzung des Trainingsmaterials oder sogar der Modelle möglich und wie können diese gemäß den FAIR-Prinzipien bereitgestellt werden? Wenn ja, unter welchen Einschränkungen?

Das Angebot des Kompetenzzentrums umfasst ein breites Portfolio. Neben individueller Beratung und Unterstützung werden verschiedene Dokumentationen zu Texterkennungsprogrammen sowie auch Infrastruktur für Forschende z. B. in Form einer Instanz der Texterkennungs- und Transkriptionsplattform eScriptorium zur Verfügung gestellt (eScriptorium/Universitätsbibliothek Mannheim, 2023).

Seit November 2022 bietet das Kompetenzzentrum zudem das niedrigschwellige Angebot einer offenen Sprechstunde via Zoom an (Will, 2022). Hier können sich Interessierte aus allen Bereichen mit Fragen rund um das Thema automatische Texterkennung an das Team des Kompetenzzentrums wenden. Diese Sprechstunde wird ergänzt durch eine stetig aktualisierte FAQ-Sektion auf der Projekthomepage (OCR-BW, 2023).

Auf diesem Poster soll das Serviceangebot der Universitätsbibliotheken Mannheim und Tübingen mit Fokus auf der Erzeugung FAIRer Ground-Truth-Daten vorgestellt werden. Dabei werden alle Schritte von der Datenauswahl über die Erzeugung der Ground-Truth-Daten selbst bis hin zur Veröffentlichung und Nachnutzung beleuchtet.


Bibliographie

  • Gehrlein, Sabine, Jan Kamlah, Matthias Pintsch, Irene Schumm und Stefan Weil. 2020. “Vom Papier zur Datenanalyse. ‘Neue’ historische Forschungsdaten für die Wirtschaftswissenschaften.” In E-Science-Tage 2019: Data to Knowledge, herausgegeben von Vincent Heuveline, 598:140–52. Heidelberg: heiBOOKS. https://doi.org/10.11588/heibooks.598.c8423.
  • „Home - READ-COOP“. READ-COOP. Abgerufen am 27.04.2023. https://readcoop.eu/.
  • „OCR-BW | Kompetenzzentrum OCR der Universitätsbibliotheken Mannheim und Tübingen“. OCR-BW | Kompetenzzentrum OCR der Universitätsbibliotheken Mannheim und Tübingen. Abgerufen am 13.07.2023. https://ocr-bw.bib.uni-mannheim.de/.
  • „OCR-D“. OCR-D. Abgerufen am 12.07.2023. https://ocr-d.de/.
  • „Projekte der UB | Universität Mannheim“. Universitätsbibliothek | Universität Mannheim. Abgerufen am 12.07.2023. https://www.bib.uni-mannheim.de/ihre-ub/projekte-der-ub/.
  • „Projektübersicht | OCR-BW.“ OCR-BW | Kompetenzzentrum OCR der Universitätsbibliotheken Mannheim und Tübingen. https://ocr-bw.bib.uni-mannheim.de/projektuebersicht/
  • „Scripta / escriptorium - GitLab“. GitLab, 27.04.2023. https://gitlab.com/scripta/escriptorium/.
  • „GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)“. GitHub. Abgerufen am 12.07.2023. https://github.com/tesseract-ocr/tesseract.
  • Universitätsbibliothek Mannheim, „eScriptorium - Homepage“, OCR-BW | Kompetenzzentrum OCR der Universitätsbibliotheken Mannheim und Tübingen, abgerufen am 12.05.2023, https://ocr-bw.bib.uni-mannheim.de/escriptorium/.
  • Weil, Stefan. 2018. “126 Jahre Zeitung online - Fundgrube für historisch Interessierte und Motor für die Bibliotheks-IT: 126 years of the newspaper online.”, präsentiert bei 107. Deutscher Bibliothekartag, Berlin, Deutschland.
  • Weil, Stefan und Jan Kamlah. 2019. “Forschungsdaten aus Digitalisaten.” In E-Science-Tage 2019: Data to Knowledge, herausgegeben von Vincent Heuveline, 598:189. Heidelberg: heiBOOKS.
  • Weil, Stefan und Jan Kamlah. 2020. “OCR-BW – Kompetenzzentrum OCR der Universitätsbibliotheken Mannheim und Tübingen: Texterkennung von historischen Drucken mit OCR-D und Tesseract.”, präsentiert bei Dokumentenerbe digital - Digitalisierung historischer Bestände baden-württembergischer Bibliotheken, Online.
  • Will, Larissa (2022, 28. Oktober). Projektende OCR-BW und 1. offene OCR-Sprechstunde | OCR-BW. OCR-BW | Kompetenzzentrum OCR der Universitätsbibliotheken Mannheim und Tübingen. https://ocr-bw.bib.uni-mannheim.de/2022/10/28/projektende-ocr-bw-und-1-offene-ocr-sprechstunde/