Vom Zettel zum TEI annotierten Beleg Die Verknüpfung von lexikografischen Daten mit ihren Quellentexten im Projekt DEMel

Müller, Caroline; Stephan, Robert; Labahn, Karsten
https://zenodo.org/records/10698378
Zum TEI/XML Dokument

Wörterbücher zu historischen Sprachstufen führen meist Beispiele an, um die Verwendung und Bedeutung eines Wortes im untersuchten Zeitraum zu verdeutlichen. Im Fall von digitalen Wörterbüchern, wie dem MWB Online1  und dem Dictionary of Old Norse Prose,2  werden diese Belege immer häufiger mit dem zugehörigen Quellentext verknüpft. Dadurch ist es möglich, den Beleg im vollständigen Textzusammenhang anzuzeigen. Laut Plate (2022) handelt es sich dabei um einen zukünftigen „Standard der Online-Publikationen“. Wie kann diese Verbindung jedoch möglichst automatisch hergestellt werden, wenn wesentliche Informationen, wie das Zitat und die genaue Stellenangabe, bisher nur in Form eines digitalisierten Belegzettels vorliegen? Diese Frage stellt sich im Projekt DEMel.

Das von der DFG geförderte Projekt Diccionario del Español Medieval electrónico (DEMel) stellt ein lemmatisiertes Datenarchiv zum mittelalterlichen Spanisch zur Verfügung. Es basiert auf einer in Zettelkästen archivierten Belegsammlung, die in Heidelberg unter der Leitung von Prof. Bodo Müller für ein Wörterbuch zum spanischen Wortschatz des 10. bis beginnenden 15. Jahrhunderts zusammengestellt wurde.3  Dieses Material wurde von den Instituten für Romanistik der Universitäten Rostock und Paderborn und der Universitätsbibliothek Rostock im Rahmen des Projektes DEMel digitalisiert und erschlossen. Bei der Erschließung der Inhalte auf den Belegzetteln wurde zunächst auf eine automatische Texterkennung (ATR) verzichtet, da ihre Verwendung aus mehreren Gründen nicht sinnvoll erschien: die Mischung aus hand- und maschinenschriftlichem Material, die zahlreichen unterschiedlichen Handschriften sowie das komplexe Layout, das eine korrekte semantische Segmentierung der Zettel erschwert. Die wichtigsten Informationen wurden daher mit einer eigens entwickelten Erfassungsanwendung per Hand erfasst und in einer relationalen Datenbank gespeichert. Nun sind die rund 650.000 Belege zu über 31.000 Stichwörtern zusammen mit den Digitalisaten der zugehörigen Belegzettel in einem Webportal unter https://demel.uni-rostock.de frei zugänglich und durchsuchbar.4 

Placeholder
Beispiel eines Belegzettels
Das nächste Projektziel ist die bereits erwähnte Verknüpfung der von den Zetteln erfassten Belege mit ihren mittelalterlichen Quellen. Zu diesem Zweck wurden alle im digitalen Volltext zur Verfügung stehenden Quellentexte in XML/TEI konvertiert. Im Anschluss erfolgt darin die Auszeichnung der DEMel-Belege, wobei auf die Belegdaten aus der Datenbank zurückgegriffen wird. Indem nach der erfassten Wortform im zugehörigen Quellentext gesucht wird, werden automatisch alle möglichen Textstellen ermittelt. Anschließend muss nur noch die auf dem Belegzettel notierte Textstelle ausgewählt werden. Auch diese Aufgabe soll trotz der noch nicht erfassten Stellenangaben teilweise automatisiert werden. Dafür wird bei den Belegzetteln automatische Texterkennung eingesetzt: für die maschinenschriftlichen die Software Tesseract und für die handschriftlichen Transkribus. Dabei wurde in Transkribus nicht ein Modell für jede Hand trainiert, sondern ein gemeinsames Modell für alle. Wie es bei den sogenannten generischen Modellen üblich ist (vgl. Hodel, 2023), ist die Fehlerquote (Character Error Rate, CER) mit über 10 % relativ hoch.5  Da die Ergebnisse der Texterkennung aber nur für einen Abgleich mit den möglichen Textstellen verwendet werden, stört das nicht.

Zwischen den zur Auswahl stehenden Textstellen und dem auf dem Belegzettel erkannten Text wird die Levenshtein-Distanz gebildet. Sie gibt an, wie viele Änderungen notwendig sind, um die Textstellen in den ATR-Text umzuwandeln (Levenshtein, 1966). Auf diese Weise lässt sich die ähnlichste Textstelle ermitteln, die normalerweise auch die gesuchte ist. Sofern die Distanz sehr klein und die Differenz zur nächstbesten Textstelle sehr groß ist, wird der Beleg im Text an der entsprechenden Stelle automatisch ausgezeichnet. Die übrigen Belege werden von studentischen Hilfskräften mit einer Erfassungsanwendung, deren Prototyp im Rahmen einer Masterarbeit entwickelt wurde (C. Müller, 2022), bearbeitet. Die Textstellen werden nach ihrer Levenshtein-Distanz zum Belegzettel sortiert, so dass die Hilfskräfte in der Regel nur zwischen den obersten Textstellen auswählen müssen. Dadurch wird die Bearbeitung sehr beschleunigt.

Durch die Auszeichnung der Belege in den TEI kodierten Quellentexten wird die gewünschte Verknüpfung zwischen den lexikografischen Daten und ihren Quellen hergestellt. Sie kann im Webportal für neue Features, wie die Anzeige der Belegkontexte und Stellenangaben sowie dem Sprung in den Volltext, verwendet werden. Das Poster stellt den Prozess der (semi)automatischen Belegauszeichnung schematisch dar. Dabei werden die Vor- und Nachteile der gewählten Methode diskutiert sowie erste Ergebnisse zur Evaluation des Workflows präsentiert.


Fußnoten

1 http://www.mhdwb-online.de
2 https://onp.ku.dk
3 Ab 1987 erschienen 26 Faszikeln des Diccionario del español medieval mit Lemmata von a bis almohatac (B. Müller, 1987-2005). 2007 wurden die Arbeiten an dem Wörterbuch aus finanziellen Gründen eingestellt.
4 Die Daten sollen außerdem zum Projektende in offenen Datenrepositorien wie Zenodo veröffentlicht werden. Der Sourcecode des Portals ist bereits auf GitHub (https://github.com/ubrostock/demel_webportal) zugänglich.
5 Das Modell soll im weiteren Projektverlauf optimiert werden.

Bibliographie

  • Hodel, Tobias. 2023. "Konsequenzen der Handschriftenerkennung und des maschinellen Lernens für die Geschichtswissenschaft. Anwendung, Einordnung und Methodenkritik." Historische Zeitschrift 316: 151-180. https://doi.org/10.1515/hzhz-2023-0006.
  • Levenshtein, Vladimir I. 1966. "Binary codes capable of correcting deletions, insertions, and reversals." Soviet Physics – Doklady 10 (8): 707-710.
  • Müller, Bodo. 1987-2005. "Diccionario del español medieval, vol. 1, fascículos 1-10, vol. 2, fascículos 11-20, vol. 3, fascículos 21-26." Heidelberg: Winter.
  • Müller, Caroline. 2022. "Linking historical dictionary data with its sources: A tool for the semi-automatic markup of attestations." Masterarbeit, Universidad Nacional de Educación a Distancia. https://doi.org/10.18453/rosdok_id00004241.
  • Plate, Ralf. 2022. "Zur philologischen Theorie und Praxis der digitalen historischen Lexikographie. Am Beispiel des Mittelhochdeutschen Wörterbuchs." In Historische Lexikographie des Deutschen: Perspektiven eines Forschungsfeldes im digitalen Zeitalter, hg. von Gerhard Diehl und Volker Harm, 121-136. Berlin, Boston: De Gruyter. https://doi.org/10.1515/9783110758948-008.