Ansätze und Tools für Historische Text Reuse Detection Fragmentierter Text Reuse am Beispiel ripuarischer Inkunabeln des 15. Jahrhunderts

Ostrowski, Alina
https://zenodo.org/records/10698332

Text Reuse Detection (TRD) ist ein Teilgebiet des Natural Language Processing (NLP) mit dem Ziel, wiederverwendete Passagen (Text Reuse, TR) in distinkten Texten zu identifizieren. Seit etwa zehn Jahren wird TRD vermehrt für historische Forschung erprobt und eingesetzt, wobei typische Charakteristika historischer Sprachdaten (z.B. geringe sprachliche Standardisierung, fehlende digitale Ressourcen) die Durchführung erschweren. Der vorliegende Beitrag gibt einen Überblick über Ansätze und Tools zur Historischen TRD (HTRD). Anhand eines konkreten Forschungsvorhabens wird die Anwendbarkeit dreier HTRD-Tools ( Passim, BLAST und TextPAIR) auf kurzen TR in mittelalterlichen, volkssprachigen Texten diskutiert.

Oft zitiert ist Tracer (Büchler, 2013; vgl. Hiltmann et al., 2021), eine Software-Suite, die für einzelne TRD-Schritte unterschiedliche Algorithmen zur Verfügung stellt und mit Fingerprinting arbeitet.¹ Passim (Smith et al., 2015) und TextPAIR (Gladstone, 2018) finden Dokumente mit TR auf Basis der Überlappung ihrer Zeichen- bzw. Wort-n-Gramme. Die Dokumentenpaare werden anschließend zwecks Eingrenzung der korrespondierenden Passagen aligniert. Auch das R-Paket textreuse (Mullen, 2020) folgt diesem Schema, jedoch werden zur Berechnung der Dokument-Ähnlichkeit Min-Hashes und der Jaccard-Koeffizient zweier Texte benutzt. Einen sprachagnostischen Ansatz wählten Vesanto et al. (2017) und „codierten“ die natürlichsprachlichen Texte als Aminosäuren, die sie dann mit dem aus der Bioinformatik stammenden BLAST (Basic Local Alignment Search Tool) auf ähnliche Sequenzen hin untersuchten. Tesserae wurde speziell für die Erforschung von Allusionen in lateinischer Lyrik entwickelt (Coffee et al., 2013) und verwendet besonders weiche Ähnlichkeitskriterien sowie eine Scoring-Funktion zur nachträglichen Ergebnisfilterung. HTRD mit stochastischen Sprachmodellen wurde bisher seltener versucht (vgl. Liebl/Burghardt, 2022).

Die meisten HTRD-Methoden wurden für große Textmengen in klassischen und neuzeitlichen Sprachen mit moderater orthographischer Varianz entwickelt (z.B. Smith et al., 2015; Gladstone/Cooney, 2020), in denen oft längerer TR (>1 Satz) vorlag. Für viele historische Anwendungsfälle sind diese Prämissen jedoch nicht gegeben. Die Eignung der vorhandenen Ansätze für abweichende Szenarien soll darum am Beispiel zweier ripuarischer Inkunabeln (≈500.000 Tokens) untersucht werden. Es handelt sich um Werke aus dem Kontext der Kölner Stadtgeschichtsschreibung, die nachweislich Parallelstellen enthalten (Anonym, 1490² ; Anonym, 1499³ ; vgl. Meier, 1998, S. 78f.). Auf die Texte wurde mit Transkribus Handwritten Text Recognition (HTR) angewandt, die stellenweise eine erhöhte Fehlerrate aufweist. Zudem liegt ein hoher Grad an intra- und intertextueller orthographischer Varianz vor. Die bereits bekannten Fälle von TR im Textkorpus legen nahe, dass dieser eher fragmentiert, d.h. kurz, nicht-wörtlich und teils in Syntax, Reihenfolge oder verwendeten Lexemen abgeändert ist, was die Anwendung von TRD allgemein erschwert (vgl. Moritz et al., 2016). Hinzukommt, dass für die ripuarische Sprache keine NLP-Ressourcen, wie trainierte Lemmatisierer oder annotierte Korpora⁴ vorliegen.

Erste Tests zeigten, dass insbesondere die sprachliche Varianz der Texte sowie die Kürze des TR Probleme für die HTRD darstellen: TextPAIR und BLAST fanden mit Standardeinstellungen zwar zahlreiche, aber überwiegend triviale, Passim gar keine textuellen Ähnlichkeiten. Im Folgenden werden in stark verkürzter Form die Durchführung und die Ergebnisse eines systematischen Vergleichs der drei Programme vorgestellt.

Zunächst wurden für ein Evaluationsset⁵ 19 wörtliche bis schwach-wörtliche TR-Fälle in einem Auszug aus dem Untersuchungskorpus manuell annotiert. Außerdem wurden zwei naive Maßnahmen zur sprachlichen Vereinheitlichung umgesetzt: Erstens, regelbasierte Orthographie-Normalisierung und zweitens, „Pseudo-Lemmatisierung” durch das Clustern von Wörtern mit einem hohen Alignment-Wert bei Verwendung des Needleman-Wunsch-Algorithmus. Mit jeder Kombination dieser Präprozessierungsarten wurde ein Evaluationsset aus den annotierten Textteilen erstellt, die wiederum die Eingabedaten für Testdurchläufe jedes HTRD-Programms mit diversen Kombinationen aus Parameterwerten bildeten. Für diese wurde anschließend der F1-Score anhand eines Abgleichs zwischen den Ergebnistreffern und den 19 TR-Fällen berechnet.

Passim erreichte die besten Evaluationswerte, gefolgt vom ebenfalls mit Zeichen-n-Grammen arbeitenden BLAST (Tab. 1)⁶ . Für TextPAIR und Passim stellte sich die Anwendung der Pseudo-Lemmatisierung als erfolgreich heraus, wohingegen das sprachagnostische BLAST mit nicht-vorverarbeiteten Texten erfolgreicher war. Insgesamt ist der F1-Score aller Programme trotz optimierter Parameterwerte niedrig (<0,5) und die Precision bei erhöhtem Recall sehr gering (Tab. 2). In Gesamtdurchläufen mit diesen optimierten Parameterwerten wurden im Korpus zwar zuvor unbekannte Parallelstellen gefunden, doch wegen der Kürze der n-Gramme waren über 70% aller Ergebnisse triviale Ähnlichkeiten (Namen, Mehrwort-Ausdrücke, Phrasen).

Es lässt sich festhalten, dass die getesteten, auf n-Gramm-Vergleichen basierenden HTRD-Ansätze zwar in der Lage sind, Parallelstellen in ripuarischen Texten zu erkennen, und somit einen Mehrwert für die Textanalyse bieten, doch dass für die zuverlässige Erkennung von komplexem TR in vormodernen, deutschsprachigen Texten weitere Forschung nötig ist oder gänzlich andere Ansätze verwendet werden müssen.

Fußnoten

¹ Tracer war trotz angemessener Versuche nicht (mehr) zugänglich.

² Veröffentlichung in Vorbereitung.

³ Volltext bereitgestellt vom Projekt „Koelhoffsche Chronik 1499 digital“ (https://www.uni-muenster.de/Geschichte/histsem/LG-G/Forschen/koelhoffschechronik.html; Bruch, 2023).

⁴ Sprachlich entfernt verwandt aber mit geringer Type-Überlappung: ReN-Team, 2021.

⁵ Veröffentlichung in Vorbereitung.

⁶ Die n-Gramm-Länge steht stellvertretend für zahlreiche untersuchte Programm-Parameter. 30% aller TextPAIR-Durchläufe konnte wegen eines internen Programmfehlers nicht berücksichtigt werden.

Bibliographie

Anonymus. 1490. Der Doernenkrantz van Collen . Köln: Johann Koelhoff d. J. Digitalisat: https://tudigit.ulb.tu-darmstadt.de/show/inc-ii-674 (zugegriffen: 5.12.2023).
Anonymus. 1499. Die Cronica van der hilliger Stat van Coellen. Köln: Johann Koelhoff d. J. Digitalisat: https://sammlungen.ulb.uni-muenster.de/hd/content/titleinfo/7159780 (zugegriffen: 5.12.2023).
[BLAST:] Vesanto, Aleksi et al. Text Reuse Detection with BLAST. Ohne Version (Stand 2019). URL: https://github.com/avjves/textreuse-blast.
Bruch, Julia. 2023. „Mit Studierenden edieren: Digitale Editionen als Chance für die Lehre.“ DigiTRiP. https://digitrip.hypotheses.org/1278 (zugegriffen: 19.07.2023).
Büchler, Marco. 2013. Informationstechnische Aspekte des Historical Text Re-use. PhD diss., Universität Leipzig. urn:nbn:de:bsz:15-qucosa-108515.
Coffee, Neil, Jean-Pierre Koenig, Shakthi Poornima, Christopher W. Forstall, Roelant Ossewaarde und Sarah L. Jacobson. 2013. „The Tesserae Project: intertextual analysis of Latin poetry.“ Literary and Linguistic Computing 28 (2): 221–28. 10.1093/llc/fqs033.
Franzini, Greta, Marco Passarotti, Maria Moritz und Marco Büchler. 2018. „Using and Evaluating TRACER for an Index Fontium computatus of the Summa Contra Gentiles of Thomas Aquinas.“ In Proceedings of the Fifth Italian Conference on Computational Linguistics CLiC-It 2018, hrsg. von E. Cabrio, A. Mazzei und F. Tamburini, 1–11. https://books.openedition.org/aaccademia/3369 (zugegriffen: 19.07.2023).
Gladstone, Clovis. 2018. „TextPAIR: a new high-performance sequence aligner.“ ARTFL Project Research Blog. https://artfl.blogspot.com/2018/12/textpair-new-high-performance-sequence.html (zugegriffen: 19.07.2023).
Gladstone, Clovis und Charles Cooney. 2020. „Opening new paths for scholarship: Algorithms to track text reuse in Eighteenth Century Collections Online.“ In Digitizing Enlightenment: Digital Humanities and the Transformation of Eighteenth-Century Studies, hrsg. von S. Burrows und G. Roe, S. 353–374. Oxford University Studies in the Enlightenment 2020:07. Liverpool.
Hiltmann, Torsten, Jan Keupp, Melanie Althage und Philipp Schneider. 2021. „Digital Methods in Practice: The Epistemological Implications of Applying Text Re-Use Analysis to the Bloody Accounts of the Conquest of Jerusalem (1099).“ Geschichte und Gesellschaft 47 (1): 122–56. 10.13109/gege.2021.47.1.122.
Liebl, Bernhard und Manuel Burghardt. 2022. „The Vectorian API: A Research Framework for Semantic Textual Similarity (STS) Searches.“ In Digital Humanities 2022: Conference Abstracts, hrsg. von Yifan Wang, 654–56. Tokio.
Meier, Robert. 1998. Heinrich van Beeck und seine „Agrippina“: Ein Beitrag zur Kölner Chronistik des 15. Jahrhunderts. Mit einer Textdokumentation. Kölner historische Abhandlungen 41. Köln.
Moritz, Maria, Andreas Wiederhold, Barbara Pavlek, Yuri Bizzoni und Marco Büchler. 2016. „Non-Literal Text Reuse in Historical Texts: An Approach to Identify Reuse Transformations and its Application to Bible Reuse.“ In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 1849–59. 10.18653/v1/D16-1190.
Mullen, Lincoln. 2020. textreuse: Detect Text Reuse and Document Similarity. https://docs.ropensci.org/textreuse, https://github.com/ropensci/textreuse.
[Passim:] Smith, David A. et al. passim. Version 2.0.0 alpha 2 (Stand 2022). URL: https://github.com/dasmiq/passim/releases/tag/v2.0.0-alpha.2.
ReN-Team. 2021. „Reference Corpus Middle Low German/Low Rhenish (1200–1650); Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200–1650)“ (Version 1.1) [Data set]. 10.25592/uhhfdm.9195.
Smith, David A., Ryan Cordell und Abby Mullen. 2015. „Computational Methods for Uncovering Reprinted Texts in Antebellum Newspapers.“ American Literary History 27 (3): E1-E15.
[TextPAIR:] ARTFL-Project. TextPAIR (Pairwise Alignment for Intertextual Relations). Version 2.1 (Stand Aug. 2023). URL: https://github.com/ARTFL-Project/text-pair/releases/tag/v2.1.0.1.
[Transkribus:] Kahle, Philip, Sebastian Colutto, Günter Hackl und Günter Mühlberger. 2017. „Transkribus - a Service Platform for Transcription, Recognition and Retrieval of Historical Documents.“ In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 19–24. 10.1109/ICDAR.2017.307.
Vesanto, Aleksi, Filip Ginter, Hannu Salmi, Heli Rantala, Asko Nivala und Tapio Salakoski. 2017. „A System for Identifying and Exploring Text Repetition in Large Historical Document Corpora.“ In Proceedings of the NoDaLiDa 2017 Workshop on Processing Historical Language, 330–33. https://aclanthology.org/W17-0249 (zugegriffen: 19.07.2023).