Von Aachen bis Zwickau: Semi-automatische Identifikation und Analyse von Korrespondenzorten in der historischen “Wiener Zeitung”

Rastinger, Nina C.; Resch, Claudia
https://zenodo.org/records/14943262
Zum TEI/XML Dokument

Einleitung 

Historische Zeitungsausgaben unterscheiden sich in vielerlei Hinsicht von heutigen Tageszeitungen. Als vertraute Konstante der Berichterstattung dürfen jedoch insbesondere jene Orts- und Datumsangaben gelten, die einzelnen Nachrichten vorangestellt werden und somit deren Beginn markieren. Sie traten bereits zu den Anfangszeiten des Pressewesens in der historischen Zeitungslandschaft auf und bildeten in weiterer Folge ein standardisiertes Formulierungsmuster, das auch verkürzt und isoliert auftreten konnte: Die verbreitete Einleitung von Berichten, wie etwa “Auß Londen hat man vom 12. Decembris [...]”, wurde allmählich durch die knappere Angabe von Ort und Zeit ersetzt, wie etwa im Beispiel “Londen 12. Dec. 1755”. 

Für die historische Presseforschung, die sich u.a. mit Postrouten, Korrespondenznetzwerken und der Verbreitung von Nachrichten beschäftigt, sind insbesondere diese – jeder Meldung vorangestellten und typographisch abgesetzten – Kurzangaben bedeutende Marker. Wie sich diese ‘Korrespondenzköpfe’ mithilfe digitaler Methoden weitgehend automatisch identifizieren und analysieren lassen, soll anhand von über 800 Ausgaben der historischen “Wiener Zeitung” diskutiert werden.

Die historische “Wiener Zeitung”

Die kürzlich eingestellte “Wiener Zeitung” blickt durch ihre Gründung im August 1703 auf eine mehr als 300-jährige Geschichte zurück, die im Vergleich zu anderen bedeutenden deutschsprachigen Zeitungen bislang kaum systematisch erforscht ist. Als “Wien[n]erisches Diarium” hatte die Zeitung den Anspruch, zweimal wöchentlich “von Orthen auß der gantzen Welt” (WD 8. August 1703, [2]) berichten zu wollen, wie es in der allerersten Ausgabe heißt. Tatsächlich bilden Berichte aus dem Ausland, wie Zenker (1903, 4) beobachtet, den “Grundstock des Blattes”, was auch eine unmittelbare Folge der damaligen behördlichen Einschränkungen war, auf die Würgler (2013, 51) ganz generell verweist: “Aufgrund der – im deutschen Sprachraum vorwiegend lokal-regional wirkenden – Zensur widmeten sich die Zeitungen des 18. Jahrhunderts zu 70% der Auslandsberichterstattung, zu knapp 30% den Nachrichten aus dem Reich und fast gar nicht dem Lokalgeschehen.” 

Der im “Wien[n]erischen Diarium” abgedruckte Teil der Auslandsberichterstattung speiste sich einerseits vermutlich aus ”übernommenen Beiträgen ausländischer Zeitungen” (Wille 2019, 167), die teilweise kaum bearbeitet und lediglich mit dem jeweiligen Herkunftsort versehen wurden, und ging andererseits auf eigene Korrespondenzen der Redaktion zurück. Immer aber wurden die Meldungen unter den genannten orts- und datumsbezogenen Gliederungsprinzipien arrangiert und – oft auch unter Zeitdruck – zur Publikation vorbereitet. Eine Übereinstimmung von “Korrespondenzort” und “Ereignisort” war dabei nicht immer gegeben, zumal Ereignisse ganzer Regionen zuvor an einem Korrespondenzort gebündelt worden waren, bis sie im “Wiener Diarium” – wie auch in anderen Wochenzeitungen des 17. und 18. Jahrhundert üblich (Goldschmidt 2020, 2) – unter Verweis auf den jeweiligen Korrespondenzort und das Absendedatum erscheinen konnten.

Erstellung der Datenbasis: Layout- und Texterkennung

Die “Wiener Zeitung”, die bis vor kurzem als die älteste noch erscheinende Tageszeitung der Welt gelten durfte, liegt heute seit ihrer Gründung als analoger Quellenbestand lückenlos vor. Ihre Digitalisierung erfolgte für beinahe alle erhaltenen Ausgaben ab 2012 durch die Österreichische Nationalbibliothek, wo im Projekt Austrian Newspapers Online (ANNO) mit damaligen OCR-Methoden auch Volltexte generiert wurden. Um die Qualität der in Frakturschrift gedruckten Texte für die Forschung zu optimieren (vgl. Resch 2023), konnte dann an der Österreichischen Akademie der Wissenschaften ab 2017 im Projekt “ Das Wien[n]erische Diarium: Digitaler Datenschatz für die geisteswissenschaftlichen Disziplinen” mit Hilfe der KI-gestützten Plattform Transkribus anhand von 6.000 Textseiten ein eigenes Texterkennungsmodelll trainiert werden, das als “German Fraktur 18th Century – WrDiarium_M9” (Resch und Kampkaspar 2020b) öffentlich zur Verfügung steht und seither breite Anwendung findet. Das Trainingsmaterial, auf dem dieses Modell basiert – 330 Ausgaben verteilt über das 18. Jahrhundert – ist als “Wienerisches DIGITARIUM” (Resch und Kampkaspar 2020a) ebenfalls veröffentlicht. 

In einem Folgeprojekt wird das bisherige technische Framework der DIGITARIUM-Webapplikation mithilfe des am ACDH-CH entwickelten DSE-Static-Cookiecutter-Templates1  erneuert, was die Aufnahme weit größerer Textdatenmengen und raschere Durchsuchbarkeit erlaubt. Grundlage für die Erstellung weiterer verlässlicher Volltexte des „Wienerischen Diariums” über Verfahren der Automated Text Recognition (ATR) ist die erfolgreiche Erkennung des Layouts, insbesondere der Textregionen, der Zeitungsausgaben. Gleichzeitig stellen historische Zeitungen für diesen Schritt der Layoutanalyse (LA) eine Herausforderung dar, indem sie verschiedene Textsorten und Paratexte mit unterschiedlichem typographischen Erscheinungsbild enthalten und graphisch diachronen Veränderungen unterliegen. Durch die große Menge an überliefertem Textmaterial würde eine manuelle Strukturauszeichnung zudem einen enormen Zeit- und Kostenaufwand bedeuten. 

Angesichts dieser Problematik sowie neuer Entwicklungen im LA-Bereich, nämlich der seit Herbst 2023 verfügbaren ‘Field Models’ der Transkriptionsplattform Transkribus (READ-COOP 2024), wurde für das “Wienerische Diarium” ein eigenes Layoutmodell trainiert. Hierbei wurde zwischen elf Strukturkategorien unterschieden, die jeweils wie folgt in XML/TEI-P5 (TEI Consortium 2024) kodiert wurden: catch-word (<fw type=”catch”>), count-date (<titlePart type=”num”>2 ), figure (<figure>), heading (<head>), imprint (<imprint>), list (<list>), main-title (<titlePart type=”main”>), paragraph (<p>), separator-single (<zone subtype=”seperator-single”>3 ), separator-double (<zone subtype=”seperator-double”>) und signature (<signed>). 

Placeholder
Abb. 1: Zwei exemplarische strukturell ausgezeichnete Seiten des “Wienerischen Diariums”

Auf Basis des abgebildeten Annotationsschemas wurden iterativ je acht zufällig gezogene, zeitlich verteilte Ausgaben – je eine pro Jahr des Siebenjährigen Kriegs (1756–1763)4  – strukturell annotiert und die Ergebnisse eines hierauf trainierten Transkribus-Feldmodells evaluiert. Dieser Schritt wurde solange wiederholt, bis nur noch minimale Fehler in der LA feststellbar waren. Die finale Version des Modells (“German Newspapers 18th Century – WrDiarium M4”) basiert auf drei Annotationsiterationen, 24 Ausgaben und 304 Seiten Trainingsmaterial und erreicht der manuellen Expertenevaluation zufolge sehr gute, oft fast fehlerfreie Ergebnisse.5 

Über dieses Modell konnten weitere 811 Zeitungsausgaben aus der Zeit des Siebenjährigen Kriegs6  automatisch mit strukturellen Annotationen versehen und in verlässliche Volltexte transformiert werden. Für letzteren Schritt wurde zusätzlich auf das bereits bewährte, im Vorgängerprojekt trainierte Texterkennungsmodell zurückgegriffen. Abschließend wurden die angereicherten Volltexte in das XML/TEI-Format transformiert und über die DIGITARIUM-Webapplikation publiziert, womit für die Jahre 1756-1763 mit 835 Ausgaben eine vollständige Datenbasis öffentlich bereitsteht.

Identifikation und Analyse von Korrespondenzköpfen

Dieses reichhaltige Teildatenset des “Wien[n]erischen Diariums” erlaubt es unter anderem, Überschriften automatisiert, z.B. über die Python-Bibliothek BeautifulSoup (Richardson 2024), auszulesen und zu untersuchen. Insgesamt lassen sich so zwischen 1756 und 1763 21.798 Überschriften mit 129.326 Tokens identifizieren. Um aus dieser Fülle die typischerweise aus Ort und Datum bestehenden Korrespondenzköpfe (z.B. “Neu=Yorck 8. Julii.”) herauszufiltern, wurden die gefundenen Fälle möglichst automatisch reduziert und abschließend manuell7  überprüft:

Placeholder
Tab. 1: Vorgehen bei der Identifikation von Korrespondenzköpfen

Mithilfe dieses Prozesses konnten aus 21.798 Überschriften 10.776 Korrespondenzköpfe identifiziert werden, die sowohl aus dem Hauptteil als auch aus dem Anhang stammen. Einzig nicht Teil der Sammlung sind sogenannte “Kurz=gefaßte Nachrichten”, in denen einzelne Meldungen ohne Datumsangabe in wenigen Sätzen zusammengefasst werden, da die Korrespondenzorte hier als Teil des Fließtextes nicht erfassbar sind. Auch ohne diese Meldungen, die zukünftig mithilfe anderer Ansätze ergänzt werden sollen, erweist sich die Datenbasis aber bereits als sehr dicht. Für jeden der über 10.000 Korrespondenzköpfe wurde das Absendedatum, so vorhanden, automatisch über reguläre Ausdrücke und der Herkunftsort manuell durch die Autorinnen ausgelesen und normalisiert. Zusätzlich wurden als Korrespondenzorte genannte Kriegslager gesondert kodiert und etwaige erwähnte Truppen vermerkt. Die Ortsnamen wurden dann mithilfe der Open-Source-Software OpenRefine (Delpeuch et al. 2024) geokodiert, wobei als Referenzdatenbank GeoNames.org zum Einsatz kam. Überdies wurden für Datenanalyse und -visualisierung Pandas (The pandas development team 2024), RAWGraphs (Mauri et al. 2017) und QGIS (QGIS.org 2023) eingesetzt.

Ausgewählte Ergebnisse

Die Untersuchung zeigt, dass die Herausgeber der “Wiener Zeitung” sich an das hielten, was Kaspar Stieler “Zeitungs=Sammler[n]” bereits 1697 empfahl, nämlich “sich auff guten Briefwechsel zu befleißigen” (Stieler 1697, 90). So enthielt die Zeitung von 1756-1763 Meldungen von über 1.000 verschiedenen Korrespondenzorten, aus denen sie in fast 50 % aller Fälle auch mehr als eine Nachricht erreichte. Am dichtesten war der Nachrichtenstrom neben Wien (933 Korrespondenzen) dabei eindeutig aus London (760 Korrespondenzen) und Paris (602 Korrespondenzen), auf die erst mit Abstand Dresden (394 Korrespondenzen) und Den Haag (288 Korrespondenzen) folgten. Selbst im eingeschränkten Untersuchungszeitraum des Siebenjährigen Krieges variierte die Menge an Korrespondenzen je Ort dabei, wie die folgenden Radardiagramme belegen:

Placeholder
Abb. 2: Zeitliche Verteilung der Korrespondenzen ausgewählter Orte

Während etwa Nachrichten aus London im gesamten Untersuchungszeitraum – insbesondere im Jahr 1756 – einen wesentlichen Teil der Inhalte des “Diariums” ausmachten, blieben Korrespondenzen aus Dresden und Den Haag 1763 fast zur Gänze aus und auch für Paris ist eine Reduktion zu verzeichnen. Grund hierfür war möglicherweise eine ‘Nachrichtendürre’ und/oder inhaltliche Verschiebung in den letzten Kriegsjahren. Auf eine stattgefundene diachrone Veränderung weisen jedenfalls auch weitere Ergebnisse hin:

Placeholder
Abb. 3: Quantität von Korrespondenz(köpf)en über Zeit und Position

Wie Abbildung 3 zeigt, finden sich nach 1757 sowohl im Hauptteil als auch im Anhang der “Wiener Zeitung” generell immer weniger Korrespondenzköpfe: Während 1756–1758 jährlich noch zwischen 1.600 und 2.100 Korrespondenzen abgedruckt werden, sinkt diese Zahl mit der Zeit und beträgt 1763 lediglich 722 Meldungen.8  Bezieht man die sich zwischen den Überschriften befindlichen Nachrichtentexte mit ein, scheint sich eine Verschiebung von Vielfalt zu Ausführlichkeit vollzogen zu haben: Statt vielen, relativ kurzen Nachrichten werden zwar zunehmend weniger, dafür aber längere Nachrichten abgedruckt. So verändert sich die durchschnittliche Textlänge von rund 190 Tokens (1756–1757) zu 260–290 Tokens (1759–1761) und erreicht 1763 einen Maximalwert von 351 Tokens. Diese Beobachtungen geben Hinweis auf Umstrukturierungen im Zeitungsbetrieb während des Siebenjährigen Kriegs und zeigen, dass die Untersuchung von Korrespondenzköpfen zum tieferen Verständnis der Funktionsweise historischer Zeitungen beitragen kann.

Hinzu kommt, dass Korrespondenzköpfen wertvolle Informationen über frühneuzeitliche Nachrichtengeschwindigkeiten innewohnen. So lässt sich etwa pro Korrespondenzort die durchschnittliche Differenz zwischen Absende- und Abdruckdatum berechnen, wodurch geographisch-räumliche und mediale Distanz in Bezug zueinander gesetzt werden können. Führt man diesen Schritt für jene 206 geokodierbaren Korrespondenzorte des “Diariums” durch, von denen mindestens vier Nachrichten im Datenset vorliegen, zeichnet sich, visualisiert mit QGIS (QGIS.org 2023), folgendes Bild ab:

Placeholder
Abb. 4: Detailausschnitt der Karte zur durchschnittlichen Differenz zwischen Absende- und Druckdatum für Korrespondenzorte mit mindestens vier Meldungen

Wie die Karte zeigt, variieren die Reisezeiten von Nachrichten je nach Distanz erheblich: Meldungen aus Wien werden meist am selben Tag gedruckt; für Ostritz dauert es durchschnittlich 5,8 Tage, für Amsterdam 16,3 Tage, für Tunis 61 Tage und für New York 81,7 Tage. Bemerkenswerterweise spiegelt die zeitliche Differenz jedoch nicht immer die räumliche Entfernung wider. Beispielsweise werden Nachrichten aus dem 909 Kilometer entfernten Utrecht im Durchschnitt nach 16,1 Tagen publiziert, während Korrespondenzen aus dem 332 Kilometer ‘nahen’ Krakau rund 22 Tage benötigen. Räumliche Distanz entspricht also nicht immer medialer Distanz, was impliziert, dass mit bestimmten Orten trotz größerer räumlicher Entfernung eine schnellere Kommunikation aufrechterhalten wurde bzw. die Nachrichten anderer Orte erst in nachfolgenden Ausgaben publiziert wurden.

Generell veranschaulicht Abb. 4 eine ungleiche Dichte des Nachrichtennetzes des “Wienerischen Diariums”. Insbesondere wird deutlich, dass das Gebiet des heutigen Deutschlands eine sehr hohe Konzentration an Nachrichtenkontakten aufweist, wohingegen nur selten (direkte) Kontakte mit Orten südöstlich von Wien, v.a. dem Osmanischen Reich, bestehen zu scheinen. Informationen aus diesen Regionen wurden möglicherweise zuerst an anderen Orten gebündelt und unter deren Namen abgedruckt. Um hierüber mehr zu erfahren, sollten in Zukunft auch die Inhalte der Nachrichten selbst, etwa über Named Entity Recognition (NER), einbezogen werden.

Fazit und Ausblick

Die Auswertung von über 10.000 Korrespondenzköpfen legt offen, von welchen “Orthen auß der gantzen Welt” (WD 8. August 1703, [2]) das Lesepublikum des “Wien[n]erischen Diariums” während des Siebenjährigen Kriegs Nachrichten bezog. Diese Ergebnisse ergänzen bereits 2018 durchgeführte korpusbasierte Untersuchungen zur Nachrichtenaktualität in der frühneuzeitlichen „Wiener Zeitung“ (Resch und Rastinger 2024) und bilden ein Beispiel dafür, wie stark sich Tools und Methoden der Digital Humanities in den vergangenen Jahren – im Sinne des Konferenzthemas “Under Construction” – weiterentwickelt haben und zur Beantwortung komplexer Forschungsfragen kombiniert werden können. Insbesondere durch die verbesserte KI-gestützte Layout- und Texterkennung können Erkenntnisinteressen inzwischen an weit umfassenderes, verlässlicheres Datenmaterial herangetragen und größer dimensioniert werden als dies bisher der Fall war. Dieses Potenzial zunehmender Automatisierung wollen auch die Autorinnen weiter nutzen und künftig u.a. die Reihung der Korrespondenzen und ihren Zusammenhang mit dem Kriegsgeschehen noch genauer auswerten. Außerdem erscheint es langfristig sinnvoll, die standardisierten Korrespondenzköpfe als Annotationen in die DIGITARIUM-Webapplikation zurückzuführen, damit Nutzer*innen individuell nach Nachrichten aus bestimmten Städten wie Paris, Rom oder Bielefeld filtern können – und dadurch selbst die “gantze Welt” erkunden können.


Fußnoten

1 Der DSE-Static-Cookiecutter, der die Publikation von XML/TEI-Dateien in Form einer statischen Webapplikation über XSLT unterstützen soll, wurde von Peter Andorfer et al. (2024) entwickelt; die Transformation und Anpassung für das DIGITARIUM erfolgte durch Daniel Elsner.
2 Diese Angabe findet sich im <front>-Abschnitt des XML/TEI-Dokuments. Gleiches gilt für <titlePart type=”main”>.
3 Einfache sowie doppelte Separatoren wurden derzeit (noch) nicht in den <front>- bzw. <body>-Abschnitten aufgenommen und scheinen allein innerhalb des Elements <facsimile> auf, wo sie inklusive ihrer Koordinaten wiedergegeben werden.
4 Die Erweiterung des DIGITARIUMs um die Zeitungsausgaben des Siebenjährigen Krieges liegt darin begründet, dass für diesen Zeitraum vor längerer Zeit ein detaillierter, aber bislang ungedruckter Personen- und Sachindex erstellt worden ist, der mit diesen Ausgaben in Verbindung steht (vgl. Gestrich 2000) und in der Web-Applikation ebenfalls benutzbar gemacht werden soll.
5 Laut automatischer Evaluation durch Transkribus wird eine Mean Average Precision (mAP) von 88,06% erzielt; dieser Indikator ist jedoch kritisch zu betrachten, da der mAP-Wert bei zunehmender Trainingsbasis teilweise abgenommen hat, die Ergebnisse bei manueller Durchsicht von Seiten des Teams jedoch besser bewertet wurden.
6 Die Erscheinungsweise der „Wiener Zeitung“ verändert sich in diesem Zeitraum nicht; sie wird kontinuierlich zweimal pro Woche herausgegeben.
7 Dieser Arbeitsschritt wurde testweise manuell durchgeführt, kann in Zukunft aber noch stärker automatisiert werden, etwa über das Hinzuziehen von Ortslexika, Ähnlichkeitsalgorithmen oder Large Language Models (LLMs).
8 Diese Entwicklung lässt sich nicht durch eine generelle Abnahme des Umfangs der „Wiener Zeitung“ erklären: Im betrachteten Zeitraum bleibt sowohl die Anzahl an Ausgaben pro Jahr (104–105) als auch der jährliche Durchschnitt an Seiten pro Ausgabe (12,5–14,8 Seiten) relativ konstant.

Bibliographie

  • Andorfer, Peter, Daniel Elsner, Carl Friedrich Haak, Martin Anton Müller, Stefan Probst und Dominik Fill. 2024. acdh-oeaw/dse-static-cookiecutter: Zenodo Release (1.2). Zenodo. https://doi.org/10.5281/zenodo.14260530 (zugegriffen: 1 Dezember 2024).
  • Delpeuch, Antonin et al. 2024. OpenRefine. 10.5281/zenodo.595996.
  • Gestrich, Andreas. 2000. “Das Wienerische Diarium in der Zeit des Siebenjährigen Krieges: Ein Projektbericht.“ Aufklärung 12 (1): 73–79.
  • Goldschmidt, Katrin. 2020. Textgliederung und Textkohärenz in historischen Wochenzeitungen des 17. und 18. Jahrhunderts. Ein Modell zur Annotation von Text- und Nachrichtenstrukturen. Dissertation. Universität Bonn. 
  • Mauri, Michele, Tommaso Elli, Giorgio Caviglia, Giorgio Uboldi und Matteo Azzi. 2017. “RAWGraphs: A Visualisation Platform to Create Open Outputs.” In CHItaly '17: Proceedings of the 12th Biannual Conference on Italian SIGCHI Chapter. 10.1145/3125571.3125585.
  • QGIS.org. 2023. QGIS 3.32.0. http://qgis.org (zugegriffen: 23. Juli 2024)
  • READ-COOP. 2024. Transkribus. https://www.transkribus.org (zugegriffen am 23. Juli 2024).
  • Resch, Claudia. 2023. “Volltextoptimierung für die historische Wiener Zeitung mit einem Anwendungsszenario aus der germanistischen Sprachgeschichte.” In Digitised Newspapers – A New Eldorado for Historians? Reflections on Tools, Methods and Epistemology, hg. von Estelle Bunout, Maud Ehrmann und Frédéric Clavert, 89–111. Berlin, Boston: de Gruyter. 10.1515/9783110729214.
  • Resch, Claudia und Nina C. Rastinger. 2024. “Jederzeit der wahrhafftigsten / und allerneuestenn Berichterstattung verpflichtet: Korpusbasierte Befunde zu Aktualität und Authentizität in der frühneuzeitlichen „Wiener Zeitung”. In Zeit und Zeitgeschehen in der periodischen Presse des 17.–19. Jahrhunderts. Fallstudien zu Perzeption und Reflexion, hg. von Andreas Golob und Ingrid Haberl-Scherk, 129–149. Berlin [u.a.]: Peter Lang.
  • Resch, Claudia und Dario Kampkaspar. 2020a. Wienerisches DIGITARIUM. https://digitarium.acdh.oeaw.ac.at (zugegriffen: 23. Juli 2024).
  • Resch, Claudia und Dario Kampkaspar. 2020b. German Fraktur 18th Century – WrDiarium_M9. https://readcoop.eu/de/modelle/german-fraktur-18th-century (zugegriffen: 23. Juli 2024).
  • Richardson, Leonard. 2024. Beautiful Soup. https://www.crummy.com/software/BeautifulSoup (zugegriffen: 23. Juli 2024).
  • TEI Consortium. 2024. Guidelines for Electronic Text Encoding and Interchange. http://www.tei-c.org/P5/ (zugegriffen: 1 Dezember 2024).
  • The pandas development team. 2024. Pandas. 10.5281/zenodo.3509134.
  • Wille, Manuel. 2019. “Zeitungen des 18. Jahrhunderts im Kontext des Höflichkeitsdiskurses.“ Wiener Geschichtsblätter 74 (2): 163–181.
  • Würgler, Andreas. 2013. Medien in der Frühen Neuzeit. München: Oldenbourg Wissenschaftsverlag.  
  • Zenker, Ernst Victor. 1903. “Die Geschichte der Wiener Zeitung.” In Zur Geschichte der kaiserlichen Wiener Zeitung, 1–44. Wien: Selbstverlag der Wiener Zeitung.