Vernetzte Finanzen – Historische Finanzdokumente und aktuelle Herausforderungen der computergestützten Erschließung

Mischka, Bernadette
https://zenodo.org/records/10698494

Die Cash Book Collection des Rothschild Archiv London

Die Cash Book Collection (1810 – 1950) des Rothschild Archiv London umfasst insgesamt 325 Bände an handschriftlichen Aufzeichnungen zu täglichen Transaktionen des Unternehmens N M Rothschild & Sons. Die Cash Books sind genormte und standardisierte Werkzeuge im sogenannten double-entry-bookkeeping und sind sowohl Teil der Buchführung innerhalb von Institutionen, aber auch in externen Prüfungsprozessen (Fieldhouse, 1922, 31 ff.). Neben der Referenz der betreffenden Accounts im eigenen Buchführungssystem werden in genormten Tabellen jeweils das Datum, der Name der ein- oder auszahlenden Entität sowie der Vermerk von Discounts und der Einzahlungsart vermerkt. Zwischen den Ausgaben des Unternehmens, Handelskrediten und Staatsanleihen von Nationalstaaten zur Finanzierung von Kriegen oder von Infrastruktur finden sich private Ausgaben der Familie Rothschild, wie zum Beispiel Friseurbesuche, philanthropischen Tätigkeiten oder dem Erwerb von exotischen Pflanzen. Es lassen sich somit zum einen einzelne Finanzgeschäfte nachvollziehen und Indikatoren für das zeitgenössische Alltagsleben ablesen, aber gleichzeitig auch politische und soziale Netzwerke von Agenten sowie zeitgenössische Finanzierungsgeschäfte und die damit einhergehende Professionalisierung der Buchführung der wachsenden Industriestaaten im 19. Jahrhundert abbilden (Liedtke, 2006, 15 ff. sowie Flandreau & Zumer, 2016). Bestände wie die Cash Book Collection sind vor allem aufgrund des großen Volumens an manuell auszuwertenden Daten und dem damit verbundenen Ressourcenaufwand kaum für die Forschung zugänglich.

Historische Finanzdokumente in den Digital Humanities

Standardisierte und tabellarische Daten in historischen Finanz- und Verwaltungsdokumenten eignen sich als Big Data Bestände der Geschichte auf den ersten Blick besonders gut für computergestützte Auswertungsverfahren. Trotzdem waren die Quellengattungen bisher nur vereinzelt Bestandteil von automatisierten Erschließungsverfahren. Bisher waren vor allem digitale Editionen mittelalterlicher und frühneuzeitlicher Quellenbestände, wie zum Beispiel die Augsburger Baumeisterbücher¹ oder die Jahrrechnungen der Stadt Basel² , Teil wissenschaftlicher Überlegungen und Projekte (Sarnowky, 2016, 7 ff.). Vor allem Herausforderungen in der computergestützten Erkennung komplexer Layouts sowie der unzureichenden Erkennungsrate von Handschriften stellen häufig ein Hindernis für eine automatisierte Auswertung von Wirtschaftsdokumenten im Sinne eines „Distant-Counting-Ansatzes“³ dar. Anders als bei der Arbeit mit literarischen Texten sind Verfahren zur Korrektur von Zahlen im Post-Processing nur bedingt möglich und verhindert somit das automatisierte Auslesen von Zahlenwerten. Handschriftliche tabellarische Aufzeichnungen sind in den letzten Jahren zwar vermehrt in den Fokus von Erschließungsprojekten gerückt, jedoch durch ihre hohe Heterogenität und individuellen Eigenschaften meist mit explorativen Ansätzen und einem hohen Forschungsaufwand verbunden (Lehenmeier et al., 2020 sowie Constum et al. 2022). Es stellt sich somit die Frage, wie bestandserhaltende Einrichtungen intern mit handschriftlichen tabellarischen Finanzdokumenten arbeiten können oder ob diese weiterhin nur manuell analysierbar und somit durch den hohen Ressourcenaufwand größtenteils für die Forschung versperrt bleiben.

Citizen Science zur Erstellung von Ground Truth Daten

Das Dissertationsvorhaben möchte neben der Kontextualisierung des historischen Bestandes und seiner Möglichkeiten als Datengrundlage für die Geschichtswissenschaft, eine Erschließungsstrategie der handschriftlichen Tabellen mit aktuell publizierten Ansätzen und Tools erforschen. Insgesamt wurden für das Projekt 30 Jahre zwischen 1810 und 1915 in 89 Bänden des Bestandes digitalisiert. Eine erste große Herausforderung für das Projekt war die Generierung von Ground-Truth-Daten zum Training eines korpuseigenen Handschriftenmodells. Obwohl sich in den letzten Jahren immer mehr Finanzinstitutionen mit ihren historischen Beständen beschäftigt haben, waren keine publizierten Leitfäden oder Richtlinien zur Transkription von domänenspezifischen Sonderzeichen und Abkürzungen für den Dokumenttyp im 19. Jahrhundert vorhanden. Zur Generation von Ground-Truth-Daten zum Training eines Handschriftenmodells wurde in einem Citizen-Science-Projekt⁴ insgesamt 460 Seiten des Bestandes transkribiert und in einem Double-Keying-Verfahren zur Modellierung vorbereitet. Der hohe Organisationsaufwand der Betreuung sowie der Qualitätssicherung wurde hierbei ebenso deutlich wie das große Potenzial des Austausches mit den Teilnehmenden über die Dokumente, ihre Struktur und auftretende Sonderfälle in der Transkription für den Aufbau eines erweiterbaren und nachhaltigen Datensatzes.

Aktueller Stand und Ausblick

Aktuell befindet sich das Projekt in der Erschließungsphase des Bestandes. Es müssen sowohl die gewählten Ansätze der Handschriftenerkennung als auch der Tabellenerschließung evaluiert und anschließend eine sinnvolle Datenstruktur für die Dokumente im Archiv gefunden werden. Die Daten lassen sich sowohl mit Beständen innerhalb der unternehmensinternen Verwaltung, als auch mit historischen Ereignissen, Personen und Institutionen außerhalb des Unternehmens vernetzen. Für das Projekt stellt sich somit zudem die Frage einer gewinnbringenden Datenvisualisierung, die in den kommenden Jahren mit Entwicklungen und Neuerungen der Digital Humanities mitwachsen kann. Anhand des aktuellen Projektstandes lassen sich zum einen Erfahrungsberichte und -werte in der Generierung von Ground-Truth-Daten in einem Citizen-Science-Projekt erfassen, jedoch auch die Herausforderungen von Digital Humanities Projekten in Privatarchiven hinsichtlich Urheberrechten und möglicher Datenstrukturen abbilden. Durch die domänenspezifischen Eigenschaften der Dokumente kann das Projekt Hinweise und Leitfäden für weitere Forschungsvorhaben liefern, die jedoch mit einer möglichst großen Forschungscommunity diskutiert und evaluiert werden müssen.

Fußnoten

¹ https://augsburger-baumeisterbuecher.de/

² https://gams.uni-graz.at/context:srbas

³ Idee der automatisierten Auswertung der Projektdaten nach Vorbild des Distant-Reading-Ansatzes nach Franco Moretti.

⁴ https://cashbooks.app.uni-regensburg.de/

Bibliographie

Constum, Thomas, Nicholas, Kempf, Thierry, Paquet, Pierrick, Tranouez, Clément, Chatelain, Sandra, Brée, Francois, Merveille. 2022. “Recognition and Information Extraction in Historical Handwritten Tables: Toward Understanding Early 20 th Century Paris Census”. Document Analysis Systems 2022 proceedings.143-157. Cham: Springer.
Fieldhouse, Arthur. 1922. „The Student’s Elementary Commercial Book-Keeping. Accounting and Banking“. London: Simpkin, Marshall & Co.
Flandreau, Marc, Frédérik, Zumer. 2016. „Media Manipulation in Interwar France: Evidence from the Archive of Banque de Paris et des Pays-Bas, 1914–1937“. Contemporary European History 25,1, 11-36. New York: Cambrisge University Press.
Lehenmeier, Constantin, Manuel, Burghardt, Bernadette, Mischka. 2020. „Layout Detection and Table Recognition – Recent Challenges in Digitizing Historical Documents and Handwritten Tabular Data”. Digital Libraries for Open Knowledge. TPDL 2020. Lecture Notes in Computer Science, Vol 12246, 229-242. Cham: Springer.
Liedtke, Rainer. 2006. “N M Rothschild & Sons. Kommunikationswege im europäischen Bankenwesen im 19. Jahrhundert“. Köln: Böhlau Verlag.
Sarnowsky, Jürgen. 2016. “Einführung”. Konzeptionelle Überlegungen zur Edition von Rechnungen und Amtsbüchern des späten Mittelalters. 7-12. Göttingen: V&R unipress.