Digitale Methoden kritisch reflektieren – Die Erweiterung des Werkzeugkastens der Historiker:innen

Althage, Melanie
Zum TEI/XML Dokument

Historiker:innen setzen sich zur Erforschung der Geschichte mit einer Vielzahl ganz unterschiedlicher Quellenarten auseinander. Um das historische Quellengut entsprechend der individuellen Fragestellungen angemessen und kritisch-reflektiert zu bearbeiten, wurden mit dem historischen Werkzeugkasten eine Reihe von Methoden etabliert, die dieser Vielfalt Rechnung tragen (Überblick: von Brandt 18. Aufl. 2012). Die konkreten Verfahren müssen dabei nicht spezifisch geschichtswissenschaftlich sein, sondern können zum Teil auch aus anderen Wissenschaften entstammen, etwa den Philologien oder Wirtschaftswissenschaften. Entscheidend für die Auswahl des jeweiligen methodischen Vorgehens ist die konkrete Fragestellung in Kombination mit dem Quellenkorpus sowie die Befolgung methodischer Grundsätze, die auf die Plausibilität der Darstellung historischer Wirklich- und Wahrscheinlichkeiten zielen. Insofern wir als Historiker:innen also abhängig von unseren Fragestellungen das Untersuchungsinstrumentarium immer neu bestimmen, ist die Kritik der jeweiligen Methodik unverzichtbar (Sellin 2008, 84-96). Sie zielt darauf, die der Methode impliziten Einschränkungen zu verdeutlichen und bewusst zu machen. Erst auf dieser Basis ist dann eine angemessene Interpretation der gewonnenen Ergebnisse möglich, die wiederum Grundlage historiographischer Erzählungen ist.

Mit dem „digitalen Zeitalter“ und den Digital Humanities kamen vor allem seit den 2000er-Jahren durch die digitalen Methoden innovative Möglichkeiten zur Quellenlektüre und -auswertung für die Geschichtswissenschaften hinzu. Damit stehen nunmehr Werkzeuge zur Verfügung, die einerseits vormals analoge Tätigkeiten digital abbilden und unterstützen, wie Data Mining für die Historische Statistik, andererseits bieten quantitative Verfahren des Maschinellen Lernens wie etwa Topic Modeling mit ihrem explorativen Modellierungsansatz neuartige Ansätze, indem Texte als Daten verstanden und entsprechend flexibel skalierbar in Masse ausgewertet werden können. Für die Geschichtswissenschaften ist es entscheidend, sich mit den epistemologischen und methodologischen Konsequenzen dieser Digitalität in Bezug auf ihre Quellen und Methoden auseinanderzusetzen. Denn auch die digitalen Methoden wurden in anderen Disziplinen mit je eigenen theoretischen und methodologischen Annahmen respektive Erkenntnisinteressen entwickelt. Sie sind daher nicht ohne Weiteres auf historische Anwendungsfälle übertragbar. Um sie dennoch produktiv in den "Werkzeugkasten" der Historiker:innen zu integrieren, ist daher zunächst die "Kluft" zwischen historischer Fachdisziplin und fachfremder Methode zu identifizieren und durch geeignete Strategien zu überwinden.

Diesem Anliegen widmet sich das diesem Poster zugrunde liegende Dissertationsprojekt “Mining the Historian’s Web – Methodenkritische Reflexion quantitativer Verfahren zur Analyse genuin digitaler Quellen am Beispiel der historischen Fachkommunikation”. Zwar wird in jüngerer Zeit zunehmend untersucht, welche Implikationen mit digitalen Methoden für die Arbeit mit historischen Quellen sowie für den Erkenntnisbildungsprozess einhergehen (u.a. Hiltmann et al. 2021; Fickers 2020; König 2017; Braake et al. 2016; Wettlaufer 2016), allerdings fehlt es weitestgehend noch an einer systematischen Werkzeug- und Methodenkritik, die den verantwortungsvollen Umgang mit digitalen Methoden in den Geschichtswissenschaften begleiten muss. In Anlehnung an Diskussionen rund um Tool- und Algorithmic Criticism (Es/Schäfer/Wieringa 2021; Dobson 2019; Ramsay 2011) ist es Ziel der Dissertation, diese Lücke zu schließen. Dazu werden vergleichend etablierte Methodenkomplexe zunächst theoretisch-konzeptionell unter Berücksichtigung ihrer Entwicklungsgeschichte erarbeitet und anhand exemplarischer historischer Fragestellungen praktisch angewendet. Anschließend werden vor dem Hintergrund der besonderen Charakteristika historischer Fragestellungen und Daten die Erkenntnispotenziale und -grenzen kritisch geprüft. Auf dieser Basis wird dann abstrahierend ein Kriterien- und Fragenkatalog für die methodenkritische Evaluation und Auswahl digitaler Methoden entwickelt sowie konkrete Anwendungsempfehlungen gegeben.

Das Poster wird erste anwendungsbezogene Erkenntnisse am Beispiel von Topic Modeling vorstellen. In den digitalen Geistes- und Geschichtswissenschaften ist die 2003 vorgestellte Latent Dirichlet Allocation (LDA, Blei/Ng/Jordan 2003) hierfür am populärsten. Sie wird eingesetzt, um über die Identifikation statistisch signifikanter Sprachgebrauchsmuster in umfangreichen Textsammlungen beispielsweise die Entwicklung von Publikationstrends zu untersuchen (exemplarisch: Wehrheim 2019). Der frequente Einsatz von LDA scheint vor allem auf der hohen Verfügbarkeit zu basieren1  und weniger auf einer Evaluation der Eignung im Vergleich zu anderen Ansätzen. Für historische Fragestellungen etwa, die insbesondere die Temporalität und Kontextgebundenheit der Quellen fokussieren, weist LDA einige Limitierungen auf: Die Topic-Modellierung, deren vorrangiger Zweck die maschinelle Klassifikation umfangreicher und unstrukturierter Daten ist, berücksichtigt weder Relationen zwischen den Topics noch die Historizität der Daten. Diese im Algorithmus inhärenten Einschränkungen waren vielfach Anlass für technische Weiterentwicklungen (überblickshaft: Chauhan/Shah 2021; Vayansky/Kumar 2020); der Stand der Methodenentwicklung wird in den digitalen Geistes- und Geschichtswissenschaften allerdings bislang kaum rezipiert. Hier werden vor allem die grundsätzlichen Herausforderungen und Konsequenzen diskutiert, die mit LDA einhergehen und entsprechende Workflows zur nachhaltigen Integration in den Forschungsprozess vorgeschlagen (u.a. Hodel/Möbus/Serif 2022; Uglanova/Gius 2020; Maier et al. 2018; Fechner/Weiß 2017; Andorfer 2017). Da die Wahl des konkreten Modellierungsverfahrens aber darüber entscheidet, welche Aussagen sich über die sprachliche Struktur einer Dokumentensammlung treffen lassen, soll das Poster durch eine methodenkritische Bestandsaufnahme auch andere Topic-Modeling-Algorithmen für die historische Forschung präsentieren.


Fußnoten

1 LDA ist in zahlreichen etablierten Programmbibliotheken und gebrauchsfertigen Werkzeugen implementiert, siehe etwa MALLET ( http://mallet.cs.umass.edu/topics.php), Gensim ( https://radimrehurek.com/gensim/) oder DARIAH-DE TopicsExplorer ( https://dariah-de.github.io/TopicsExplorer/).

Bibliographie

  • Andorfer, Peter. 2017. “Turing Test für das Topic Modeling. Von Menschen und Maschinen erstellte inhaltliche Analysen der Korrespondenz von Leo von Thun-Hohenstein im Vergleich.” Zeitschrift für digitale Geisteswissenschaften 2 10.17175/2017_002.
  • Braake, Serge ter, Antje Fokkens, Niels Ockeloen und Chantal van Son. 2016. “Digital History: Towards New Methodologies.” In Computational History and Data-Driven Humanities, hg. von Bojan Bozic, Gavin Mendel-Gleason, Christophe Debruyne und Declan O’Sullivan, 23–32. Cham: Springer.
  • Brandt, Ahasver von. 2012. Werkzeug des Historikers. Eine Einführung in die historischen Hilfswissenschaften. Stuttgart: Kohlhammer 18. Aufl.
  • Blei, David M., Andrew Y. Ng und Michael I. Jordan. 2003. “Latent Dirichlet Allocation.” Journal of Machine Learning Research 3: 993–1022.
  • Chauhan, Uttam und Apurva Shah. 2021. “Topic Modeling Using Latent Dirichlet allocation: A Survey.” ACM Computing Surveys 54, 7 10.1145/3462478.
  • Dobson, James E. 2019. Critical Digital Humanities. The Search for a Methodology. Urbana (Illinois): University of Illinois Press.
  • Es, Karin van, Mirko T. Schäfer und Maranke Wieringa. 2021. “Tool Criticism and the Computational Turn. A “Methodological Moment” in Media and Communication Studies.” Medien & Kommunikationswissenschaft 69, 1: 46–64.
  • Fechner, Martin und Andreas Weiß. 2017. “Einsatz von Topic Modeling in den Geschichtswissenschaften: Wissensbestände des 19. Jahrhunderts.” Zeitschrift für digitale Geisteswissenschaften 2 10.17175/2017_005.
  • Fickers, Andreas. 2020. “Update für die Hermeneutik. Geschichtswissenschaft auf dem Weg zur digitalen Forensik?” Zeithistorische Forschungen/Studies in Contemporary History 17, 1: 157–168.
  • Hiltmann, Torsten, Jan Keupp, Melanie Althage und Philipp Schneider. 2021. “Digital Methods in Practice. The Epistemological Implications of Applying Text Re-Use Analysis to the Bloody Accounts of the Conquest of Jerusalem (1099).” Geschichte und Gesellschaft 46, 1: 122–156 10.13109/gege.2021.47.1.122.
  • Hodel, Tobias, Dennis Möbus und Ina Serif. 2022. “Von Inferenzen und Differenzen. Ein Vergleich von Topic-Modeling-Engines auf Grundlage historischer Korpora.” In Von Menschen und Maschinen: Mensch-Maschine-Interaktionen in digitalen Kulturen, hg. von Selin Gerlek, Sarah Kissler, Thorben Mämecke und Dennis Möbus, 181–205. Hagen: Hagen University Press. 10.57813/20220620-160005-0.
  • König, Mareike. 2017. “Digitale Methoden in der Geschichtswissenschaft: Definitionen, Anwendungen, Herausforderungen.” BIOS – Zeitschrift für Biographieforschung, Oral History und Lebensverlaufsanalysen 30, 1–2: 7–21. https://www.budrich-journals.de/index.php/bios/article/download/33241/28560 (zugegriffen: 2. August 2022).
  • Maier, Daniel, A. Waldherr, P. Miltner, G. Wiedemann, A. Niekler, A. Keinert, B. Pfetsch, G. Heyer, U. Reber, T. Häussler, H. Schmid-Petri und S. Adam. 2018. “Applying LDA Topic Modeling in Communication Research: Toward a Valid and Reliable Methodology.” Communication Methods and Measures 12, 2–3: 93–118 10.1080/19312458.2018.1430754.
  • Ramsay, Stephen. 2011. Reading Machines. Toward an Algorithmic Criticism. Urbana (Illinois): University of Illinois Press.
  • Sellin, Volker. 2008. Einführung in die Geschichtswissenschaft. Göttingen: Vandenhoeck & Ruprecht 2. Aufl.
  • Uglanova, Inna und Evelyn Gius. 2020. “The Order of Things. A Study on Topic Modeling of Literary Texts.” CEUR Workshop Proceedings 2723: 57–76. http://ceur-ws.org/Vol-2723/long7.pdf (zugegriffen: 2. August 2022).
  • Vayansky, Ike und Sathish A. P. Kumar. 2020. “A review of topic modeling methods.” Information Systems 94 10.1016/j.is.2020.101582.
  • Wehrheim, Lino. 2019. “Economic history goes digital: topic modeling the Journal of Economic History.” Cliometrica 13: 83–125.
  • Wettlaufer, Jörg. 2016. “Neue Erkenntnisse durch digitalisierte Geschichtswissenschaft(en)? Zur hermeneutischen Reichweite aktueller digitaler Methoden in informationszentrierten Fächern.” Zeitschrift für digitale Geisteswissenschaften 1 10.17175/2016_011.