Explorationen unbekannter Korpora mit Topic Modeling und manueller Annotation. Zusammenarbeiten von Mensch und Maschine revisited

Franken, Lina; Dennis, Möbus
https://zenodo.org/records/10698212

Fragestellung

Computationelle Verfahren können in den seltensten Fällen erkenntnisreich sein, wenn sie nicht mit einer manuellen, respektive qualitativen Untersuchung des Korpus einhergehen. In der Regel werden zu diesem Zweck Mensch-Maschine-Interaktionen umgesetzt. Doch wie verändern sich Erkenntnisse und Forschungsprozesse durch diese Erweiterungen? Noch immer ist zu wenig evaluiert, welche Konsequenzen die Anwendung von Verfahren der Digital Humanities für Forschungsergebnisse haben (Franken/Möbus 2023 in Review). Im Workshop setzen wir an dieser Stelle an und untersuchen gemeinsam, aufbauend auf bisherigen Studien der Workshopleitenden, wo und wie sich hermeneutische Erkenntnisproduktion verändert. Hierfür wird Topic Modeling exemplarisch herangezogen, weil dies als unüberwachtes maschinelles Lernen besonders gut geeignet ist, um komplexe und bisher kaum erschlossene Korpora zu untersuchen (Andorfer 2017; Philipps 2018). Es wird kombiniert mit manuellen Annotationen in Tradition der Grounded Theory (Charmaz 2014; Franken/Koch/Zinsmeister 2020), die im Workshop mit dem Annotationstool Catma umgesetzt werden (Gius et al. 2023). Workshopteilnehmende lernen nicht nur das Zusammenspiel von computationellen und manuellen Arbeitsschritten kennen, sondern gestalten dies selbst und diskutieren die epistemologischen Konsequenzen. Die Erkenntnisse ebenso wie das konkrete Vorgehen sind im Anschluss an den Workshop auf eigene Korpora übertragbar.

Hintergrund der Workshopreihe

Ausgehend von den auf der DHd 2023 diskutierten Ergebnissen eines Workshops zur Gegenüberstellung manueller Annotation und durch maschinelles Lernen erzeugter Annotation (Egger et al. 2023; Franken/Möbus 2023 in Review) möchten wir einen wesentlich überarbeiteten Workshop anbieten.

Der erste Workshop, der im Juni 2022 digital als Kooperation zwischen der FernUniversität in Hagen (Möbus) und der LMU München (Franken) durchgeführt wurde, orientierte sich grob am Aufbau eines Turing Tests und diente der Beantwortung der Frage, wie angesichts der rapide steigenden digitalen Verfügbarkeit lebensgeschichtlicher Interviews (etwa im Rahmen von Oral-History.Digital¹ ) computationelle und traditionelle Auswertungsverfahren ineinandergreifen können. Die Teilnehmenden verschiedener Disziplinen und Professionalisierungsgrade wurden in zwei Gruppen unterteilt, von denen eine zunächst über Topic Modeling, die andere über manuelle Annotation in ein digital aufbereitetes Korpus lebensgeschichtlicher Interviews eingestiegen ist (Lebensgeschichte und Sozialkultur im Ruhrgebiet² ) . Zur besseren Betreuung und ethnografischen Dokumentation wurden diese beiden Gruppen nochmal in jeweils zwei Teilgruppen geteilt. Mit diesem Aufbau konnten wir erheben, in welcher Reihenfolge den Teilnehmenden ein besserer Einstieg in die völlig unbekannten Daten gelang. Durch teilnehmende Beobachtung und eine nachträgliche Befragung haben wir wichtige Erkenntnisse gesammelt, um sowohl eine optimierte Topic-Modeling-Pipeline als auch einen neu konzipierten explorativen Workshop zu entwickeln.

Ziele des Workshops

Im Rahmen des Workshops möchten wir unsere Ergebnisse kurz vorstellen und diese weiterentwickeln. Dabei erproben die Workshopteilnehmenden gemeinsam, wie Zusammenarbeiten von Mensch und Maschine in der Forschungspraxis aussehen. Ziel ist es mittelfristig, Empfehlungen für den Einsatz computationeller Verfahren in der qualitativen Forschung aussprechen zu können.

Die aufgeworfenen Fragen wurden bisher mit einem heterogenen Teilnehmendenkreis diskutiert. Der Workshop im Rahmen der DHd 2024 richtet sich hingegen explizit an die DH-Community und damit an Forschende, deren Blick auf die sich verändernden Epistemologien bereits geschult ist. Hierfür muss kein explizites Vorwissen vorhanden sein, aber entsprechende Fragen tauchen doch häufig auf, wenn DH-Forschungen realisiert werden. Im Workshop überprüfen wir gemeinsam, wer in diesen Settings Sinn konstruiert und welche Unterschiede sich ergeben.

Aufgrund der Erfahrungen im ersten Workshop wird der Workshop so aufgebaut, dass ein offenes Explorieren sowohl in der Gruppe als auch in Einzelarbeit möglich ist. Wir konnten feststellen, dass Gruppenkonstellationen großen Einfluss auf die Wahrnehmung der Methoden haben. Um die Wahrnehmungen einzelner Disziplinen und unterschiedliche Wissensbestände besser kondensieren zu können, überlassen wir es den Teilnehmenden, sich bei der Zusammensetzung der Gruppen selbst zu organisieren und an gemeinsamen Interessen zu orientieren.

Entsprechend werden, anders als beim ersten Workshop, weder Textstellen noch eine thematische Fragestellung vorgegeben, um das offene Explorieren nicht einzuschränken. Stattdessen stehen die Forschungsinteressen der Teilnehmenden im Mittelpunkt, um eine realitätsnahe Arbeitsweise und keine künstliche Laborsituation untersuchen zu können.

Als Ergebnis unseres ersten Workshops hat sich ergeben, dass das Topic Modeling einen optimalen Einstiegspunkt in die Exploration unbekannter Daten bietet und der manuellen Annotation vorgeschaltet werden sollte. Allerdings kann ein iteratives Verfahren qualitative Analysen sogleich miteinbeziehen. Durch entsprechende Funktionalitäten in der im Workshop verwendeten Topic-Modeling-Pipeline kann zwischen dem Distant-Reading des Korpus und der Ansicht konkreter Textstellen zur inhaltlichen Begutachtung on-the-fly umgeschaltet werden. Das ermöglicht die Suche nach interessanten Phänomenen im Rahmen einer Annäherung von Topic Modeling und theoretischem Sampling nach Grounded Theory.

Schließlich werden, ausgehend von der konstruktiven Kritik am ersten Workshop, für das manuelle Annotieren keine Textlängen oder Formen der Verschlagwortung vorgegeben, um dem in der Grounded Theory üblichen flexiblen Vorgehen zu entsprechen. Wir entwickeln ein Verfahren, um die statisch vergebenen Topics mit den dynamisch vergebenen Annotationen in der nachträglichen Auswertung der Workshopergebnisse ins Verhältnis zu setzen.

Format und Zielpublikum

Der Workshop ist als Hands-On-Workshop konzipiert. Der klassische Bestand Lebensgeschichte und Sozialkultur im Ruhrgebiet des Archivs “Deutsches Gedächtnis” wird in einem CoLab mit einem vortrainierten Topic Model exploriert. Nach einer kurzen Einführung durch die Workshopleitenden und der Vorstellung der Workshopteilnehmenden beschäftigen wir uns am ersten Tag mit der Korpuserkundung durch Topic Modeling. Am zweiten Tag steigen wir davon ausgehend in die manuelle Annotation von interessanten Textpassagen ein, wobei ein iteratives Hin- und Herspringen bei Bedarf bereits am ersten Tag umgesetzt wird. Dabei gilt es, fortlaufend unsere Erkenntnissprozesse zu reflektieren. Hierfür werden Methoden kollaborativen Forschens (Bieler et al. 2021; Fortun et al. 2021) und Methoden des Walkthroughs (Light et al. 2013, Amelang 2023) genutzt.

Das explorative Setting des Workshops dient der weiteren forschenden Erkundung des Zusammenwirkens von Mensch und Maschine, so dass während des Workshops teilnehmende Beobachtungen durch die Workshopleitenden stattfinden, die für künftige Untersuchungen verwendet werden. Im Anschluss an den Workshop sollen die Ergebnisse durch vertiefende Interviews als Walk-Throughs durch die getätigten Annotationen und durch das CoLab reflektiert werden. Die Bereitschaft zur Teilnahme an einem solchen Interview ist wünschenswert, aber keine Voraussetzung.

Es ist kein technisches Vorwissen für die Teilnahme notwendig.

Beitragende zum Workshop

Dennis Möbus ist Wissenschaftlicher Mitarbeiter am Institut für Geschichte und Biographie der FernUniversität in Hagen. Er koordiniert die Forschungsgruppe digital humanities - Forschen im digitalen Raum und ist im Rahmen von Oral-History.Digital für den Aufbau des Pilotarchivs Archiv “Deutsches Gedächtnis” online sowie die automatische Vorverarbeitung und Erschließung lebensgeschichtlicher Interviews zuständig. Seine Forschungsinteressen liegen in den Bereichen Neuere/Neueste und Zeitgeschichte, Oral History und Erfahrungsgeschichte sowie Text Mining für historische Quellen.

Lina Franken ist Universitätsprofessorin für Digital Humanities an der Universität Vechta. Ihre Forschungsinteressen liegen in der Weiterentwicklung computationeller Verfahren für qualitative Forschung und in der Beforschung epistemologischer Veränderungen in den und mit den DH anhand (diskurs)ethnografischer Methoden. In den Critical Code und Data Studies im Kontext der Science and Technology Studies forscht sie zu Algorithmen im Alltag und deren Einbezug in ethnografische Forschungen. Infrastrukturentwicklung für qualitativ-ethnografische Forschungen setzt u.a. sie als Mitglied der Design Group der Plattform for Experimental Collaborative Ethnography (PECE) um.

Benötigte technische Ausstattung

Workshopteilnehmende müssen ein eigenes Gerät mitbringen, wir benötigen Internetzugang. Im Vorfeld des Workshops werden den Teilnehmenden sowohl ein CoLab als auch der Zugang zu einer Catma-Gruppe zur Verfügung gestellt, es wird ein Google- sowie ein Catma-Account benötigt. Vor Ort werden ein Beamer sowie eine flexibel anpassbare Kombination aus Tischen und Stühlen benötigt, hilfreich wäre zudem ein Whiteboard o.ä.

Fußnoten

¹ https://www.oral-history.digital/

² https://www.fernuni-hagen.de/geschichteundbiographie/forschung/projekte/lusir-online.shtml

Bibliographie

Amelang, Katrin. 2023. „Wie Apps erforschen? Zum Zusammentreffen neuer Forschungsgegenstände und alter Methoden“. In: Hamburger Journal für Kulturanthropologie 16. https://journals.sub.uni-hamburg.de/hjk/article/view/2073.
Andorfer, Peter 2017. „Turing Test für das Topic Modeling. Von Menschen und Maschinen erstellte inhaltliche Analysen der Korrespondenz von Leo von Thun-Hohenstein im Vergleich.“ In: Zeitschrift für digitale Geisteswissenschaften. DOI: 10.17175/2017_002.
Bieler, Patrick/Bister, Milena D./Hauer, Janine/Klausner, Martina/Niewöhner, Jörg/Schmid, Christine/von Peter, Sebastian. 2021. „Distributing Reflexivity through Co-laborative Ethnography“. In: Journal of Contemporary Ethnography 50. 77–98.
Charmaz, Kathy. 2014. Constructing Grounded Theory. Introducing Qualitative Methods. 2. Aufl. Los Angeles u.a.
Egger, Nils; Franken, Lina; Möbus, Dennis; Schmid, Florian. 2023. „Oral History auf dem Weg zu Big Data: menschliche und maschinelle Annotation lebensgeschichtlicher Interviews im Vergleich“. In: Digital Humanities im deutschsprachigen Raum (DHd) 2023. Book of Abstracts. https://zenodo.org/record/7715317.
Fortun, Mike/Poirier, Lindsay/Morgan, Alli/Callahan, Brian/Fortun, Kim. 2021. “What's So Funny about PECE, TAF and Data Sharing?” Collaborative Anthropology Today. A Collection of Exceptions, hg. Von Dominic Boyer und George E. Marcus. Ithaca.
Franken, Lina; Möbus, Dennis. 2023 (in Review). „Mensch und Maschine als Team. Exploratives Topic Modeling und manuelle Annotation in der qualitativen Sozialforschung“. In: Zeitschrift für digitale Geisteswissenschaften.
Franken, Lina; Koch, Gertraud; Zinsmeister, Heike. 2020. „Annotationen als Instrument der Strukturierung“. Annotations in Scholarly Editions and Research. Functions, Differentiation, Systematization, hg. von Julia Nantke und Frederik Schlupkothen, Berlin/München/Boston. 89–108. https://doi.org/10.1515/9783110689112-005.
Light, Ben/Burgess, Jean/Duguay, Stefanie. 2017. “The Walkthrough Method. An Approach to the Study of Apps”. In: new media & society 20/3. 881–900. DOI: 10.1177/1461444816675438.
Philipps, Axel. 2018. „Text Mining-Verfahren als Herausforderung für die rekonstruktive Sozialforschung“. In: Sozialer Sinn 19/2. 367–387.