Erfahrungen aus dem Citizen Science-Projekt Itinera Nova als Taktgeber für Digital Humanities-Projekte

Bigalke, Jan; Blumtritt, Jonathan; Drach, Sviatoslav; Löbbert, Benedikte; Neuefeind, Claes
https://zenodo.org/records/10698368
Zum TEI/XML Dokument

Einleitung

Im April 2022 wurde das Weißbuch “Citizen-Science-Strategie 2030 für Deutschland” mit 94 Handlungsempfehlungen für 15 Handlungsfelder veröffentlicht, mit dem Ziel, die Citizen Science in Gesellschaft und Wissenschaft zu stärken, um deren Innovationspotenziale entfalten zu können (Bonn et al., 2021). Die formulierten hohen Erwartungen an Citizen Science treten aber nicht selten in Kontrast zu den tatsächlichen Projektergebnissen (Smolarski et al., 2023).

Ein positives und prominentes Beispiel für ein Citizen-Science-Projekt in den Digital Humanities ist das Projekt Gruß & Kuss (Rapp et al., 2022), das Bürger:innen mit Hilfe von entwickelten Tools und entsprechenden Veranstaltungen und Schulungen in den Prozess der Digitalisierung und Untersuchung einbindet.

In diesem Vortrag stellen wir Erfahrungen aus dem Kontext des Cologne Center for eHumanities (CCeH) und der Zusammenarbeit mit verschiedenen beteiligten Akteur:innen – Freiwillige, Archivmitarbeiter:innen, Fachwissenschaftlern:innen und Research Software Engineers – vor und diskutieren diese anhand dreier ausgewählter Handlungsfelder des international beachteten Weißbuchs, die aus Perspektive eines DH-Kompetenzzentrums besonders relevant sind: 1) Freiwilligenmanagement, 2) Datenqualität und Datenmanagement, 3) Sensorik und künstliche Intelligenz.

Ausgangspunkt bildet das Projekt Itinera Nova, das mit großem Erfolg wesentlich auf Freiwilligenarbeit bei der Transkription und Erschließung von Quellen setzt und schon seit 2009 technisch-methodisch vom CCeH begleitet wird. Diesem bereits fest etablierten Citizen-Science-Projekt stellen wir zwei sehr unterschiedlich verfasste Projekte gegenüber. Es handelt sich dabei um die jeweils seit 2022 geförderten Projekte DigiByzSeal (ANR-DFG, Gepris #469385434) und Beginen in Köln (DFG, Gepris #491803989; Böhringer und Weber, 2022; Bigalke et al., 2023). Anders als im Fall von Itinera Nova handelt es sich hier um “klassische” DH-Kooperationsprojekte mit Fachwissenschaftler:innen, bei denen keine öffentliche Beteiligung im Sinne der Citizen Science vorgesehen ist. Entlang der oben genannten Handlungsfelder stellen wir heraus, wie Vorgehensweisen und Erfahrungen aus dem Bereich der Citizen Science in der Zusammenarbeit mit Fachwissenschaftler:innen Anwendung finden und skizzieren ein gemeinsames infrastrukturelles Modell, das sich dabei bewährt hat, jeweils zugeschnittene Werkzeuge zur Verfügung zu stellen, um nicht-technisch versierten Bearbeiter:innen schnell in die Lage zu versetzen, an der Datenbearbeitung mitzuwirken.

Ausgangslage

Das Projekt Itinera Nova hat die Digitalisierung und Erschließung der Schöffenregister und Rechnungsbücher der belgischen Stadt Löwen zum Ziel. Der betreffende Bestand umfasst weit über 1.300.000 Seiten aus dem Zeitraum 1361–1795. Die Bearbeitungspipeline reicht vom Erstellen der Digitalisate über das Anlegen von Metadaten bis zur Archivierung der Rohdaten. Digitalisate und Metadaten werden auf der Projektwebseite zunächst intern den Bearbeiter:innen zugänglich gemacht und dort indexiert, d.h. einzelne Akte werden auf den Digitalisaten identifiziert und wiederum mit Metadaten versehen. Die einzelnen Akte werden transkribiert und nach abschließender Prüfung veröffentlicht.

Das Ziel des Projekts DigiByzSeal ist es, byzantinische Bleisiegel zu digitalisieren, zu beschreiben und damit ein umfassendes Corpus zur weiterführenden Forschung in der Byzantinistik zur Verfügung zu stellen. Die betreffenden Sammlungen umfassen ca. 4000 Siegel. Die Auszeichnung und Annotation der Siegel erfolgt in XML, in dem auf EpiDoc basierenden SigiDoc-Schema.

In dem Projekt Beginen in Köln soll eine über Jahrzehnte erstellte und gepflegte Textdatenbank mit rund 3000 Einträgen mit semantischen Kategorien erschlossen werden. Gegenstand der Datenbank sind Regesten zu den mittelalterlichen Schreinsbüchern der Stadt Köln, die eine detaillierte prosopographische, soziale und sozial-topographische Auswertung zu Frauen vorlegen, die die frommen Lebensweise der Beginen wählten.

Handlungsfelder

Handlungsfeld Freiwilligenmanagement

„Im Jahr 2030 zeichnen sich Citizen-Science-Projekte durch ein professionelles Freiwilligenmanagement aus.“ (Bonn et al., 2021)

Im Mittelpunkt des Itinera Nova-Projektes am Stadtarchiv Leuven steht eine Freiwilligencommunity von rund 50 Personen, die im Wesentlichen von einer/m hauptamtlichen Archiv-Mitarbeiter:in betreut wird. Freiwillige sind an allen oben genannten Schritten der Bearbeitung nicht nur beteiligt, sondern führen diese maßgeblich aus. Der Arbeitsschwerpunkt liegt bei der zeitintensiven Transkription. Die dauerhafte Finanzierung der Erschließung eines so umfangreichen Bestands in dieser Tiefe wäre ohne das Modell des zivilen Engagements kaum denkbar.

Die Freiwilligencommunity muss dauerhaft aufrechterhalten und ausgebaut werden. Die Rolle des Community-Managements ist dabei entscheidend (so auch Vohland et al., 2021). Das in Leuven bereits langfristig gepflegte “Vereinsleben” umfasst verschiedene Events wie Meetings in Kleingruppen, Workshops und Feiern im Stadtarchiv, bei denen die Akteur:innen die aktuellen Projektaufgaben besprechen, sich über die spezifischen Themen austauschen sowie die Kompetenzen ausbauen, die offenen Fragen klären oder einfach nur sozial zusammenkommen. Die Folgen der Corona-Pandemie, Vielfalt von Aufgaben und Kompetenzen, der Austausch mit vielen Akteur:innen intern und auf internationaler Ebene und das Bereitstellen von Tools und Räumlichkeiten (sowohl digitale als auch analoge) stellen dabei große Herausforderungen dar.

Diese Tools umfassen sowohl am CCeH bereitgestellte, wie die eigene Projekt-Webplattform, als auch externe, wie zum Beispiel Transkribus1 . Durch Feedbackrunden wird sichergestellt, dass die Anmerkungen und Wünsche von Citizen Scientists (vor allem im Bereich UX/UI) ermittelt und berücksichtigt werden können.

In dem Projekt DigiByzSeal sind rund 10 Siegelkundler:innen verteilt auf die deutschen und französischen Projektstandorte unmittelbar eingebunden. Der Adressatenkreis des Vorhabens ist jedoch weiter, denn schließlich soll der international verteilten Forschungscommunity mit dem SigiDoc-Profil ein auf EpiDoc/TEI basierendes Modell für die Beschreibung von Siegeln an die Hand gegeben werden. Das Projekt veranstaltet Workshops und Schulungen, bei denen schnell der Bedarf nach einem Tool ermittelt wurde, mit dem Fachwissenschaftler:innen, auch ohne technische Kenntnisse, Siegel annotieren können. Moderation des Interessent:innenkreises und Qualitätsmanagement werden aus dem Projekt geleistet. Die Erfahrungen aus dem Itinera Nova-Projekt zeigen jedoch, dass die Rolle des Community-Managements auf Dauer gestellt sein muss.

Obwohl das Vorhaben Beginen in Köln als verhältnismäßig kleines DFG-Projekt nicht für die Organisation eines Citizen-Science-Ansatzes ausgelegt ist, wird die Idee regelmäßig von außen an das Projekt herangetragen. Dies liegt zum einen an dem Forschungsgegenstand, der eine an Frauen- und Lokalgeschichte interessierte Öffentlichkeit anspricht, zum anderen an der vielschichtigen Quellenbasis, den Schreinsbüchern, deren umfängliche systematische Erschließung ein vielfach formuliertes Desiderat darstellt. Die Erfahrungen aus Itinera Nova zeigen jedoch, dass Crowdsourcing/Citizen Science sich nicht in der Bereitstellung einer technischen Eingabe- und Moderationsplattform erschöpfen.

Handlungsfeld Datenqualität und Datenmanagement

„Im Jahr 2030 existieren wiederverwendbare, flexible Methoden und Werkzeuge für die Erhebung, die Qualitätssicherung und -kontrolle, die Analyse, die Archivierung und die Veröffentlichung von Citizen-Science-Daten.“ (Bonn et al., 2021)

Das Itinera Nova-Projekt verfolgt den Anspruch wissenschaftlich hochwertige Daten vorzulegen und stützt sich daher auf etablierte Standards wie XML-TEI. Für Freiwillige ohne entsprechende Kenntnisse stellt dies eine große Hürde dar. Dank dem einfach zu benutzenden Editor, der keine Kenntnisse von XML-TEI voraussetzt, wurde es den Freiwilligen ermöglicht, Transkriptionen anzulegen und sie zu annotieren. Die aktuell erstellten Metadaten umfassen zum großen Teil nur die wichtigsten Angaben wie Name, Datum und Sprache der Akten. Wünschenswert wären umfassendere Metadaten gewesen, auf die aber bewusst zur Reduktion der Komplexität verzichtet wurde. Die transkribierten Texte können festgelegte Annotationen wie Abbreviatur, hochgestellt, unklar, gestrichen, neue Zeile und neue Seite umfassen. Auch hier wurde aus denselben Gründen auf die Auszeichnung von Personen, Orte und weitere Entitäten verzichtet.

Mit Hilfe der in die Itinera Nova Plattform implementierten Redaktions- und Moderationssysteme wurde die Infrastruktur für Revision und Qualitätsmanagement geschaffen. Die von Citizen Scientists erfassten Daten werden dann durch erfahrene Moderator:innen (die ebenso Citizen Scientists sind) überprüft und erst dann veröffentlicht.

Solche Infrastrukturen für Erhebung und Qualitätssicherung der Daten, die den Projektbeteiligten ohne technische Kenntnisse bzw. Kenntnisse von XML-TEI oder anderen Standards, die Mitarbeit an Digital-Humanities-Projekten ermöglichen, sind essentiell. Dies bestätigt sich in zahlreichen Digital-Humanities-Projekten, auch in denen, die nicht im engeren Sinne der Citizen Science zuzuordnen sind.

Das Projekt DigiByzSeal setzt genau auf diese Erfahrungen auf. Hier können die Fachwissenschaftler:innen die Daten zu den Siegeln in eine auf das Datenmodell angepasste Vorlage eintragen. Eine Balance zwischen Pragmatismus und Präzision zu finden, ist dabei zentral. Reduktion von Redundanzen und Abstriche in der Tiefenerschließung führen im Gegenzug dazu, dass die Benutzeroberfläche einfacher und übersichtlicher gestaltet werden, effektiver genutzt werden kann und mehr Akzeptanz findet.

Erfahrungen, die in Itinera Nova mit einer Community ohne IT-Kenntnisse gemacht wurden, gelten auch für Projekte, in denen die IT-Unterstützung auf eine einzelne Person abzielt. Bei dem Projekt Beginen in Köln wurde statt eines komplexen, auf TEI basierenden Modells ein stark vereinfachtes Datenmodell gewählt. Austauschformate in TEI und RDF/XML können dennoch verlustfrei generiert werden. Für dieses wird ein Formulareditor erstellt, der die beteiligte Fachwissenschaftlerin bei einer konsistenten semantischen Erschließung unterstützt.

Handlungsfeld Sensorik und künstliche Intelligenz

„Im Jahr 2030 sind Sensorik und künstliche Intelligenz etablierte Werkzeuge für Citizen-Science-Aktivitäten.“ (Bonn et al., 2021)

Die aktuellen KI-Ansätze sind im Bereich der Texterkennung schon jetzt sehr vielversprechend. Im Projekt Itinera Nova werden Handwritten Text Recognition-Tools (HTR) wie Transkribus für automatische Handschrifterkennung eingesetzt. Mit Hilfe der erstellten Modelle2  lassen sich gute Ergebnisse3  erzielen. Doch dafür sind eine große Menge von Trainingsdaten notwendig. Da die Quellen aus einer großen zeitlichen Spanne kommen, müssen idealerweise für alle paar Jahrzehnte die Trainingsdaten bzw. Modelle produziert werden. Außerdem ist geplant, Named Entity Recognition-Verfahren (NER) zu verwenden. Für das Training dieser Modelle gibt es momentan allerdings sehr wenige Trainingsdaten. Abgesehen davon, müssen die Ergebnisse von Menschen kontrolliert und ggf. korrigiert werden. Die Bedienung von KI-Tools setzt teilweise spezifische technische Kompetenzen voraus und kann in den Workflow für alle Beteiligten (noch) nicht unmittelbar eingebunden werden.

Künstliche Intelligenz im Bereich der Sigillographie ist noch am Anfang, ein Projekt an der Sorbonne in Paris beschäftigt sich mit der Erkennung und Klassifikation von Ikonographien auf Siegeln (Eyharabide et al., 2023). Hier können die im Projekt zum ersten Mal systematisch digital erhobenen Siegel einen Mehrwert beim Training bieten und zukünftig von den Ergebnissen profitieren, wenn weitere Siegel digitalisiert und die Ikonografien mithilfe des Modells klassifiziert werden sollen.

Bei den Beginen in Köln würden sich Methoden der künstlichen Intelligenz anbieten. Vor allem NER zum automatischen Erkennen und Auszeichnen von Personen und Orten sowie die Extraktion von semantischen Verknüpfungen sind hier vielversprechende Ansätze. Erste Versuche, die hier durchgeführt wurden, lieferten keine schlechten Ergebnisse, doch um wirklich gute Ergebnisse erzielen zu können, müssten Modelle speziell auf die Regesten trainiert werden. Dazu fehlte uns leider die Trainingsgrundlage. Daher scheint die Kosten-Nutzen-Rechnung keine Vorteile gegenüber der manuellen Annotation zu bieten.

Gemeinsame Architektur

Bei allen drei Projekten, Itinera Nova, DigiByzSeal und Beginen in Köln, ist es von großem Vorteil, dass wir dieselbe Basis-Infrastruktur für die ähnlich gelagerten Anwendungsfälle nutzen können. Die Datenmodelle sind jeweils in XML umgesetzt, auch wenn hier in allen Projekten unterschiedliche XML-Schemata verwendet werden. Als Datenbank wird die XML-Datenbank BaseX verwendet, auf Basis derer APIs entwickelt und bereitgestellt werden. Diese fungieren als “Middleware” zwischen der Datenbank und dem Frontend. Das Frontend ist in allen Projekten mit VueJS entwickelt worden. Diese Basis-Infrastruktur ermöglicht es, in relativ kurzer Zeit Tools und Benutzeroberflächen zu entwickeln, die auf die individuellen Bedarfe im Projekt angepasst sind.

Zusammenfassung

Die Citizen-Science-Konzepte bieten viele Chancen für Digital Humanities und bei manchen Projekten (hier: Itinera Nova) geradezu alternativlos. Die Erfahrungen in der Beteiligung an einem etablierten Citizen-Science-Projekt als DH-Kompetenzzentrum mit einer Vielzahl von forschungsgetriebenen Vorhaben haben aufgezeigt, dass engagiertes und dauerhaftes Freiwilligenmanagement der Schlüssel zu einer erfolgreichen Einbindung der Öffentlichkeit oder Community darstellen. Die Vorstellung, dass Citizen Science zur “Rekrutierung” von freiwilliger Arbeitskraft alleine durch die Bereitstellung von Crowdsourcing-Plattformen implementiert werden kann, ist vor diesem Hintergrund kritisch zu beurteilen.

Auf der Ebene des Datenmanagement und der Datenqualität ist eine erprobte Infrastruktur, die den Workflow abbildet und Editor, Redaktions- und Moderationssystem umfasst, ein zentraler Baustein. Hierbei verwendete Infrastrukturbausteine haben sich ebenfalls bewährt bei Projekten mit kleinen oder Kleinstgruppen, bei denen der Bedarf besteht, technisch nicht geschulte Bearbeiter:innen in die Datenaufbereitung einzubeziehen.

Machine Learning und KI bieten in den hier vorgestellten Projekten mittelfristig das Versprechen, den Bearbeitungsaufwand durch bspw. OCR/HTR-Vorerfassung, NER oder semantischer Verknüpfung zu reduzieren und damit die Arbeit für die hier beschriebene Zielgruppe attraktiver zu machen.

Im Vortrag wollen wir die projektspezifische praxisorientierte Citizen-Science-Strategie im Itinera Nova-Projekt und den Anteil des CCeH daran vorstellen und mit der DH-Fachcommunity diskutieren. Insbesondere möchten wir vorstellen, wie die gemeinsame Projektarchitektur mit den weiteren vorgestellten Projekten positive Effekte auch in klassischen DH-Projekten entfaltet.


Fußnoten

1 Transkribus ist ein KI-gestützte Plattform für Texterkennung, Transkription und das Durchsuchen von historischen Dokumenten. Weitere Informationen dazu s. https://readcoop.eu/de/transkribus/ (zugegriffen: 19. Juli 2023).
2 Weitere Informationen zu den Modellen s.  https://readcoop.eu/de/glossary/model-training/ (zugegriffen: 18. Juli 2023).
3 CER ( Character Error Rate) deutlich unter 10%.

Bibliographie

  • Bigalke, Jan, Jonathan Blumtritt und Tessa Gengnagel. 2023. „Beginen in Köln: Von der Textdatenbank zur zeitgemäßen digitalen Auszeichnung und Analyse“. In Book of Abstracts der 9. Tagung des Verbands „Digital Humanities im deutschsprachigen Raum“ (DHd 2023). Trier, Luxemburg: Zenodo. https://doi.org/10.5281/zenodo.7715269.
  • Böhringer, Letha und Barbara Weber. 2022. „Beginen - Frauengemeinschaften im Mittelalter Interv. Dr. Letha Böhringer geführt von Barabara Weber“. Deutschlandfunk. https://www.deutschlandfunk.de/beginen-frauengemeinschaften-im-mittelalter-interv-dr-letha-boehringer-dlf-ca4a8b47-100.html.
  • Bonn, Aletta, Wiebke Brink, Susanne Hecker, Thora M. Herrmann, Christin Liedtke, Matthias Premke-Kraus, Silke Voigt-Heucke, et al. 2021. “Weißbuch Citizen Science Strategie 2030 Für Deutschland.” SocArXiv. August 7. doi:10.31235/osf.io/ew4uk.
  • Eyharabide, Victoria, Béatrice Caseau, Jean-Claude Cheynet, Lucia Orlandi, Qijia Huang, et al. 2023. “Byzantine Sigillography meets Artificial Intelligence: The BHAI Project. Numismatics, Sphragistics and Epigraphy”, In press. hal-03901611.
  • Rapp, Andrea, Stefan Büdenbender, Nadine Dietz, Lena Dunkelmann, Birte Gnau-Franké, Nina Liesenfeld, Stefan Schmunk, u. a. 2022. „Mein liebster Schatz! Das Citizen Science-Projekt Gruß & Kuss stellt sich vor“. In Book of Abstracts der 8. Tagung des Verbands „Digital Humanities im deutschsprachigen Raum“ (DHd 2022). Potsdam: Zenodo. https://doi.org/10.5281/zenodo.6328189.
  • Smolarski, René (Hg.), Carius Hendrikje (Hg.) und Prell Martin (Hg.). 2023. “Citizen Science in den Geschichtswissenschaften: Methodische Perspektive oder perspektivlose Methode?.“ V&R unipress. DH&CS. 1. Auflage.
  • Vohland, Katrin (Hg.), Anne Land-Zandstra (Hg.), Luigi Ceccaroni (Hg.), Rob Lemmens (Hg.), Josep Perelló (Hg.), Marisa Ponti (Hg.), Roeland Samson (Hg.) und Katherin Wagenknecht (Hg.). 2021. “The Science Of Citizen Science”. Cham: Springer International Publishing. doi:10.1007/978-3-030-58278-4.