Vernetzte Forschungsdaten - wer kennt wen im Mittelalter?

Pultar, Yannick; Abel, Christina; Weber, Matthias; Kasper, Dominik; Kuczera, Andreas
https://zenodo.org/records/10698303

Abstract

Der Workshop bietet eine Einführung in die Arbeit mit Orts- und Personendaten sowie Graphdatenbanken am Beispiel eines mediävistischen Datenkorpus'. Die Teilnehmerinnen und Teilnehmer lernen, wie sie Forschungsdaten nachnutzen, in eine Graphdatenbank integrieren und dort die Beziehungen von Entitäten analysieren können sowie wie sie die Aggregation von Normdaten und weiterer Forschungsdaten für die Verfolgung wissenschaftlicher Fragestellungen nutzen können. Durch hands-on-sessions und die Vorstellung von konkreten Anwendungsbeispielen wird das Thema niedrigschwellig, anschaulich und praxisnah vermittelt. Der Workshop richtet sich an Forschende mit Interesse an digitaler Geschichtswissenschaft. Vorkenntnisse im Bereich Graphentechnologie bzw. -datenbanken sind nicht notwendig.

Einführung

Im Rahmen der Digitalisierungsbemühungen der letzten drei Jahrzehnte sind eine Reihe relevanter Quellen für die Geschichtswissenschaften als Forschungsdaten nach den FAIR-Prinzipien frei und nachnutzbar zur Verfügung gestellt worden, auch wenn sie bisher selten Teil des Semantic Web sind. Angesichts verschieden tief und nach unterschiedlichen Standards strukturierter Datenbestände aus vielfältigen Forschungstraditionen stehen Historiker*innen in der Praxis aber oft vor besonderen Herausforderungen, wenn es um die konkrete Nachnutzung der heterogenen Daten geht, mit denen ein sinnvoller Umgang gefunden werden muss, um Auswertungsperspektiven zu eröffnen. Eine davon ist der Umgang mit Orts- und Personendaten. Die Entitäten können durch Normdaten eindeutig identifiziert und formal beschrieben werden, sodass Informationen über diese aggregiert und sie über verschiedene Ressourcen hinweg eindeutig adressierbar sind. Für die Entitäten, die in der Mediävistik erforscht werden, stehen etwa bisher verhältnismäßig wenig Normdaten zur Verfügung. GND und Wikidata als zwei zentrale Normdatenbestände, verzeichnen etwa nur 37.000 beziehungsweise 13.000 Personendatensätze mit Belegen für der Zeit zwischen 500-1500 mit einem Schwerpunkt auf das 15. Jahrhundert.

Graphdatenbanken können durch ihre Modellierung als Entitäten- bzw. Relationennetzwerk gut geeignet sein, einen Zugang zu solchen Personen- und Ortsdaten schaffen und diese zu analysieren: Sie bieten etwa die Möglichkeit komplexer Abfragen bei hoher Performanz und der Visualisierung des Entitätennetzwerks oder von Teilnetzwerken als Graph.

Ziel des Workshops

Der vorgeschlagene Workshop bietet eine Einführung im Umgang mit der Nachnutzung von Forschungsdaten, die historische Quellen mit personen- und ortsbezogenen Entitäten verbinden, mittels der Nutzung von Graphdatenbanken. Inhaltlich dient ein Datensatz der Regesta Imperii, als einer für den Bereich der Mediävistik zentralen Bereitsteller digitaler Forschungsressourcen, als Beispiel. Als Graphdatenbanksystem wird Neo4J vorgestellt. Der Workshop richtet sich an Forschende mit Interesse an digitaler Geschichtswissenschaft. Ohne Vorkenntnisse im Bereich der Graphentechnologien. Durch hands-on-sessions und die Vorstellung von konkreten Anwendungsbeispielen wird im Laufe des Workshops ein vollständiger Workflow zur Bearbeitung einer Forschungsfrage mit frei verfügbaren Daten praxisnah durchgespielt und das Thema so anschaulich und niedrigschwellig vermittelt:

Einführung in einen Beispieldatensatz
Import der Daten in eine eigene Neo4J-Datenbank als Arbeitsdatenbank
Aggregation und Anreicherung der Forschungsdaten mit anderen Datenbeständen am Beispiel von Normdaten
Möglichkeiten der Analyse der Entitäten und ihrer Beziehungen mithilfe der Abfragesprache Cypher

Die Daten der Regesta Imperii

Die Regesten der Regesta Imperii bieten deutschsprachige Zusammenfassungen mittelalterlicher Urkunden und narrativer Texte, in denen nicht nur die Inhalte der Quelle, sondern auch sämtliche in den Quellen genannten Orts- und Personennamen aufgenommen werden. Mit ihren rund 200.000 Regestendatensätzen für den Zeitraum von 700 bis 1519 steht damit ein enormer Schatz an Personen- und Ortsdaten zur Verfügung, der zum größten Teil durch Register mit einer ähnlich großen Zahl an Einträgen erschlossen ist. Register sind ein zentraler Schlüssel für die Nutzung von Forschungsdaten Zum einen identifizieren, erschließen und strukturieren sie die in den historischen Quellen vorkommenden Entitäten und zum anderen weisen sie diese Entitäten konkreten Schriftstücken zu, geben ihnen damit einen räumlichen und zeitlichen Kontext.

Der Datenbestand der Regesta Imperii, bereitgestellt im CSV-Format sowie in CEI- und TEI-XML-Datensätzen unter , kann mit einer zweihundertjährigen Erhebungs- und einer zwanzigjährigen Digitalisierungsgeschichte in nuce für die heutige historisch ausgerichtete Forschungsdatenlandschaft stehen. Die durch die Kombination aus Regesten- und Entitätendatensätzen entstehenden vernetzten Forschungsdaten lassen sich sehr gut mit Hilfe von Graphdatenbanken modellieren und analysieren. So wird ein Wechsel des Fokus von der Quelle, bzw. dem Regest, hin zu den in den Quellen genannten Entitäten ermöglicht.

Die hands-on-sessions des Workshops wollen diese Möglichkeiten an einem Ausschnitt zu einem Herrscher ausloten: dem Dante-Kaiser Heinrich VII. (1308-1313), dessen Regesten aktuell an der Saarbrücker Arbeitsstelle des Akademienprojekts erarbeitet werden. Die kurze Regierungszeit dieses Herrschers ist außergewöhnlich gut durch Urkunden, Verwaltungsschriften und Chroniken dokumentiert und bietet damit einen sehr dichten Bestand an Personen-und Ortsdaten ohne größere chronologische Lücken. Aus diesem Bestand wird den Teilnehmenden ein Datensatz von Regest- und Registerdaten im CSV-Format bereitgestellt, der von Mitarbeitenden des Projekts in domänenspezifische Fragen eingeordnet wird.

Abbildung 1: In der Abbildung ist beispielhaft das Regest RI III,2,3 Nr. 1487 als Modell im Graphen abgebildet (neben anderen Regesten und den verknüpften Entitäten).

Ablaufplan

Der Workshop soll an zwei Tagen für jeweils vier Stunden stattfinden. Der erste Tag teilt sich in zwei Abschnitte. Zunächst findet eine Einführung in den Beispieldatensatz und das Projekt Regesta Imperii statt. Dabei wird mit den Teilnehmenden das Datenmodell der Regesten und der damit verbundenen personen- und ortsbezogenen Datensätze erarbeitet und dessen Eignung für die Verfolgung verschiedener Fragestellungen diskutiert. Der zweite Abschnitt ist der Vorstellung und Erprobung der Arbeit mit der Graphdatenbank Neo4j gewidmet. Dabei werden grundlegende Konzepte der Graphentechnologie mittels einer hands-on-session vermittelt, bei der die Teilnehmenden jeweils eigene Neo4j-Datenbanken erstellen, mit denen sie im Laufe des Workshops weiterarbeiten werden. Sie lernen die Funktionsweise und das Layout der grafischen Oberfläche von Neo4j kennen und werden in die Lage versetzt, die zur Verfügung gestellten Datensätze in die Graphdatenbank eigenständig zu importieren. Eine Neo4j-Sandbox-Umgebung wird den Teilnehmenden vorab zur Verfügung gestellt.

Am zweiten Tag folgen, aufbauend auf den am ersten Tag erworbenen Kenntnissen, weitere, fortgeschrittenere Übungen zu Auswertungsperspektiven mittels der Graphdatenbank und deren Abfragesprache Cypher und anderer niedrigschwelliger Technologien, mit Schwerpunkt auf der Auswertung der enthaltenen Personen- und Ortsdaten. Dabei werden begleitend Vor- und Nachteile graphbasierter Erschließung von Forschungsdaten diskutiert. An diesem Tag werden v. a. Fragen zur Operationalisierung und Formalisierung von Fragestellungen und der weiteren Anreicherung der Daten mit nicht im Beispieldatensatz enthaltenen Informationen am Beispiel von Normdaten behandelt und in hands-on-sessions praktisch erprobt. Zunächst wird in verfügbare Normdaten zur Mediävistik (GND, Wikidata, Germania Sacra-Personendatenbank) eingeführt und anschließend die orts- und personenbezogenen Entitäten mit den Normdaten aus der Wikidata-Datenbank angereichert, für deren SPARQL-Endpoint ein niedrigschwelliger Query Service zur Verfügung steht. Dabei soll auch der Umgang mit Forschungsfragen reflektiert werden: Es wird diskutiert, welche Forschungsfragen an den Datenbestand unter Berücksichtigung der Datenmodellierung und des Informationsgehalts gestellt werden können und Schritte zu deren Operationalisierung und Formalisierung an die Forschungsdaten erarbeitet. Dabei stehen Fragen zu den Beziehungen der im Korpus erschlossenen Personenentitäten im Mittelpunkt.

Der letzte Teil des Workshops ist für die Frage der Übertragbarkeit des Erlernten, die Anwendung von Graphentechnologien und den Umgang mit Orts- und Personendaten, auf eigene Projekte der Teilnehmenden reserviert. Die Teilnehmenden können hierfür eigenes Datenmaterial und Projektideen mitbringen.

Benötigte Ausstattung

Beamer, ausreichend Steckdosen und WLAN

Teilnehmende: Laptops, Installation von Neo4j Desktop

Bereitstellung durch Workshop-Veranstaltende: kollaborativ nutzbare Markdown-Umgebung für gemeinsame Notizen, Beispieldatensätze in verschiedenen Formaten

Neo4j-Sandbox-Umgebung für die Datenbanken der Teilnehmenden werden im Vorhinein gemeinsam mit einer Installationsdokumentation bereitgestellt, um einen reibungslosen Einstieg auf einer gemeinsamen Basis zu gewährleisten

Teilnehmerzahl

5-20

Beitragende

Yannick Pultar (https://orcid.org/0009-0002-0819-958X) ist Arbeitsstellenleiter der RI Online an der Akademie der Wissenschaften und der Literatur | Mainz. Seine Forschungsschwerpunkte liegen auf der digitalen Erschließung und Modellierung historischer Quellen sowie auf der Analyse der Entitätennetzwerken in der Schriftlichkeit der römisch-deutschen Herrscher des 14. Jahrhunderts.

Christina Abel (https://orcid.org/0009-0001-5858-769) ist Arbeitsstellenleiterin des RI-Teilprojekts zu Kaiser Heinrich VII., das an der Universität des Saarlandes (Saarbrücken) und an der Akademie der Wissenschaften und der Literatur | Mainz angesiedelt ist. Im Rahmen des Projekts arbeitet sie an einer prosopographischen Aufarbeitung der verschiedenen Personengruppen und -netzwerke an Heinrichs Hof und erforscht deren Einfluss auf politische und administrative Entscheidungen.

Matthias Weber ( (https://orcid.org/0000-0003-2198-8989) ist Juniorprofessor für die Geschichte des Hochmittelalters und digitale Prosopographie an der Ruhr-Universität Bochum und der Akademie der Wissenschaften und der Literatur | Mainz. Seine Forschungsschwerpunkte liegen in der Zeit des salischen Jahrhunderts (1024-1125), der Mentalitätsgeschichte zum Tod sowie in der Historiographiegeschichte.

Dominik Kasper ( (https://orcid.org/0000-0002-6587-381X) ist DevOps Engineer (Entwickler und Systemadministrator) an der Akademie der Wissenschaften und der Literatur | Mainz, u. a. im Projekt Regesta Imperii. Seine Interessenschwerpunkte liegen in den Bereichen Research Software Engineering, der Theorie und Praxis digitaler Methoden in den Geistes- und Kulturwissenschaften, insbesondere von digitalen Editionen und Sammlungen.

Andreas Kuczera ( (https://orcid.org/0000-0003-1020-507X) ist Professor für anwendungsbezogene digitale Methodik in den Geistes- und Sozialwissenschaften an der Technischen Hochschule Mittelhessen in G ießen. Seine Forschungsschwerpunkte liegen in der Erforschung anwendungsbezogener Methoden in den digitalen Geistes- und Sozialwissenschaften.

Bibliographie

Bornhofen, Stefan und Marten Düring . 2020. “Exploring dynamic multilayer graphs for digital humanities.” In Applied Network Science 5. (zugegriffen: 18.07.2023).
Hitzler, Pascal, Markus Krötzsch, Sebastian Rudolph und York Sure . 2008. Semantic Web. Grundlagen. Berlin/Heidelberg: Springer.
Kuczera, Andreas . 2019. “Die ‚Regesta Imperii‘ im digitalen Zeitalter. Das Regest als Netzwerk von Entitäten.” In Das Mittelalter 24: 157–172.
Kuczera, Andreas . 2018. Regestenmodellierung im Graphen. In Graphentechnologien in den digitalen Geisteswissenschaften . (zugegriffen : 18.07.2023).
Opitz, Juri . 2020. “Automatic Creation of a Large-Scale Tempo-Spatial and Semantic Medieval European Information System.” In Proceedings of the Workshop on Computational Humanities Research (CHR) : 397–419. (zugegriffen : 18.07.2023).
Schulz, Julian . 2017. "Review of 'Regesta Imperii Online'." In RIDE 6. (zugegriffen: 18.07.2023).
Stadler, Peter. 2012. “Normdateien in der Edition.” In Editio 26/1: 174–183. (zugegriffen: 18.07.2023).