FAIRe Forschungsdaten Die ersten 2400 Briefe an Goethe als TEI-XML-Volltexte im Akademienvorhaben PROPYLÄEN: Goethes Biographica
https://zenodo.org/records/14943016
1 Mit der Veröffentlichung einer neuen Version der Editions- und Forschungsplattform PROPYLÄEN: Goethes Biographica2 ging im September 2024 erstmals ein Korpus TEI-XML-kodierter Forschungsdaten aus diesem Akademienvorhaben online. Die neue Version der Plattform bietet somit neben mehreren Erweiterungen und Optimierungen erstmals einen ganzen Schwung frischer, FAIRer3 und frei verfügbarer Forschungsdaten (Lizenz: CC BY 4.0), die im Zentrum der Poster-Präsentation stehen.
Das PROPYLÄEN-Vorhaben ist Teil des Akademienprogramms und mit einer Gesamtlaufzeit von 25 Jahren bis 2039 konzipiert; es vereint vier Editionsvorhaben auf einer gemeinsamen digitalen Plattform: Die „Begegnungen und Gespräche“, die Briefe von und an Goethe sowie dessen Tagebücher (vgl. Koltes u. a. 2023). Auf der PROPYLÄEN-Plattform finden Nutzer:innen bereits jetzt mehrere tausend Datensätze (vgl. Abb.1) in einer Volltext-Repräsentation mitsamt strukturierten Metadaten, die aus den retrodigitalisierten Daten zuvor gedruckter Bände erarbeitet wurden (vgl. Neuber u. a. 2020).
Bis zum Projektende werden diese Datensätze – dem Tagungsmotto „Under Construction“ entsprechend – sukzessive um weitere retrodigitalisierte Daten sowie genuin digital erstellte Datensätze ergänzt. Im Laufe seines Lebens empfing der „Hochwohlgeborene Geheimerath“ mehr als 20000 Briefe von etwa 3500 Absender:innen aus aller Welt. Der erste publizierte Forschungsdatensatz aus dem „born digital“-Workflow umfasst 2406 „Briefe an Goethe“ aus dem gleichnamigen Teilprojekt, die auch über die Programmierschnittstelle (API) des PROPYLÄEN-Vorhabens bezogen werden können.4
|
Dokumente |
2406 |
|
Zeitraum |
September 1786–Ende 1797 |
|
Absender:innen |
463 |
|
Faksimiles |
7257 |
|
Zeichen |
ca. 4,8 Mio. |
|
Tokens5 |
ca. 871000 |
|
Types |
ca. 76400 |
Die in TEI-XML annotierten Daten6 stellen ein Novum und einen signifikanten Meilenstein dar. Erstens wurden diese zum größeren Teil nie zuvor veröffentlicht; zweitens war deren Veröffentlichung als Volltexte auch im Teilprojekt selbst zunächst nicht vorgesehen. Denn die Druckfassung der Ausgabe präsentiert lediglich Regesten der Brieftexte – d.h. kondensierte Inhaltszusammenfassungen –, ergänzt um Angaben zum Überlieferungsort der Vorlage, dem Entstehungsort, Absender- und Empfänger:innen7 des Briefes sowie umfangreiche Registerpositionen. Die Publikation der Volltexte (samt Digitalisaten) ist somit ein Alleinstellungsmerkmal der Digitalen Plattform des als Hybrid-Edition konzipierten PROPYLÄEN-Vorhabens.
Die Gesamtmenge der Briefe wäre ohne automatisierte Texterkennung mittels Transkribus8 bzw. OCR4all9 nicht zu bewältigen. Zur Dokumentation und Vernetzung werden konsequent Normdaten verwendet, die in der Forschungsdatenbankso:fie der KSW10 aggregiert werden. Ebenso werden Services wie correspSearch genutzt, wo bereits die Metadaten zu mehr als 15000 Briefen an Goethe aus dem PROPYLÄEN-Vorhaben bereitgestellt wurden, wodurch die Daten weithin sichtbar sind und zugleich im Kontext weiterer Briefeditionen durchsucht und analysiert werden können (vgl. das Beispiel in Abb. 3).11
Das Poster wird einen Überblick über das erste Teilkorpus aus dem PROPYLÄEN-Projekt bieten und einen Ausblick auf die in den kommenden Jahren zu erwartenden, noch sehr viel umfangreicheren und vielfältigeren Forschungsdaten aus allen vier Teilprojekten bzw. -editionen des Vorhabens geben. Dabei werden die technologischen, methodologischen und editorischen Prinzipien vorgestellt und erste Auswertungen der Daten präsentiert.
Fußnoten
Bibliographie
- Dumont, Stefan, Susanne Haaf und Sabine Seifert, Hrsg. 2020. Encoding Correspondence. A Manual for Encoding Letters and Postcards in TEI-XML and DTABf. doi:, .
- Haaf, Susanne und Christian Thomas. 2017. Enabling the Encoding of Manuscripts within the DTABf: Extension and Modularization of the Format. jTEI: Journal of the Text Encoding Initiative. doi:, .
- Koltes, Manfred, Ariane Ludwig, Yvonne Pietsch, Martin Prell und Bastian Röther. 2023. PROPYLÄEN. Ein Jahrhundertprojekt geht online. Digitale Bibliothek Thüringen (DBT). doi:, .
- Neuber, Frederike, Thorsten Schaßen, Dominik Kasper, Martina Gödel und Thomas Stäcker. 2020. Altbausanierung mit Niveau – die Digitalisierung gedruckter Editionen. In: DHd 2020 Spielräume: Digital Humanities zwischen Modellierung und Interpretation. 7. Tagung des Verbands „Digital Humanities im deutschsprachigen Raum“ (DHd 2020), Paderborn, hg. von Patrick Helling und Christof Schöch. doi:, .
- Project „PROPYLÄEN: Goethes Biographica“, Hrsg. 2023. CMIF of Letters to Johann Wolfgang Goethe (Version 2) [Data set]. Zenodo. doi:, .
- Wilkinson, Mark D., Michel Dumontier und Ijsbrand Jan Aalbersberg. 2016. The FAIR Guiding Principles for scientific data management and stewardship. Sci data 3, 160018 (2016). doi:, .