Der Weg zum grünen Forschungsdatenmanagement-plan
https://zenodo.org/records/10698392
Forschungsdatenmanagement berührt inzwischen alle Bereiche in der Wissenschaft, da während jedes Forschungsprozesses – insbesondere auch in den Digital Humanities – Daten jeder Art anfallen, die als Forschungsdaten bezeichnet werden. Mittelgeber fordern, dass bei der Antragstellung bereits ein Datenmanagementplan (DMP) vorgelegt werden muss, um den Umgang mit den Daten während, aber auch nach, der Projektlaufzeit genau zu erfassen. Aspekte des Klimaschutzes werden hier noch nicht berücksichtigt, jedoch schreitet die Klimakrise zeitgleich zur steigenden Anzahl an digitalen Daten und Methoden voran. Dies berührt Aspekte der Digital Humanities, da hier neben steigenden Mengen digitaler Daten auch Methoden, technische Prozesse und Speicherroutinen zu berücksichtigen sind. Daher sollen in diesem Workshop gemeinsam Fragen zu einem und der Prozess eines grünen Forschungsdatenmanagements diskutiert sowie ein Musterdatenmanagementplan entwickelt werden.
Theoretische Grundlagen Forschungsdatenmanagement
Während jedes Forschungsprozesses, insbesondere auch im Bereich der Digital Humanities, fallen Daten jeder Art an, z. B. Messdaten, Texte, Bilddateien, audiovisuelle Daten oder 3D-Modelle. Daten, die während des Forschungsprozesses entstehen oder das Ergebnis dessen sind, werden auch als Forschungsdaten bezeichnet (Kindling/Schirmbacher 2013). Das Forschungsdatenmanagement (FDM) begleitet alle Aktivitäten in Zusammenhang mit diesen Forschungsdaten, hierunter sind Prozesse ihrer Aufbereitung, Speicherung, Archivierung und Veröffentlichung zu verstehen. Es umfasst den gesamten Forschungsdatenzyklus – den Prozess von der Planung über die Erhebung und Verarbeitung bis hin zur Archivierung, Nachnutzung oder auch Löschung der Daten (Forschungsdaten.info 2023, Kindling et al. 2013).
Drittmittelgeber und Forschungsförderer geben in ihren Richtlinien vor, dass ein angemessener Umgang mit den in Projekten erstellten Forschungsdaten essenziell für qualitätsorientierte und anschlussfähige Forschung ist. Bereits während der Antragstellung ist daher der Umgang mit den Daten und Objekten, die diesen zugrunde liegen, mitzubedenken. Das betrifft die Planung, Dokumentation und Beschreibung, aber auch die Nachnutzung dieser. Es wird ebenfalls angeraten, fachspezifische einschlägige Empfehlungen zu Standards, Methoden und Infrastrukturen zu berücksichtigen (DFG 2023).
Neben einer genauen Beschreibung der Daten, die in den Forschungsprojekten entstehen, ist eine Dokumentation dieser sowie der Maßnahmen für eine hohe Datenqualität erforderlich. Hier werden die Datentypen und der zu erwartende Umfang erfasst, ebenso Methoden, wie diese weiterverarbeitet werden können. Methoden zur nachvollziehbaren Beschreibung der Daten sind ebenfalls zu erfassen, z. B. ob bereits vorhandene Standards und Ontologien nachgenutzt werden, sowie die für die Datenerfassung notwendigen Methoden und Software. Die Aspekte der Speicherung und technischen Sicherung der Daten sind ein weiterer Aspekt, der schon im Vorfeld bedacht werden muss, hierunter fallen z. B. die Art der Speicherung der Daten und Zugriffsrechte. Zusätzlich sind rechtliche Rahmenbedingungen zu bedenken, wie zu erwartende Einschränkungen bei einer späteren Veröffentlichung bzw. Onlinestellung der Daten, was den Aspekt der Nutzungs- und Urheberrechtsfragen und Lizenzierungen der Daten betrifft. Ein weiterer wichtiger Punkt des Forschungsdatenmanagements ist der Austausch und die dauerhafte Zugänglichkeit von Daten. Kriterien für die Auswahl von nachnutzbaren Forschungsdaten müssen transparent dokumentiert werden, ebenso die Archivierung in einer geeigneten Infrastruktur und mögliche Sperrfristen. Rollen und Verantwortlichkeiten im Umgang mit Forschungsdaten sind, zusammen mit zeitlichen und materiellen Ressourcen, zu benennen, auch ist die weitere Datenpflege nach Projektende zu benennen (DFG 2021).
Für die übersichtliche und nachvollziehbare Dokumentation der Forschungsdaten wird ein Datenmanagementplan (DMP) genutzt. Dieser ist ein lebendiges Dokument, das während der Projektlaufzeit weiter angepasst und aktualisiert werden muss und beschreibt, wie mit den Daten während und nach der Laufzeit verfahren wird. Er hat mehrere Ebenen, wie „Überblick“ (Ziel, Angaben zu Projektverantwortlichen und -laufzeit), „Datenbestand“, „Datengenese“, „Workflow“, „Dateningest“, „Konsolidierung“, „Verbreitung“, „Rollen des Datenmanagements“ und „Ressourcen“ (Forschungsdaten.info 2023).
Forschungsdaten und Klimawandel
Im Kontext des Klimawandels gewinnt auch das Forschungsdatenmanagement eine zunehmende Bedeutung, da es einen erheblichen Einfluss auf die Umweltauswirkungen von wissenschaftlichen Aktivitäten hat. Das Thema der Nachhaltigkeit wird im Rahmen der FAIR-Prinzipien zwar häufig thematisiert, allerdings geht es hier meist nicht um ökologische Aspekte, sondern um die langfristige Sicherung der Daten (Wilkinson et al. 2016).
Server und Rechenzentren sind wesentliche Bestandteile des Forschungsdatenmanagements, jedoch gehen mit ihrer Nutzung erhebliche CO2-Emissionen einher. Die kontinuierliche Energieversorgung, die Kühlung der Hardware und die Speicherung großer Datenmengen erfordern beträchtliche Mengen an Energie, die oft aus fossilen Brennstoffen gewonnen wird. Dieser Energieverbrauch trägt zur Freisetzung von Treibhausgasen und somit zum Klimawandel bei. Hier gilt es, nachhaltige Lösungen für die Infrastruktur der Datenspeicherung zu entwickeln.
Bereits durch den Einsatz energieeffizienter Serverhardware und Optimierung der Kühlungsmechanismen können erhebliche Energieeinsparungen erzielt werden. Die Verwendung von Servern mit geringerem Stromverbrauch und die Implementierung effektiver Kühlungsstrategien, beispielsweise durch die Nutzung erneuerbarer Energiequellen oder Abwärmenutzung, tragen zur Reduzierung der CO2-Emissionen bei. Sollen Cloud Computing-Dienste und virtuelle Infrastrukturen genutzt werden, so ist es bei der Auswahl von Cloud-Anbietern wichtig, deren Einsatz erneuerbarer Energiequellen und deren Umweltbilanz zu berücksichtigen (Shao et al. 2022).
Eine weitere Möglichkeit, den ökologischen Einfluss des Forschungsdatenmanagements zu reduzieren, besteht darin, eine genaue Selektion der Daten vorzunehmen, die gespeichert werden sollen. Durch eine Priorisierung der zu speichernden Daten können Einsparungen erzielt werden. Zusätzlich ist es in vielen Fällen möglich, Dateigrößen zu komprimieren, indem z. B. bereits im Vorhinein entschieden wird, Bilddateien nicht in der größtmöglichen, sondern in einer dem Zweck angepassten Auflösung bereitzustellen. Ein klimagerecht orientiertes FDM sollte sicherstellen, dass die Ressourcen (z. B. Hardware, Rechenzeit, Datenspeicherung) in angemessenem Verhältnis zu den erzielten Ergebnissen (z. B. Outputs, erwarteten Erkenntnissen) stehen (vgl. für das Beispiel des Natural Language Processing: Bender et al. 2021). Hierbei kann es sinnvoll sein, Ansätze des Minimal Computing zu nutzen, bei denen der Energieverbrauch bei der Datenverarbeitung minimiert wird (vgl. Pereira et al. 2017; Abbing 2021).
Zusätzlich zu diesen Maßnahmen können auch andere Aktivitäten zur Förderung eines grünen Forschungsdatenmanagements beitragen. Eine Verlängerung der Lebensdauer von Hardware kann die Nachhaltigkeit verbessern, indem die Notwendigkeit für häufige Neuanschaffungen reduziert wird. Des Weiteren können Tools zur Berechnung des Energieverbrauchs bei der Datenverarbeitung eingesetzt werden, um die Auswirkungen auf die Umwelt zu quantifizieren und geeignete Maßnahmen zur Energieeinsparung zu identifizieren.
Ein umweltfreundliches Forschungsdatenmanagement ist von großer Bedeutung, um den ökologischen Fußabdruck der Digital Humanities-Forschung zu verringern (Juckes et al. 2022). Indem ökologische Aspekte in den Fokus gerückt und nachhaltige Praktiken implementiert werden, können Wissenschaftler*innen dazu beitragen, den Klimawandel zu bekämpfen und eine nachhaltige Zukunft zu gestalten (vgl. für das Beispiel der Langzeitspeicherung in Archiven: Pendergrass et al. 2019). Von der „Information, Measurement and Practice Action Group“ der Digital Humanities Climate Coalition gibt es bereits eine Leitlinie für die Erstellung klimabewusster Forschungsdatenmanagementpläne (Baker et al. 2022). Dieser kann auf die Kontexte an deutschen Universitäten und je nach Forschungsfeldern und -kontexten angepasst werden. Der Workshop soll dafür erste Grundlagen bilden.
Zielstellung des Workshops
Der ganztägige Workshop soll dazu dienen, gemeinsam in Kleingruppen Ideen für ein
grünes Forschungsdatenmanagement zu entwickeln und zu diskutieren. Hier können und
sollten auch Szenarien aus dem eigenen Umfeld eingebracht werden, um die Realisierbarkeit
der diskutierten Pläne sicherzustellen. Der Workshop dient nicht der Präsentation
fertiger Lösungen sondern der Diskussion von Fragestellungen aus dem Bereich des klimabewussten
FDM. Anhand der Problemstellungen werden dann gemeinsam Lösungsansätze skizziert sowie
Best Practice-Beispiele und ein Musterdatenmanagementplan entwickelt. Eine Vorlage
wird im Rahmen des Workshops zur Verfügung gestellt, Vorschläge für ein grünes Template
können ebenfalls seitens der Teilnehmenden eingebracht und diskutiert werden.
Der grüne DMP soll gemeinsam mit einem Aufsatz über die Ergebnisse des Workshops im
Nachgang zur DHd publiziert und der Community zur Verfügung gestellt werden. Zudem
gibt es in der AG GreeningDH konkrete Überlegungen, darauf aufbauende Workshops zu
grünem Forschungsdatenmanagement zu organisieren.
Der Workshop ist für eine Teilnehmendenanzahl von maximal 20 Personen konzipiert, Vorkenntnisse sind nicht erforderlich. Um sicherzustellen, dass die Inhalte des Workshops an die Teilnehmer angepasst sind, werden ihre jeweiligen Vorkenntnisse im Vorfeld durch eine Umfrage abgefragt. Um die Szenarien zu diskutieren und gemeinsam an einem DMP zu arbeiten, wird ein Computerpool mit Beamer und Whiteboard oder Flipchart inklusive Moderationskoffer benötigt.
Ablauf des Workshops
Für den Workshop ist folgender Ablauf geplant:
Der Zeitplan kann flexibel auf die Bedingungen vor Ort und die Bedürfnisse der Teilnehmenden angepasst werden.
Organisationsteam
Anja Gerber (ORCID 0000-0003-2576-1511, anja.gerber@klassik-stiftung.de ), ist seit 1.8.2023 an der Klassik Stiftung Weimar für die Task Area 6 „Qualification, Harmonisation and Integration“ der NFDI4Objects u. a. für die Erstellung von Objektbiografien und die Entwicklung einer N4O CoreOntology sowie Fragen des Forschungsdatenmaangements zuständig. Sie hat fundierte Kenntnisse in Datenmodellierung und Metadatenstandards sowie Erfahrungen im Umgang mit heterogenen Forschungsdaten. In ihrer bisherigen Tätigkeit an der Berlin-Brandenburgischen Akademie der Wissenschaften war sie beim Corpus Vitrearum Medii Aevi unter anderem konzeptionell an der Entwicklung des „CVMA Digitaler Ressourcen Managers“ beteiligt, einer Erfassungsumgebung für Bilddaten, die nach einer projekteigenen Spezifikation mit Metadaten annotiert und als XMP in die Header der Bilddateien geschrieben werden. Im Sommersemester 2023 lehrte sie an der Fachhochschule Potsdam „Metadatenvertiefung“ im Bachelorstudiengang „Bibliothekswissenschaften“. Sie hat Informationswissenschaften und Digitales Datenmanagement studiert.
Lisa Rosendahl (ORCID 0000-0002-4826-4553 , rosendahl@beethovens-werkstatt.de ), Wissenschaftliche Mitarbeiterin am Beethoven-Haus Bonn im Projekt Beethovens Werkstatt, studierte Musikwissenschaft, Geschichte und Digital Humanities in Düsseldorf und Münster. Ab Dezember 2022 arbeitete sie als wissenschaftliche Hilfskraft in der Beethoven-Gesamtausgabe sowie ab April 2021 am Musikwissenschaftlichen Seminar Detmold/Paderborn im DFG/AHRC-Projekt Beethoven in the House: Digitale Studien zu Bearbeitungen für Hausmusik (Kooperation mit der Universität Oxford, RISM Digital und dem Beethoven-Haus Bonn).
Beide Autorinnen engagieren sich in der AG „Greening DH“, die 2021 mit dem Ziel gegründet wurde, das Bewusstsein der Verbandsmitglieder für ökologische Aspekte von Aktivitäten im Bereich der Digital Humanities (Forschung, Lehre, Projektmanagement, Softwareentwicklung etc.) zu schärfen. Neben konkreten Handlungsanalysen und -empfehlungen geht es der AG darum, grundlegende Veränderungen, die sich daraus für das Fach ergeben, epistemologisch zu begleiten. Einige ihrer wichtigsten Arbeitsergebnisse sind die aktuelle Arbeit an „GreeningDH Guidelines“ für den DHd-Verband sowie das bereits online publizierte „The Digital Humanities Climate Coalition Toolkit“ zusammen mit der Digital Humanities Climate Coalition (DHCC). Neben technischen Prozessen, Fragen an Speichermanagement oder Infrastrukturen betrifft das auch den Bereich des Datenmanagements.
Bibliographie
- Abbing, Roel Roscam. 2021. „This Is a Solar-Powered Website, Which Means It Sometimes Goes Offline: A Design Inquiry into Degrowth and ICT”. In: LIMITS’21: Workshop on Computing within Limits (14./15. Juni 2021).
- Baker, James, Christopher Ohge, Lisa Otty, Jo Lindsay Walton. 2022. „A Researcher Guide to Writing a Climate Justice Oriented Data Management Plan (v0.6)”. Zenodo. DOI: .
- Bender, Emily M., Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell. 2021. „On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”. In: FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. Hrsg. von der Association for Computing Machinery , New York 2021, S. 610–623. DOI: .
- Deutsche Forschungsgemeinschaft (DFG). 2021. „Checkliste zum Umgang mit Forschungsdaten.“ (zugegriffen: 15.7.2023).
- Deutsche Forschungsgemeinschaft (DFG). 2023. „Umgang mit Forschungsdaten.“ (zugegriffen: 9.7.2023).
- DHCC Information, Measurement and Practice Action Group. 2022. „ A Researcher Guide to Writing a Climate Justice Oriented Data Management Plan.” Digital Humanities Climate Coalition.10.5281/zenodo.6451499 .
- DHCC Toolkit Action Group. 2022. „ Toolkit“. https://sas-dhrh.github.io/dhcc-toolkit/ (zugegriffen: 9.7.2023).
- Forschungsdaten.info. 2023. „Forschungsdaten und Forschungsdatenmanagement. Der Datenlebenszyklus.“ ( (zugegriffen: 9.7.2023)
- Forschungsdaten.info. 2023. „Forschungsdaten und Forschungsdatenmanagement. Der Datenmanagementplan“. (zugegriffen 15.7.2023).
- Juckes, Martin, Charlotte Pascoe, Lucy Woodward u. a. 2022.„ Interim Report: Complexity, Challenges and Opportunities for Carbon Neutral Digital Research”. Zenodo. DOI: .
- Kindling, Maxi and Schirmbacher, Peter. 2013. „ Die digitale Forschungswelt als Gegenstand der Forschung. Lehrstuhl Informationsmanagement“. In: Information - Wissenschaft & Praxis 64, no. 2-3 (2013): 127-136. .
- Kindling, Maxi, Schirmbacher, Peter und Simukovic, Elena. 2013. „Forschungsdatenmanagement an Hochschulen: das Beispiel der Humboldt-Universität zu Berlin.“ LIBREAS. Library Ideas, 23 (2013). Online verfügbar unter: , DOI: 10.18452/9041.
- Pendergrass, Keith, Walker Sampson, Tim Walsh, Laura Alagna. 2019 „ Toward Environmentally Sustainable Digital Preservation”. In: The American Archivist 82/1, S. 165–206. DOI: .
- Pereira, Rui, Marco Couto, Francisco Ribeiro. u. a. 2017. „Energy Efficiency across Programming Languages: How Do Energy, Time, and Memory Relate?”. In: Proceedings of the 10th ACM SIGPLAN International Conference on Software Language Engineering, Vancouver 2017, S. 256–267. DOI:
- Shao, Xiaotong, Zhongbin Zhang, Ping Song, Yanzhen Feng, Xiaolin Wang. 2022. „ A Review of Energy Efficiency Evaluation Metrics for Data Centers”. In: Energy and Buildings 271. DOI: .
- Wilkinson, Mark D., Michel Dumontier, IJsbrand Jan Aalbersberg u. a. 2016. „ The FAIR Guiding Principles for scientific data management and stewardship”. In: Scientific Data 3, 160018 (2016). DOI: .