Large Language Models im Archiv: Prompt-Engineering für Archivar:innen

Näger, Paul M.; Eickhoff, Dominic
https://zenodo.org/records/14943026
Zum TEI/XML Dokument

Einleitung

Allen archivierten Objekten ist gemein, dass für sie Metadaten in Textform erhoben werden, die als Findmittel, z. B. Findbücher oder Datenbanken, ausgegeben werden. Der Umgang mit den entstehenden Textdaten gehört zu den grundlegenden Aufgaben fast aller archivarischen Arbeitsprozesse. Dabei lassen sich verschiedene Aufgabentypen im Archiv unterscheiden: Bei der Erschließung werden Textdaten erstellt, mit Konkordanzen abgeglichen, formatiert, klassifiziert, und schließlich annotiert oder mit Normdaten angereichert. Aufbau und Pflege von archivischen Erschießungsdaten sind anspruchsvoll, jedoch in weiten Teilen repetitiver Natur (z. B. bei der Übernahme von Massenakten).

Mit der Entwicklung von generativen großen Sprachmodellen (Large Language Models, LLMs) gibt es Hoffnung, Teile solcher Textarbeit automatisieren zu können. Diese Modelle wurden durch die Transformer-Architektur (Vaswabi et al., 2017) in jüngster Vergangenheit zu einer Reife mit erstaunlichen Fähigkeiten entwickelt (Ouyang, 2022). Die meisten dieser aktuellen Modelle wurden explizit trainiert für die Textgenerierung auf Grundlage einer Nutzeranweisung (Prompt) und eines Kontextes. Es hat sich gezeigt, dass sie aber auch für viele andere Aufgaben der automatisierten Textverarbeitung (Natural Language Processing, NLP) geeignet sind. Archivar:innen ist dadurch ein mächtiges Werkzeug an die Hand gegeben, das verschiedenste KI-basierte Textgenerierungs- und Textverarbeitungsaufgaben durchführen kann – und das ohne jegliches Programmieren, allein aufgrund von Anweisungen in natürlicher Sprache.

Vor diesem Hintergrund ist es verständlich, dass es aktuell ein großes Interesse am Einsatz von LLMs in den textverarbeitenden Geistes- und Informationswissenschaften gibt. In diesem Artikel wollen wir einen Überblick über die möglichen Anwendungen von LLMs in der Archivarbeit geben, sowie an einem Beispiel demonstrieren, wie dies konkret durchgeführt werden kann, welche Probleme dabei auftreten, was mögliche Lösungen sein könnten und welche Grenzen aktuell bestehen. Um den Adressat:innenkreis der vorliegenden Arbeit möglichst weit zu halten, beschränken wir uns bei den diskutierten Anwendungsfällen auf die Arbeit im natursprachlichen Chat-Fenster (und lassen Anfragen über die API oder explizite Programmierung außen vor). Unsere Ergebnisse zum Prompt Engineering sind nicht nur für die Arbeit in Archiven, sondern allgemein für die Digital Humanities von Interesse.1 

Der Archival Metadata Cycle und Potentiale für den Einsatz von LLMs

Um ein klares Framework für mögliche Anwendungsbereiche von LLMs in der Archivarbeit zu erhalten, führen wir hier zunächst eine Taxonomie für die verschiedenen Verarbeitungsschritte archivischer Metadaten ein. Diese ist angelehnt an die Konzepte des Research Data Life Cycle für Forschungsdaten und des Records Life Cycle aus dem Bereich des Records Managements, unterscheidet sich aber von diesen essentiell, weil Archivmetadaten als Ewigkeitsdaten intendiert sind. Entsprechend unterliegen sie keinem Lebenszyklus mit wohldefiniertem Ende, sondern einem iterativen Verarbeitungszyklus, der ohne Ende konzipiert ist (vgl. Yusof et al., 2000, 135-141). Der Archival Metadata Cycle (Zyklus archivischer Metadaten), wie wir die Taxonomie nennen wollen, soll nach unserem Vorschlag folgende vier Stufen umfassen: Datenproduktion, Datenpflege, Datenbereitstellung und Datennutzung (Abb. 1).

Placeholder
Abbildung 1: Archival Metadata Cycle

Wir skizzieren nun die Arbeitsschritte zu jedem der vier Zyklusschritte im Hinblick darauf, wo Potential für die Anwendung von LLMs besteht.

Unter Datenproduktion verstehen wir im archivischen Kontext die Erzeugung von Metadaten im Prozess der Erschließung, insbesondere die Ordnung und Verzeichnung. Zunächst geht jeder Erschließung eine Sichtung und Bewertung des abgegebenen Registraturguts voraus. Im weiteren Sinne wollen wir auch diesen Vorgang dem Schritt der Datenproduktion zurechnen. Bei dieser Bewertung könnten LLMs nützlich sein, wenn es sich um elektronisches Archivgut handelt: LLMs könnten den Inhalt zusammenfassen und Vorschläge für die Archivwürdigkeit abgeben, indem sie analysieren, inwiefern die Archivalien mit zuvor hinterlegten Bewertungsprofilen (die eine Reihe von Kriterien enthalten) übereinstimmen.

LLMs könnten auch bei der Ordnung des Archivguts eingesetzt werden. Dazu ist festzuhalten, dass Archivgut heutzutage bei der Übernahme hauptsächlich nach dem Provenienzprinzip geordnet wird, d.h. nach seinem Entstehungszusammenhang. Die oberste Hierarchie bildet dabei die Archivtektonik mit Untergruppen wie bspw. Beständen und Sammlungen. Innerhalb eines Bestands werden die Dokumente dann systematisch in Klassifikationen unterteilt, sodass thematisch zusammengehörige Archivalien in ihrem Kontext verbleiben. LLMs könnten nun eingesetzt werden, um Vorschläge für die Ordnung oder die Vergabe von aussagekräftigen Titeln für die Klassifikationen zu machen. Basis für die Vorschläge der LLMs könnten Aktenpläne oder Abgabelisten der abgebenden registraturbildenden Institution sein.

Bei der Verzeichnung muss zwischen digitalisiertem Archivgut und genuin elektronischem Archivgut unterschieden werden. Während ersteres für potentielle LLM-Verarbeitung erst in zusätzlichen Arbeitsprozessen digitalisiert und volltexterkannt werden müsste, können LLMs für letzteres (durch die Analyse der Volltext-Inhalte) Titel, Laufzeiten und Enthält-Vermerke generieren. Auch der Inhalt der Dokumente ist wichtig für die Verzeichnung. LLMs könnten auch hierbei helfen, indem sie unstrukturierte Datensätze bspw. aus Fileablagen analysieren, zusammenfassen und Zusammenhänge offenlegen (vgl. Sack, 2021). Auch die Kategorisierung von Dokumenten anhand eines hinterlegten Verschlagwortungsvokabulars (Thesauri)2  könnten LLMs übernehmen. Schließlich können LLMs beim Verfassen von Findbucheinleitungen (Textgenerierung) unterstützen (vgl. King, 2024). Letztere Aufgabe werden wir im nächsten Abschnitt exemplarisch demonstrieren.

Das Feld der Datenpflege meint mögliche Überarbeitungen der bereits bestehenden Erschließungsangaben in den Datenbanken der zentralen Archivinformationssysteme (AIS). Hier ist denkbar, dass LLMs bei nachträglichen Tiefenerschließungen, bei der Korrektur oder dem Einpflegen von KI-gestützten Transkriptionen digitalisierten analogen Archivguts oder bei der Anreicherung mit Normdaten, etwa GND-IDs, assistieren. Die Frage nach der Arbeitsoberfläche für Metadaten und deren KI-gestützte Bearbeitung ist dabei zentral. Herausforderungen für Archive liegen in der Bedienung von KI-Tools und der Implementierung von Schnittstellen zum Datenaustausch. Ziel sollte die Anreicherung bestehender Erschließungsdaten in reimportierbarer Form sein.

Bei der Datenbereitstellung gibt es keine unmittelbare Anwendungsmöglichkeit für LLMs. Es ist jedoch wichtig zu diskutieren, wie Daten für eine Nutzung von LLMs am besten bereitgestellt werden. Hierbei müssen sowohl die Metadaten als auch die Dokumentinhalte berücksichtigt werden. Wegweisendes Vorbild für Archive ist die Bildung digitaler Korpora digitalisierter und OCR-erkannter historischer Zeitungen (Oberbichler, 2024). So bietet beispielsweise das Deutsche Zeitungsportal über die Schnittstellen der Deutschen Digitalen Bibliothek (DDB) die Möglichkeit, Objekte einzeln herunterzuladen oder als Harvesting über die Schnittstellen der DDB (vgl. Deutsche Digitale Bibliothek, 2024; Archivportal-D, 2024). Bzgl. der Metadaten ist es möglich, aber bislang kaum praktiziert, Nutzungsanfragen an Archive zu stellen, um ganze Metadatensätze für die maschinelle Analyse zu erhalten. Denkbare Dateiformate für einen solchen Export aus den AIS sind XML-Dateien im EAD(DDB)-Standard, tabellarische XML-Dateien (für Excel / CSV), sowie Text-Dateien (wie RTF, MD, TXT).

Das Feld der Datennutzung ist schließlich der Berührungspunkt von Digital Humanities und Archiven, wenn DH-Forscher:innen Archiv-Daten in ihren Studien analysieren. Hier schließt sich der Datenkreislauf, wenn die während der Datennutzung entstehenden Metadaten – etwa im Rahmen von Citizen Science, Collaborative Tagging oder anderen Crowd Sourcing-Ansätzen – wiederum für die Anreicherung der Metadaten im Archiv selbst verwendet werden. Der immer noch neue und in deutschen Archiven bislang nicht etablierte Erschließungsstandard Records in Context (RiC) hat die semantische Anreicherung der Erschließungsangaben mit Verknüpfungen und Zuordnungen zum Ziel, die auch einem LLM mehr Kontext für Analysen bieten könnte (vgl. Gniffke, 2020; Hawkins, 2022). In der KI-gestützten Recherche (z. B. Yamasaki, Tomiura und Shimizu 2023) etablieren sich zunehmend sog. RAG-Systeme (Retrieval Augmented Generation), die bei einer Nutzeranfrage zunächst mittels semantischer Suche (durch sog. Embedding-LLMs) nach relevanten Texten in einem großen Korpus suchen (retrieval), um dann mit der Information dieser gefundenen Textdaten (augmented) und einem generativen LLM eine Antwort auf die Nutzerfrage zu erzeugen (generation).

Aus diesem Überblick wird deutlich, dass LLMs für eine Vielzahl an Aufgaben in Archiven, die einen sprachlichen Fokus haben, nützlich, zeit- und ressourcensparend eingesetzt werden können. Insbesondere in einem Umfeld, in dem viele Aufgaben in Archiven aufgrund fehlenden Personals und explodierender Datenmengen oft nur langsam, in übersichtlicher Qualität (zunehmend flache Erschließung) oder gar nicht mehr durchgeführt werden, kann der sinnvolle Einsatz von generativer KI ein Schlüsselbaustein für die zukünftige Archivarbeit sein. Von einer zeitnahen Bereitstellung von Daten in hoher Qualität würden auch die Digital Humanities als ein primärer Verwerter von Archivdaten profitieren.

Im Folgenden wollen wir auf eine typische Aufgabe näher eingehen, dem Schreiben einer Findbucheinleitung, und daran exemplarisch demonstrieren, wie man dafür geeignet vorgehen kann. Unsere Diskussion wird zeigen, dass ein überlegtes, gestuftes Vorgehen ebenso wichtig ist, wie ein ausgefeiltes Prompt Engineering.

Textgenerierung mit LLMs: Findbucheinleitung

Findmittel wie z. B. Findbücher sind die zentralen Rechercheinstrumente eines Archivs, die die vorhandenen Archivalien in einzelne Verzeichnungseinheiten gliedern und mit Metainformationen beschreiben. Findbücher beschreiben sog. Bestände, die Archivalien gleicher Provenienz zusammenfassen, wie z. B. den Nachlass einer Person. Eine sog. Findbucheinleitung wird dem Findbuch vorangestellt, um weitere Informationen über den Bestand zu geben, z. B. über die Überlieferungssituation, die Geschichte von dessen Erschließung, Nutzungshinweise und nicht zuletzt eine zusammenfassende inhaltliche Übersicht der Themen, Dokumenttypen und wichtigen Personen oder Organisationen, die im Bestand vorkommen. Oft werden auch weitere relevante Informationen genannt, bei Nachlässen typischerweise zu Leben und Werk der betreffenden Person.

Wenn ein:e Archivar:in einen Bestand erschließt, ist das Verfassen einer Findbucheinleitung ein wichtiger Schritt, der typischerweise gegen Ende des Prozesses ausgeführt wird. Das Verfassen kann zeitraubend und mühsam sein.

Es liegt nahe, dass LLMs mit ihren Fähigkeiten, Texte zu generieren, dafür eine hervorragende Unterstützung sein können. Um deren Fähigkeiten zu evaluieren, haben wir eine Studie durchgeführt, für die uns Findbücher aus dem Westfälischen Literaturarchiv im XML-Format vorlagen. Da diese bereits Findbucheinleitungen enthielten, wurden letztere zunächst entfernt und als Referenz zum späteren Vergleich gespeichert. Die resultierenden Findbucheinträge-ex-Einleitung simulierten eine typische Situation für eine:n Archivar:in gegen Ende der Bestandserschließung. Für diese Situation prüften wir verschiedene Methoden, das Sprachmodell GPT-4o (von OpenAI) dazu zu bringen, geeignete Findbucheinleitungen zu schreiben.

Im Folgenden schildern wir die allgemeinen Ergebnisse, die wir durch qualitative Vergleiche gewonnen haben. Illustrierend und die allgemeinen Ergebnisse belegend verweisen wir exemplarisch auf die Ergebnisse, die wir zu dem Bestandseintrag des westfälischen Schriftstellers Werner Warsinsky (1910–1992) erhalten haben (Westfälisches Literaturarchiv, 2022). Die vom Archivar erstellte Findbucheinleitung zu diesem Bestand ist lang (2062 Wörter), führt in dessen Leben und Werk ein und verknüpft diese Darstellung detailliert mit den Archivalien des vorhandenen Bestands. Sie kommentiert außerdem den Nachlass und stellt dessen Bearbeitungsstand dar.

Für unsere Studie wurde die Datei eines Findbucheintrags-ex-Einleitung im XML-Format im Chat-Fenster hochgeladen und diente so als wesentlicher Kontext für den anschließenden Arbeitsschritt der Einleitungsgenerierung. Bereits mit einem einfachen Prompt („Schreibe eine Einleitung zu diesem Bestandseintrag aus einem Findbuch.“) erhält man ein Ergebnis (ChatGPT, 2024a). Der Text ist kohärent und es wird auch Bezug auf die im Findbuch verzeichneten Werke genommen, dies geschieht aber in recht oberflächlicher Weise. Auch die Gesamtlänge ist selbst bei umfangreichen Findbucheinträgen zu knapp (ca. 200 Wörter im Vergleich zu 2000 Wörtern des menschlich erstellten).

Wir haben deshalb mit Prompt Engineering (PE) die Befehle an das Modell variiert und verschiedene Möglichkeiten elaborierterer Anweisungen an das Modell getestet. Das Vorgehen war sowohl orientiert an bekannten Prinzipien des PE, als auch gestützt auf Trial and Error. Das Ergebnis dieser Versuchsreihe ist folgender Workflow, den wir hier zunächst präsentieren und dann erläutern. Die folgenden Prompts werden nacheinander in einem Chat ausgeführt. Hochgeladene Dateien werden in eckigen Klammern notiert:

Prompt 1: Gib einen präzisen und vollständigen Überblick über das Dokument.
[dazu hochgeladen: das Findbuch-ex-Einleitung im XML-Format]

Prompt 2: Du bist ein erfahrener Archivar. Schreibe eine Einleitung zu diesem Bestandseintrag aus einem Findbuch von 2000 Wörtern Länge. Berücksichtige dabei auch die Informationen aus der anhängenden Datei. Neben anderen üblichen Punkten soll die Findbucheinleitung insbesondere folgende Punkte ausführlich behandeln:

– Biographie des Autors

– Werk des Autors

– Vorliegender Bestand

[dazu hochgeladen: ein Dokument mit Informationen zu Leben und Werk des Autors im Reintext-Format, s. dazu unten]

In diesem Fall ist das gesuchte Ergebnis (ChatGPT, 2024b), die Findbucheinleitung, erst der Output des zweiten Prompts. Diese ist mit der einfach generierten Einleitung kaum mehr zu vergleichen: Sie ist reich an Informationen und gibt einen guten Überblick über Leben und Werk des Autors sowie den vorliegenden Bestand. Natürlich darf man nicht erwarten, dass diese Informationen zur Bestandsgeschichte und -erschließung enthält, weil es sich dabei um Informationen handelt, die i.d.R. exklusiv dem bearbeitenden Archiv vorliegen. Wenn man diese Ergänzungen durchführt und einige weitere kleinere Anpassungen vornimmt, könnte das Ergebnis aber durchaus als Findbucheinleitung verwendet werden. Allerdings erreicht diese nicht die Qualität einer sehr differenzierten Einleitung mit vielen Querbezügen zum Bestand (wie sie im Fall von Warsinsky durch den Archivar erstellt wurde).

Ad Prompt 1

Gesamter Prompt: Der Überblick über den Findbucheintrag ist nicht Ziel des Promptings, sondern dient dazu, dass GPT die Datei gründlich liest und durch die ausgegebene Zusammenfassung einen geeigneten Kontext für Prompt 2 schafft. Die Separierung des Einlesens der Datei von Prompt 2 folgt dem Prinzip der Task Decomposition (vgl. Li et al., 2024).

„präzise und vollständig“: Dieser kleine Zusatz macht den Überblick über die Datei merkbar detaillierter. Es ist ein Nachteil von LLMs, dass solche Kleinigkeiten im Input deutliche Unterschiede im Output bewirken können.

Ad Prompt 2

„Du bist ein erfahrener Archivar“: Hier wird das Prinzip des Persona-Promptings angewandt (vgl. Olea et al., 2024). Führt zu kleineren Verbesserungen.

„von 2000 Wörtern Länge“: Spezifiziert eine gewünschte Outputlänge, hier orientiert an der vom Archivar verfassten Originaleinleitung für den Eintrag zu Warsinsky. Unsere Versuche zeigen, dass eine Forderung nach einem solchen längeren Text sinnlos ist, wenn das LLM nicht genug Informationen dafür erhält. Im vorliegenden Fall wird dies durch die beiden hochgeladenen Dateien gesichert. (Andernfalls kürzt das Modell das Output doch ab oder schreibt Allgemeinplätze im Umfeld des Themas).

„Neben anderen üblichen Punkten soll die Findbucheinleitung insbesondere folgende Punkte ausführlich behandeln…“: Dem Prinzip der Spezifität folgend („möglichst spezifische Anweisungen“, vgl. Bsharat, 2023) gibt diese Anweisung dem LLM eine Antwortstruktur vor. Ohne diese hatte das LLM i.d.R. zwar auch das Leben des Autors thematisiert, aber nicht immer einen Überblick über das Gesamtwerk und den vorliegenden Bestand gegeben.

„Dokument mit Informationen zu Leben und Werk des Autors“: Solche Informationen müssen für weniger bekannte Personen hinzugefügt werden, weil ChatGPT für diese i.d.R. keine Informationen über Leben und Werk vorliegen. Weist man ChatGPT bspw. an „Schreibe eine Biographie über den Schriftsteller Werner Warsinsky (1910-1992) mit 500 Wörtern Länge“, fabuliert es eine völlig unzutreffende Lebensgeschichte mit einem Studium in Frankfurt, jüdischen Wurzeln, usw. (Halluzinationen; vgl. Rahman et al. 2024).

Alternativ zu einer Datei kann man ChatGPT auch anweisen, relevante Informationen zu Leben und Werk der betreffenden Person aus dem Internet zu laden. Wenn man dies tut, erhält man bessere Ergebnisse, wenn man dies in einem separaten Schritt ausführt (wieder Task Decomposition).

Die Ergebnisse der ChatGPT-Suche im Internet können aber dürftig sein. Will man bessere Ergebnisse erhalten, kann man, wie wir es getan haben, mithilfe des Suchdienstes perplexity.ai nach geeigneten Informationen suchen. Die Plattform kombiniert eine Websuche mit weiterer Verarbeitung durch ein LLM (nämlich GPT) und kann so maßgeschneiderte Antworten auf natursprachliche Anfragen geben, die die Informationen aus den i.d.R. fünf relevantesten Seiten oder Dokumenten zusammenfassen (und diese als Quelle angeben). Diese Antworten haben oft nicht selten eine deutlich höhere Qualität als die Websuche von ChatGPT (Perplexity AI, 2024). Die generierten Inhalte haben wir kopiert, in einer Datei abgespeichert und in ChatGPT hochgeladen.

Konklusion

Wir haben am Beispiel der Findbucheinleitung gezeigt, dass LLMs bei geeignetem Prompt Engineering hilfreiche Assistenten sein können, die sinnvoll und ressourcensparend in Archiven einsetzbar sind. Die qualitative Auswertung zeigt jedoch auch, dass noch nicht alle Aufgaben verlässlich durchführbar sind und auch nicht in der Qualität eine:r erfahrenen Archivar:in. Die Ergebnisse brauchen im Moment deshalb Kontrolle (und in Zukunft verbesserte Methoden). Trotz dieser Einschränkungen, ist zu erwarten, dass LLMs zur Bewältigung der archivarischen Arbeit beitragen werden und dass das gezeigte Prompt-Engineering für Archivar*innen eine neue Facette der Archivarbeit werden wird.


Fußnoten

1 Contributor Roles (CRediT): Paul M. Näger (Conceptualization, Writing, Methodology, Software), Dominic Eickhoff (Conceptualization, Writing, Data Curation, Visualization)
2 Diese enthalten oft ein kontrolliertes Vokabular, das in den zentralen Archivinformationssystemen (AIS) gepflegt wird.

Bibliographie