Wissensgraphen und große Sprachmodelle in den Digital Humanities
https://zenodo.org/records/14942980
Workshop-Konzept
Motivation
Wissensgraphen haben sich in den digitalen Geisteswissenschaften als explizite Form der Wissensorganisation etabliert (Hyvönen 2020, Hyvönen 2023). Sie ermöglichen es, heterogene Daten und Texte in ein strukturiertes Format zu überführen. Bekannte Beispiele für Wissensgraphen sind Wikidata (Vrandečić und Krötzsch 2014) und Factgrid. Durch ihre Struktur bieten sie die Möglichkeit, das Paradigma der dokumentenzentrierten Veröffentlichungen in der Wissenschaft durch semantisch reichhaltige und vernetzte Graphstrukturen zu ersetzen (Auer et al. 2018). Wissensgraphen erleichtern die Erschließung digitaler Archivbestände und umfangreicher Textkorpora durch manuelle oder automatisierte Verschlagwortung und Klassifikation und bieten eine vielseitige Basis für verschiedene Anwendungen in den Digital Humanities (z.B. komplexe Abfragen, Integration mit anderen Graphen) und der Informatik (z.B. Training und Erklärbarkeit von Deep-Learning-Verfahren). Mithilfe neuer Verfahren der automatisierten Wissensextraktion können aus großen Datenmengen Wissensgraphen extrahiert und so neue Explorations- und Nutzungsmöglichkeiten erschlossen werden (Jaradeh et al. 2019). Besonders die Qualitäten und Fähigkeiten von Large-Language-Modellen (LLMs) (Touvron et al. 2023, OpenAI 2023), die in den letzten Jahren entwickelt wurden, bieten verbesserte Verfahren mit neuen Ansätzen (Li et al. 2023).
Stand der Forschung
Für domänenspezifische Anwendungen können Wissensgraphen aus verschiedenen Textgattungen und -quellen erstellt werden, deren Entitäts- und Relationstypen spezifisch auf die Fachdisziplin und den Anwendungszweck des Graphen ausgerichtet sind. Im Bereich der Kunstgeschichte gibt es beispielsweise ARCO (Carriero et al. 2019), einen Wissensgraphen, der das italienische Kulturerbe modelliert, und ArtGraph ( Castellano et al. 2022), der Daten aus WikiArt und DBpedia integriert.
Limitiert werden diese Ansätze jedoch durch die fehlende Integration von Informationen aus unstrukturierten Texten – wie Essays, Archivalien und Monografien. Diese sind domänenspezifisch in großer Menge vorhanden, aber durch manuelle Annotation nur sehr aufwändig zu erstellen. Verfahren des maschinellen Lernens bieten hier die Möglichkeit, Informationen durch automatisierte Wissensextraktion zu gewinnen (Abbildung 1). In den Digital Humanities gibt es erste Ansätze, Triplets aus Texten automatisiert zu extrahieren und damit Wissensgraphen zu kuratieren oder zu erweitern: Beispiele sind Arbeiten zur Erschließung von digitalisiertem Archivmaterial (Sack 2021, Vogeler 2019), zur Extraktion von Entitäten und Relationen in Giorgio Vasaris Künstlerviten (Santini et al. 2022) oder zur Erstellung eines Graphen aus historischen Enzyklopädien (Hagen 2023); auch automatisierte Verfahren mit Problemstellungen in domänenspezifischen Anwendungen wurden untersucht (Jain et al. 2022).
In diesem Zusammenhang gibt es jedoch nur wenige Studien, die die automatisierte Wissensextraktion mit den neueren Versionen von LLMs wie Llama 2 (Touvron et al. 2023) in domänenspezifischen Texten und Daten beschreiben. Trainingsansätze zum parametereffizienten Finetuning von LLMs wie Instruction Tuning geben dem Modell Schemata vor (Dettmers et al., 2023). So können mit Annotationsvorgaben die Zero-Shot-Fähigkeiten zur Informationsextraktion für spezifische Aufgaben verbessert und Informationen aus natürlichsprachigen Texten durch das Sprachmodell extrahiert werden (Sainz et al. 2024).
Darüber hinaus wird wenig über die konkrete Anwendung der erstellten Wissensgraphen in digitalen Methoden wie bei der Nutzung von Vision-Language-Modellen (VLMs; Liu et al. 2023) und LLMs geforscht. Hier zeigt sich das Potenzial für zahlreiche neue Anwendungen, beispielsweise zur Klassifikation und Suche multimodaler Daten (z.B. Bild, Text), der Verminderung von Halluzinationen der künstlichen neuronalen Netze oder als Methoden der Explainable Artificial Intelligence (XAI).
Inhalte
Ziel des Workshops ist es, Forschenden der Digital Humanities neue Methoden des maschinellen Lernens aus dem Bereich der Informatik vorzustellen, die zur automatischen Anreicherung von domänenspezifischen Wissensgraphen eingesetzt werden können. Dabei werden neue Ansätze mit LLMs vorgestellt. Perspektivisch wird auch auf konkrete Anwendungen in hybriden KI-Modellen sowie auf mögliche Mehrwerte von Wissensgraphen für Fragestellungen der XAI eingegangen. Nach dem Workshop sollen die Teilnehmer:innen in der Lage sein, LLMs als Werkzeuge zur automatischen Generierung von Triplets aus Textdateien zur Erstellung bzw. Erweiterung eigener (domänenspezifischer) Wissensgraphen anzuwenden und dabei spezifische Herausforderungen sowie Lösungen zu identifizieren. Sie haben praktische Erfahrungen mit entsprechenden Werkzeugen und Verfahren gesammelt und deren Anwendung in ihrem Forschungsgebiet erprobt. Darüber hinaus haben sie Einblicke in die Anwendung hybrider KI-Systeme erhalten.
Automatisierte Kuratierung von Wissensgraphen
Zu Beginn des Workshops werden den Teilnehmenden die Grundlagen von Wissensgraphen vermittelt. Anschließend haben sie die Möglichkeit, in einem Hands-on-Tutorial verschiedene Verfahren zum Kuratieren und Erweitern von Wissensgraphen selbst auszuprobieren. Dies geschieht auf Basis webbasierter Demonstratoren und unter Verwendung eigener Texte. Zu den Verfahren gehören das Named Entity Linking zur Extraktion von Entitäten, Reconciliation (z.B. ReFinED, Representation and Fine-grained typing for Entity Disambiguation, Ayoola et al. 2022) zum Abgleich domänenspezifischer Entitäten sowie die Verwendung von LLMs zur Extraktion ihrer Zusammenhänge in Form von Triplets (z.B. GoLLIE, Guideline-following Large Language Model for IE, Sainz et al. 2024 und DeepKE,Zhang et al. 2022). Dabei sollen die Vorteile und Herausforderungen bei der automatisierten Erstellung domänenspezifischer Wissensgraphen diskutiert werden. Explizit wird auf die Problematik der Zuordnung einzelner Entitäten zu bestehenden Wissensgraphen eingegangen. Darüber hinaus werden grundlegende Visualisierungsmöglichkeiten der erzeugten Entitäten mit SPARQL-Abfragewerkzeugen vorgestellt und getestet.
Wissengraphbasierte KI-Methoden für die Digital Humanities
Weiterhin wird auf die konkrete Anwendung von Wissensgraphen in künstlichen neuronalen Netzen eingegangen. Im letzten Teil des Workshops wird den Teilnehmenden in einem Hands-on-Tutorial die Bildersuchmaschine iART ( https://iart.vision ; Springstein et al. 2021) für kunsthistorische Daten vorgestellt. Dabei werden die neuen Möglichkeiten für interaktive und erklärbare Suchen mithilfe von Wissensgraphen und großen Sprachmodellen diskutiert und demonstriert, wie in Abbildung 2 dargestellt. iART , entwickelt in einem von der DFG geförderten Projekt (Projektnummer: 415796915) und weiterentwickelt im Projekt Reflexionsbasierte künstliche Intelligenz in der Kunstgeschichte (Projektnummer: 510048106), integriert erklärbare hybride Modelle für die Bildsuche und -analyse in einen Wissensgraphen. Abschließend sollen die wesentlichen Ergebnisse des Workshops gemeinsam mit den Teilnehmenden diskutiert werden.
Zielgruppe
Willkommen sind Teilnehmer:innen aus allen Fachbereichen, die an der Wissensextraktion aus wissenschaftlichen Texten interessiert sind. Von unserer Seite werden Wissensgraphen und Textbeispiele aus dem Bereich der Kunstgeschichte angeführt, die Methoden sind aber nicht fachspezifisch.
Programm
Vor dem Workshop
Vernetzung der Teilnehmer:innen über GitHub. Zudem werden die Nutzer:innen gebeten, eigene Texte für die Wissensextraktion mitzubringen und Fragestellungen zu ihren jeweils domänenspezifischen Wissensgraphen vorzubereiten.
Montag, 03.03.2025
Zum Auftakt erfolgt eine Einführung in Wissensgraphen, illustriert mit Beispielen aus der Kunstgeschichte. Die Teilnehmer:innen extrahieren manuell Triplets aus ihren Texten und erstellen eine schematische Ontologie. Anschließend werden Methoden der Relationsextraktion mithilfe von LLMs vorgestellt und in Hands-on-Tutorials praktisch erprobt. Dabei werden auch Möglichkeiten diskutiert, wie sich die extrahierten Triplets manuell und automatisch evaluieren lassen (Boylan et al. 2024).
Dienstag, 04.03.2025
Die praktische Anwendung wird durch den Vergleich der Ergebnisse und die Diskussion der Vor- und Nachteile automatisierter Extraktion vertieft. Die extrahierten Entitäten werden mit Datenbanken wie Wikidata abgeglichen und visualisiert. Im Rahmen des Workshops wird das digitale Tool iART für die kunsthistorische Bildersuche vorgestellt, das perspektivisch hybride KI-Modelle zur besseren Interpretierbarkeit von Suchresultaten einsetzen soll. In der Schlussrunde werden die Ergebnisse zusammengefasst und Anschlussmöglichkeiten für Folgeprojekte und Community-Building diskutiert.
Nach dem Workshop
Eine Nachbereitung und weitere Vernetzung über GitHub ist ausdrücklich erwünscht.
Zusätzliche Angaben
Benötigte technische Ausstattung: Beamer, WLAN-Zugang, ausreichend Steckdosen für die Laptops der Teilnehmer:innen
Zahl der möglichen Teilnehmer: 30
Forschungsinteressen der Beitragenden:
Julian Stalter ( julian.stalter@kunstgeschichte.uni-muenchen.de ): Erforschung und Entwicklung von Methoden zur Bildanalyse für Digital Humanities, Digital Art History.
Matthias Springstein ( matthias.springstein@tib.eu ): Entwicklung und Implementierung von Methoden zur Videoanalyse für Digital Humanities, Computer Vision für Digital Art History.
Maximilian Kristen ( max@kristenonline.de ): Entwicklung und Implementierung von Extraktionsmethoden für Triplets aus Rohtexten unter Einsatz von Human-in-the-loop Systemen zur Bereinigung
Eric Müller-Budack ( eric.mueller@tib.eu ): Erforschung und Entwicklung von unimodalen (Bild, Audio und Text) und multimodalen KI-Methoden zur Nachrichten-, Film- und Videoanalyse; Forschungsinteressen Informatik: Multimedia Retrieval, Computer Vision, Multimodal Computing
Stefanie Schneider ( stefanie.schneider@itg.uni-muenchen.de ): Entwicklung und Implementierung von Methoden zur Bildanalyse für Digital Humanities, Research Software Engineering für Digital Humanities; Forschungsinteressen Informatik: Multimedia Retrieval, Computer Vision, Network Analysis.
Elias Entrup ( elias.entrup@tib.eu ): Entwicklung und Implementierung von Methoden der Computerlinguistik, Empfehlungssystemen und bibliometrischen Analysen
Hubertus Kohle ( hubertus.kohle@gmail.com ): Kunst Frankreich und Deutschland – 18. Jahrhundert bis zur klassischen Moderne, Digitale Kunstgeschichte
Ralf Krestel ( rkr@informatik.uni-kiel.de ): Erforschung und Entwicklung von Methoden zur Analyse von Textdaten, u.a. aus den Bereichen Kunstgeschichte, Patente, wissenschaftliche Dokumente, soziale Medien. Forschungsinteressen Informatik: Text Mining, Information Retrieval, Digital Libraries
Ralph Ewerth ( ralph.ewerth@tib.eu ): Erforschung und Entwicklung von Methoden zur Videoanalyse für Digital Humanities, Forschungsinfrastrukturen für Digital Humanities, interdisziplinäre Forschung zu Film-/Videoanalyse und Kunstgeschichte; Forschungsinteressen Informatik: Multimedia Retrieval, Computer Vision, Multimodal Computing, Visual Analytics.
Bibliographie
- Auer, Sören, Viktor Kovtun, Manuel Prinz, Anna Kasprzik, Markus Stocker und Maria Esther Vidal. 2018. Towards a Knowledge Graph for Science. in: Proceedings of the 8th International Conference on Web Intelligence, Mining and Semantics. Novi Sad Serbia: ACM. 1–6. https://dl.acm.org/doi/10.1145/3227609.3227689 [letzter Zugriff 19. Juli 2024].
- Ayoola, Tom, Shubhi Tyagi, Joseph Fisher, Christos Christodoulopoulos und Andrea Pierleoni. 2022. ReFinED: An Efficient Zero-shot-capable Approach to End-to-End Entity Linking. in: Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Industry Track, NAACL 2022, Hybrid: Seattle, Washington, USA + Online, July 10-15, 2022. Association for Computational Linguistics. 209–220. .
- Boylan, Jack, Demian Gholipour Ghalandari, Chris Hokamp, Dominic Thorn, Parsa Ghaffari and Shashank Mangla. 2024. “KGValidator: {A} Framework for Automatic Validation of Knowledge Graph Construction”, in: Joint proceedings of the 3rd International workshop on knowledge graph generation from text (TEXT2KG) and Data Quality meets Machine Learning and Knowledge Graphs {(DQMLKG)} co-located with the Extended Semantic Web Conference (ESWC) 2024. 26-30.
- Carriero, Valentina Anita, Aldo Gangemi, Maria Letizia Mancinelli, Ludovica Marinucci, Andrea Giovanni Nuzzolese, Valentina Presutti und Chiara Veninata. 2019. "ArCo: the Italian Cultural Heritage Knowledge Graph" 36–52. 10.1007/978-3-030-30796-7_3.
- Castellano, Giovanna, Vincenzo Digeno, Giovanni Sansaro und Gennaro Vessio. 2022. "Leveraging Knowledge Graphs and Deep Learning for automatic art analysis", in: Knowledge-Based Systems 248: 108859. 10.1016/J.KNOSYS.2022.108859.
- Dettmers, Tim, Artidoro Pagnoni, Ari Holtzman und Luke Zettlemoyer. 2023. QLoRA: Efficient Finetuning of Quantized LLMs. in: Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023. http://papers.nips.cc/paper\_files/paper/2023/hash/1feb87871436031bdc0f2beaa62a049b-Abstract-Conference.html.
- Hagen, Thora. 2023. Von A bis Z: Überlegungen zur Erstellung eines Wissensgraphen aus historischen Enzyklopädien. https://zenodo.org/doi/10.5281/zenodo.4039569 [letzter Zugriff 16. Juli 2024].
- Hyvönen, Eero. 2020. "Using the Semantic Web in digital humanities: Shift from data publishing to data-analysis and serendipitous knowledge discovery", in: Semantic Web 11 (1): 187–193. 10.3233/SW-190386.
- Hyvönen, Eero. 2023. "Digital humanities on the Semantic Web: Sampo model and portal series", in: Semantic Web 14 (4): 729–744. 10.3233/SW-223034.
- Jain, Nitisha, Alejandro Sierra Múnera, Maria Lomaeva, Julius Streit, Simon Thormeyer, Philipp Schmidt und Ralf Krestel. 2022. Generating Domain-Specific Knowledge Graphs: Challenges with Open Information Extraction. in: Proceedings of the 1st International Workshop on Knowledge Graph Generation From Text and the 1st International Workshop on Modular Knowledge co-located with 19th Extended Semantic Conference (ESWC 2022), Hersonissos, Greece, May 30th, 2022. CEUR-WS.org. 52–69. http://ceur-ws.org/Vol-3184/TEXT2KG\_Paper\_4.pdf.
- Jaradeh, Mohamad Yaser, Allard Oelen, Kheir Eddine Farfar, Manuel Prinz, Jennifer D’Souza, Gábor Kismihók, Markus Stocker und Sören Auer. 2019. Open Research Knowledge Graph: Next Generation Infrastructure for Semantic Scholarly Knowledge. in: Proceedings of the 10th International Conference on Knowledge Capture. Marina Del Rey CA USA: ACM. 243–246. https://dl.acm.org/doi/10.1145/3360901.3364435 [letzter Zugriff 19. Juli 2024].
- Li, Xue, Fina Polat, und Paul Groth. 2023. Do Instruction-tuned Large Language Models Help with Relation Extraction? in: Joint proceedings of the 1st workshop on Knowledge Base Construction from Pre-Trained Language Models (KBC-LM) and the 2nd challenge on Language Models for Knowledge Base Construction (LM-KBC). https://ceur-ws.org/Vol-3577/paper15.pdf [letzter Zugriff 22. Juli 2024].
- Liu, Haotian, Chunyuan Li, Qingyang Wu und Yong Jae Lee. 2023. Visual Instruction Tuning. in: Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023. http://papers.nips.cc/paper\_files/paper/2023/hash/6dcf277ea32ce3288914faf369fe6de0-Abstract-Conference.html .
- OpenAI. 2023. “GPT-4 Technical Report”, in: CoRR abs/2303.08774: 10.48550/arXiv.2303.08774
- Sack, Harald. 2021. "Hybride Künstliche Intelligenz in der automatisierten Inhaltserschließung" in: Qualität in der Inhaltserschließung. De Gruyter Saur 387–406. 10.1515/9783110691597-019.
- Sainz, Oscar, Iker García-Ferrero, Rodrigo Agerri, Oier Lopez de Lacalle, German Rigau und Eneko Agirre. 2023. "GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction", in: CoRR abs/2310.03668: 10.48550/ARXIV.2310.03668.
- Santini, Cristian, Mary Ann Tan, Oleksandra Bruns, Tabea Tietz, Etienne Posthumus und Harald Sack. 2022. Knowledge Extraction for Art History: the Case of Vasari’s The Lives of The Artists (1568). in: Proceedings of the Third Conference on Digital Curation Technologies (Qurator 2022). Berlin.
- Springstein, Matthias, Stefanie Schneider, Javad Rahnama, Hubertus Kohle, Ralph Ewerth and Eyke Hüllermeier. 2021.” iART: {A} Search Engine for Art-Historical Images to Support Research in the Humanities”, in: Proceedings of the 29th ACM International Conference on Multimedia. 2801-2803.
- Touvron, Hugo et al. 2023. "LLaMA: Open and Efficient Foundation Language Models", in: CoRR abs/2302.13971: 10.48550/arXiv.2302.13971.
- Vogeler, Georg. 2019. “The ‘assertive edition’. On the consequences of digital methods in scholarly editing for historians” in: International Journal of Digital Humanities 1, 309–322. 10.1007/s42803-019-00025-5.
- Vrandečić, Denny und Markus Krötzsch. 2014. "Wikidata: a free collaborative knowledgebase", in: Commun. ACM 57 (10): 78–85. 10.1145/2629489.
- Zhang, Ningyu et al. 2022. DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population. in: Che, Wanxiang / Shutova, Ekaterina (eds.): EMNLP (Demos). Association for Computational Linguistics. 98–108. .