»LLMs for everything?« Potentiale und Probleme der Anwendung von In-Context-Learning für die Computational Literary Studies

Pichler, Axel; Reiter, Nils
https://zenodo.org/records/10698510

Große Sprachmodelle, sogenannte Large Language Models (LLMs), haben das Natural Language Processing (NLP) seit dem Aufkommen der Transformer-Architektur in den letzten Jahren revolutioniert. Spätestens seit der Veröffentlichung von ChatGPT ist das Potential dieser Modelle auch der nicht akademischen Öffentlichkeit bekannt. Ein noch nicht vollständig erklärtes Merkmal dieser Modelle ist, dass sie mit zunehmender Größe – als Schwellenwert werden hier um die 10 Milliarden Parameter genannt, – auch Problemlösungskompetenzen entwickeln, für die sie nicht trainiert wurden (Wei et. al. 2022). Zu diesen sogenannten ›Emergent Abilities‹ zählt auch eine Trainingsmethode, bei der es sich im strengen Sinne gar nicht um eine ›klassische‹ Form des Fine-Tunings handelt, da dabei keine Anpassungen der Gewichte durchgeführt werden: das In-Context-Learning (ICL, Dong et al. 2023).

Darunter versteht man die Praxis, einem LLM durch die Eingabe von natürlichsprachlich verfassten Beispielen, das in diesen Beispielen inkorporierte und implizierte ›Wissen‹ zu vermitteln.¹ Diese Beispiele werden dann mit einer Aufgabe bzw. Frage zu einem sogenannten ›Prompt‹ zusammengeführt und dem Modell zur Vorhersage eingegeben.

Abbildung 1: Das Few-Shot-Beispiel aus Brown et al. 2020 als Prompt in Vicuna-13b auf https://chat.lmsys.org

Wie bereits Brown et. al. (2020) für GPT-3 zeigten, können LLMs eine Vielzahl komplexer Aufgaben mithilfe von ICL lösen. Im Detail noch nicht geklärt sind die Gründe, warum sie das tun. Jüngere Untersuchungen lassen vermuten, dass dabei die Tatsache, dass die verwendeten Beispiele plausibel bzw. wahr für die Aufgabe sind, weniger wichtig ist, als andere Faktoren wie zum Beispiel die zugrundeliegende Verteilung der Beispiele bzw. deren Format (Min et al. 2022) oder die über die Trainingsdaten implizit vermittelten semantischen Relationen von Begriffen (Xie et al. 2021). Clavíe et. al. 2023 zeigen zum Beispiel, dass bei der binären Klassifikation der Qualifikationsvoraussetzungen für eine Stellenausschreibung große LLMs wie OpenAIs text-davinci-003-Model klassische ML-Ansätze wie SVM aber auch kleinere ›foundational models‹ wie DeBERTaV3 klar übertreffen.

Für die Digital Humanities im Allgemeinen und die Computational Literary Studies (CLS) im Besonderen ist das ICL auf den ersten Blick sehr attraktiv, da es erstens mit natürlichsprachlich verfassten Prompts arbeitet und daher weder profunde Programmier- noch Detailkenntnisse über die Modellierungspraxis von LLMs voraussetzt. Die Tatsache, dass mit natürlichsprachlich verfassten Eingaben gearbeitet wird, legt zweitens nahe, dass beim ICL – ohne größeren Operationalisierungs-Aufwand – die traditionellen Begriffsumgangs- und Definitionspraktiken der Geisteswissenschaften in das NLP bzw. die DH importiert werden können. Drittens ist das ICL nicht mit dem Zeitaufwand, den bekannterweise das (manuelle) Erstellen von Trainingsdaten mit sich bringt, verbunden.

Wir wollen im Folgenden das Potential von ICL an einem konkreten Beispiel aus den CLS überprüfen. Dabei handelt es sich um den Versuch, die Resultate der Operationalisierung und Modellierung von generischen Aussagen aus Andrew Pipers Cambridge Element Can We Be Wrong? aus dem Jahr 2020 zu reproduzieren bzw. zu übertreffen. Ziel von Pipers Operationalisierung und Modellierung ist es ›textempirisch‹ zu überprüfen, welche Rolle Generalisierungen in den Literary Studies spielen. Zur Beantwortung dieser Frage entwickelt er einen Workflow, der in groben Zügen mit jener Arbeitsablaufpraxis übereinstimmt, die wir zeitgleich im Rahmen von CRETA entwickelt haben und als ›reflektierte Textanalyse‹ bezeichnen (Reiter/Pichler 2020): Ausgehend von der besagten Frage erarbeiteten Piper und sein Team eine Operationalisierung des Konzepts von ›generalisierenden Aussagen‹ und von deren Subkonzepten, erstellten im Zuge dessen ein Annotationsschema, verbesserten dieses iterativ, um abschließend darauf unterschiedliche ML-Modelle zu trainieren (Piper 2020, 17–21). Im Rahmen des Operationalisierungsprozesses gelangten Piper und sein Team zu einer Bestimmung von generalization, die das Konzept als ein externalistisch zu validierendes linguistisches Phänomen begreift: »[G]eneralization is something that is at once linguistically legible at the statement level – it has certain criteria or qualities – and is also ambiguous. […] It depends on real-world knowledge of the generality of the terms being used with respect to some context and the definitional certainty that links subject and predicate.« (Piper 2020, 27). Der Annotations- und Modellierungsprozess gestaltete sich laut Piper wie folgt (Piper 2020, 32–34): In einem ersten Annotationslauf wurden 116 Sätze aus Artikeln, die nicht im späteren Trainingsdatensatz enthalten waren, von Piper und drei anderen Mitarbeitern des Teams annotiert und im Anschluss daran gemessen, wie Pipers Annotationen mit dem Mehrheitsvotum der anderen drei Kommentatoren übereinstimmten. Im Anschluss wurden dann von Piper an die 3500 weitere Sätze auf Basis der Annotationsrichtlinen annotiert. Diese Annotationen wurden abschließend dazu verwendet, um unterschiedliche Machine-Learning-Modelle zu trainieren. Dabei wurden die manuell noch separat annotierten Kategorien generalization und exemplification zu einer einzigen Kategorie zusammengefasst, da von letzteren bei der manuellen Annotation nur wenige Instanzen gefunden wurden. Es handelte sich also letztendlich um eine binäre Klassifikationsaufgabe. Wir fokussieren uns im Folgenden auf die Resultate dieser Modelle und vernachlässigen aus Platzgründen die ebenfalls höchst relevante Diskussion der Konsequenzen, die Piper aus der Anwendung dieser Modelle gezogen hat.

Die von Piper und seinem Team auf den annähernd ausgeglichenen Daten trainierten Modelle erzielten F1-Scores zwischen 0.591 und 0.769 sowie Accuracy-Werte zwischen 0.638 und 0.745, wobei es sich bei dem am besten performenden Modell um ein CNN mit ELMo-Embeddings handelt, bei dem der Recall die Precision deutlich übersteigt (Piper 2020, 34). Für unsere Experimente haben wir mit OpenAIs kostenpflichtigem² text-davinci-003-Model gearbeitet, das von OpenAI zum Zeitpunkt der Durchführung unsrer Experimente für diese Zwecke empfohlen wurde, und haben für dieses, nach einer kurzen Explorationsphase, 11 unterschiedliche ICL-Templates entwickelt.³ Diese umfassten sowohl sogenannte Zero-shot-prompts, d.i. die Eingabe der Aufgabenbeschreibung ohne Beispiele, als auch unterschiedliche Arten von Few-shot-prompts, also Eingaben, die Beispiele mit oder ohne weitere kontextuelle Informationen umfassen. Unsere mit diesen Templates erzielten Resultate bewegen sich im Mittelfeld der Resultate von Piper und seinem Team, mit dem höchsten F1-Score von 0.69 und einer Accuracy von ebenfalls 0.69 mit einem Template, dass vier Beispiele mit der Instruktion »Determine the class of the incoming sentence as 'generalization' or 'neutral' on the base of the following examples« verbindet.

Tabelle 1: Klassifikationsergebnisse in Piper (2020) und Experimente mit einem LLM Modell F1-Score Accuracy Piper (2020) cnn + ELMo 0.769 0.745 bilstm + ELMo 0.757 0.741 stacked bilstm + ELMo 0.750 0.729 lstm + ELMo 0.742 0.724 bert 0.736 0.703 cnn (GloVe) 0.696 0.696 stacked bilstm (GloVe) 0.665 0.669 lstm (GloVe) 0.595 0.641 bilstm (GloVe) 0.591 0.638 Diese Arbeit Eingabe des zu klassifizierenden Satzes + Aufforderung, ihn einer der beiden Kategorien zuzuordnen (zero_shot) 0.620 0.644 Wie zero_shot, aber mit dem Zusatz »think step-by-step« (zero_shot_reason) 0.621 0.644 Eingabe von vier Beispielen und ihrer Klassifikation + zu klassifizierender Satz (few_shot) 0.574 0.481 Struktur wie few_shot, aber einschließlich der Erläuterung der Aufgabe (few_shot_inst) 0.678 0.678 Struktur wie few_shot_inst, aber einschließlich der Erläuterung der Rolle des Models (few_shot_inst_role) 0.684 0.686 Struktur wie few_shot_inst_role, aber einschließlich einer Beschreibung der beiden Klassen (few_shot_inst_role_exp) 0.659 0.659 Struktur wie few_shot, aber andere Beispiele (few_shot_2) 0.649 0.596 Struktur wie few_shot_inst, aber andere Beispiele (few_shot_inst_2) 0.691 0.696 Struktur wie few_shot_inst_role, aber andere Beispiele (few_shot_inst_role_2) 0.669 0.683 Struktur wie few_shot_inst_role_exp, aber andere Beispiele (few_shot_inst_role_exp_2) 0.598 0.642
	Modell	F1-Score	Accuracy
Piper (2020)	cnn + ELMo	0.769	0.745
	bilstm + ELMo	0.757	0.741
	stacked bilstm + ELMo	0.750	0.729
	lstm + ELMo	0.742	0.724
	bert	0.736	0.703
	cnn (GloVe)	0.696	0.696
	stacked bilstm (GloVe)	0.665	0.669
	lstm (GloVe)	0.595	0.641
	bilstm (GloVe)	0.591	0.638
Diese Arbeit	Eingabe des zu klassifizierenden Satzes + Aufforderung, ihn einer der beiden Kategorien zuzuordnen (zero_shot)	0.620	0.644
	Wie zero_shot, aber mit dem Zusatz »think step-by-step« (zero_shot_reason)	0.621	0.644
	Eingabe von vier Beispielen und ihrer Klassifikation + zu klassifizierender Satz (few_shot)	0.574	0.481
	Struktur wie few_shot, aber einschließlich der Erläuterung der Aufgabe (few_shot_inst)	0.678	0.678
	Struktur wie few_shot_inst, aber einschließlich der Erläuterung der Rolle des Models (few_shot_inst_role)	0.684	0.686
	Struktur wie few_shot_inst_role, aber einschließlich einer Beschreibung der beiden Klassen (few_shot_inst_role_exp)	0.659	0.659
	Struktur wie few_shot, aber andere Beispiele (few_shot_2)	0.649	0.596
	Struktur wie few_shot_inst, aber andere Beispiele (few_shot_inst_2)	0.691	0.696
	Struktur wie few_shot_inst_role, aber andere Beispiele (few_shot_inst_role_2)	0.669	0.683
	Struktur wie few_shot_inst_role_exp, aber andere Beispiele (few_shot_inst_role_exp_2)	0.598	0.642

Das beste ICL-Verfahren erzielt somit eine um 5-7 Prozentpunkte niedrigere Performance als das beste von Piper beschriebene Modell. Im Gegensatz zu Beispielen aus anderen Feldern zeigt sich also hier keine wesentlich bessere Performance als bei der Arbeit mit kleineren ›foundational models‹ wie z.B. BERT. In diesem konkreten Fall erachten wir unter anderem folgende Möglichkeiten als plausible Ursachen dafür: Erstens ist die Explikation der Unterscheidung zwischen ›generalization‹ und ›neutral‹ im allgemeinen Sprachgebrauch nicht üblich – man spricht zwar von generalisierenden Aussagen, bezeichnet aber gemeinhin nicht sämtliche Aussagen, die nicht unter diese Klasse fallen als ›neutral‹. Pipers theoretisch durchweg gerechtfertigtes Klassifikationsschema wird somit vom Sprachgebrauch nicht gestützt.⁴ Folgt man Min et al. in ihrer – durchweg spekulativen – Hypothese, dass ICL umso besser funktioniert, je mehr es auf in den Trainingsdaten des LLMs bereits gegebene kategorische Differenzierungen aufbauen kann, könnte deren potentielles Fehlen in Letzteren die verhältnismäßig niedrigen Scores erklären. Zweitens besteht bei der Beispielauswahl durchweg noch Spielraum. Wir haben uns bei den Experimenten auf jene Beispiele konzentriert, die Piper selbst im Text seiner Monographie verwendet und die wir daher als exemplarisch erachteten. Wir haben jedoch weder auf bekannte Sampletechniken bei der Beispielauswahl zurückgegriffen noch die von Piper und seinem Team annotierten Daten im Detail auf ihre Repräsentativität manuell überprüft. Ob, und wenn ja welche, Performance-Gewinne derartig möglich sind, wäre zu klären.

Ergänzend zu diesen konkreten Fragen zur verhältnismäßig schwachen Performance von ICL in Hinblick auf Pipers Daten wollen wir auch noch auf weitere potentielle Problemfelder und offene Fragen in Hinblick auf den Einsatz von In-Context-Learning in den CLS hinweisen. Dazu zählt, erstens, die prinzipielle Gefahr, dass das ICL durch seinen Fokus auf Beispiele dazu einlädt, Begriffe undefiniert und unreflektiert zu verwenden. Wenn, wie in unserem Fall, die besten Resultate mit jenem Prompt erzielt werden, der keine Definition der verwendeten Begriffe beinhaltet, lädt dies dazu ein, auf die Bestimmung dieser Begriffe von Anfang an zu verzichten. Die problematischen Konsequenzen eines solchen Vorgehens liegen auf der Hand: Ohne die Begriffe definiert zu haben, läuft ein re-import der Resultate in den fachspezifischen Diskurs Gefahr, deren Umfang zu verunklaren, da die bloße Nennung von Beispielen unterschiedliche Interpretationen von der Extension dieser Begriffe zulassen. Eine ähnliche Gefahr besteht jedoch, zweitens, auch wenn der Begriff vor und für das ICL definiert wird, da die Mechanismen hinter selbigen noch nicht geklärt sind. Bei einem Prompt, der sich aus Definition, Instruktion und Beispiel zusammensetzt, wissen die Nutzenden nicht, welche der drei Komponenten für die Klassifikation letztendlich ausschlaggebend ist. Ob es tatsächlich die dabei verwendete Definition ist, bleibt unklar. Dies führt, drittens, zu einem weiteren prinzipiellen Problem beim Einsatz von kommerziellen LLMs, das hinlänglich bekannt ist: Kommerzielle Anbieter wie OpenAI stellen ihre Modelle nicht öffentlich zur Verfügung. Die per se bereits breit diskutierte vermeintliche Opazität von LLMs wird so noch zusätzlich verstärkt. Viertens sind LLMs wie das hier verwendete text-davinci-003-Model von OpenAI nicht deterministisch. Die Resultate sind dementsprechend nicht stabil.

In den CLS wird die Pflicht, dass man sich im Zuge des Operationalisierungs- bzw. Annotationsprozesses festlegt (welche Kategorien man wann vergibt, was diese bedeuten, wo Annotationen anfangen und aufhören, etc.) oft als Vorteil von computergestützten Verfahren gegenüber der ›traditionellen‹ Literaturwissenschaft genannt (z.B. Meister 1995), da deren Begriffe »in der Regel zu vage oder zu abstrakt [seien], als dass man sie eindeutig formalisieren könnte« (Meister 2012, 294). Die insbesondere von Harald Fricke seit mehreren Jahrzehnten propagierte Auffassung, dass literaturwissenschaftliche Begriffe ausgehend vom standardsprachlichen Gebrauch zu präzisieren seien, um durch die solcherart hergestellte Exaktheit Vagheiten und Mehrdeutigkeiten aus dem literaturwissenschaftlichen Sprachgebrauch zu tilgen (Fricke 1989), bildet zwar mittlerweile das sprachtheoretische Fundament des Reallexikons der deutschsprachigen Literaturwissenschaft, scheint aber – wie Meisters Zitat nahelegt – die Praxis im Fach immer noch nicht zu dominieren. Mit der Verwendung von LLMs entfällt auch in den CLS diese Pflicht wieder, dementsprechend ungenau und unscharf werden potentiell abermals die Begrifflichkeiten.

Für den Einsatz von ICL in den CLS bedeutet das unseres Erachtens Folgendes: Erstens sollte man, unabhängig davon auf welches Sprachmodell man bei der Textanalyse zurückgreift, die für die Analyse zentralen Begriffe definieren und – idealerweise – manuell einen Referenzdatensatz erstellen. Dies erlaubt es, auch opake Modelle auf eine Art und Weise empirisch zu verankern, die den Nachvollzug sowie die Überprüfung der Validität der Analysen erleichtert bzw. in manchen Fällen überhaupt erst ermöglicht. Zweitens sollte man, falls man sich für den Einsatz von ICL entscheidet, zuerst mit kleineren Samples arbeiten, um zu überprüfen, ob das ICL überhaupt traditionelle Verfahren übertrifft: Bei Begriffen, deren Definitionen sich vom Alltagsgebrauch unterscheiden, ist das Fine-Tuning eines pretrained Language Models (PLMs) wie BERT ggf. zielführender. Drittens sollte man die fragestellungspezifische Leistung von kommerziellen LLMs der großen Techgiganten mit derjenigen von OpenSource-Modellen vergleichen.⁵ Dies spart nicht nur Geld und Ressourcen, sondern liegt aus wissenschaftsethischen Gründen nahe, legen doch Modelle wie zurzeit zum Beispiel Stanford Alpaca⁶ oder Vicuna⁷ bei einer den kommerziellen Anbietern nahen Performance sowohl ihren Quellcode als auch Ihre Trainingsdaten offen.

Fußnoten

¹ Durch die Verwendung der Anführungszeichen wollen wir hier darauf verweisen, dass es sich bei besagtem ›Wissen‹ unseres Erachtens nicht primär um propositionales Wissen im Sinne der Erkenntnistheorie handelt und dass LLMs nicht als rationale und damit epistemisches Wissen besitzende Agenten verstanden werden, sondern dass sie Implizites Wissen – häufig in Bezug auf den habituellen Sprachgebrauch – stochastisch reproduzieren. Zur laufendenden Debatte, wie und was LLMs ›verstehen‹, und deren primär inferentielle Semantik siehe Søgaard 2022.

² Die Gesamtkosten beliefen sich auf ca. 260 US-Dollar.

³ Die Daten, das Python-Skript sowie ein jupyter notebook zur eigenen Exploration finden sich auf: https://github.com/nilsreiter/dhd2024-few-shot

⁴ So lautet das erste Exemplum eines neutralen Satzes in den annotierten Daten von Piper und seinem Team: »To this end, one of the main merits of Merleau-Ponty’s framing of cinema as art is that it is not wedded to celluloid film and the oft-discussed reality effect its highly indexical-iconic images.« Die annotierten Sätze findet man hier: https://doi.org/10.6084/m9.figshare.12669329.v1

⁵ Als Ausgangspunkt eines solchen Vergleiches bietet sich die Gegenüberstellung der Score auf dem LLM Leaderboard von HuggingFace – https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard – mit den publizierten Scores der kostenpflichtigen Modelle an. Die dort verwendeten Vergleichsmetriken sind jedoch selbst in ihrer projektspezifischen Relevanz in Hinblick auf die jeweils gegebene Fragestellung zu evaluieren.

⁶ https://crfm.stanford.edu/2023/03/13/alpaca.html

⁷ https://lmsys.org/blog/2023-03-30-vicuna/

Bibliographie

Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, u. a. 2020. „Language Models are Few-Shot Learners“. https://doi.org/10.48550/ARXIV.2005.14165 .
Clavié, Benjamin, Alexandru Ciceu, Frederick Naylor, Guillaume Soulié, und Thomas Brightwell. 2023. „Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification“. https://doi.org/10.48550/ARXIV.2303.07142 .
Dong, Qingxiu, Lei Li, Damai Dai, Ce Zheng, Zhiyong Wu, Baobao Chang, Xu Sun, Jingjing Xu, Lei Li, und Zhifang Sui. 2023. „A Survey on In-context Learning“. https://doi.org/10.48550/ARXIV.2301.00234 .
Fricke, Harald. 1989. „Einführung“. In Zur Terminologie der Literaturwissenschaft, herausgegeben von Christian Wagenknecht, 1–9. Metzler.
Meister, Jan Christoph. 1995. Consensus ex Machina? Consensus qua Machina! Literary and Linguistic Computing, 10(4):263–270.
Meister, Jan Christoph. 2012. „Computerphilologie vs. ,Digital Text Studies‘“. In Literatur und Digitalisierung, herausgegeben von Christine Grond-Rigler und Wolfgang Straub, 267–96. De Gruyter. https://doi.org/10.1515/9783110237887.267 .
Min, Sewon, Xinxi Lyu, Ari Holtzman, Mikel Artetxe, Mike Lewis, Hannaneh Hajishirzi und Luke Zettlemoyer. 2022. „What makes In-Context-Learning work?“. https://aclanthology.org/2022.emnlp-main.759.pdf
Pichler, Axel, und Nils Reiter. 2020. „Reflektierte Textanalyse“. In Reflektierte algorithmische Textanalyse, herausgegeben von Nils Reiter, Axel Pichler, und Jonas Kuhn, 43–60. De Gruyter. https://doi.org/10.1515/9783110693973-003 .
Piper, Andrew. 2020. Can We Be Wrong? The Problem of Textual Evidence in a Time of Data. 1. Aufl. Cambridge University Press. https://doi.org/10.1017/9781108922036 .
Søgaard, Anders. 2022. „Understanding Models Understanding Language“. Synthese 200 (6): 443. https://doi.org/10.1007/s11229-022-03931-4.
Wei, Jason, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, und Quoc V. Le. 2021. „Finetuned Language Models Are Zero-Shot Learners“. CoRR abs/2109.01652. https://arxiv.org/abs/2109.01652 .
Xie, Sang Michael, Aditi Raghunathan, Percy Liang, und Tengyu Ma. 2021. „An Explanation of In-context Learning as Implicit Bayesian Inference“. https://doi.org/10.48550/ARXIV.2111.02080