Bedeutung in Zeiten großer Sprachmodelle

Gengnagel, Tessa; Jannidis, Fotis; Kleymann, Rabea; Schröter, Julian; Zinsmeister, Heike
https://zenodo.org/records/10698309
Zum TEI/XML Dokument

Die Performanz künstlicher Intelligenz ist, nicht zuletzt durch die großen Sprachmodelle (LLMs) in den letzten Jahren rasant angestiegen. Das hat zu einer intensiven Diskussion um die Definition anthropologisch relevanter Konzepte geführt; so wurde etwa die Diskussion des Begriffs „Intelligenz“ zu immer genaueren Bestimmungen genötigt. Die Arbeit in den Digital Humanities (DH) ist ganz direkt von diesen Entwicklungen betroffen, weil zentrale Konzepte der Geistes- und Kulturwissenschaften an der Schnittstelle zur KI affiziert sind. So wird der Bedeutungsbegriff aktuell für die Beschreibung von intelligenten Systemen mobilisiert, der zusammen mit den Begriffen „Interpretation“ und „Verstehen“ repräsentativ für ein hermeneutisches Selbstverständnis in den DH steht (vgl. Fickers 2020). 1  Mehr noch, über den Bedeutungsbegriff wird das disziplinäre Profil der DH verhandelt: „The search for truth and meaning remains a primary goal of scholarship and research, but it is articulated within a reflexive framework of discovery“ (Smithies 2017, 161). Dabei wird die Explikation von impliziten Bedeutungen unter Berücksichtigung historischer und kultureller Kontingenzen oftmals als eine zentrale Aufgabe der DH verstanden (vgl. Berry, Fagerjord 2017). Prominent rezipiert wurde in den DH vor allem die Phrase „how do we get from numbers to meaning“ (Heuser, Le Khac 2012, 46). Liu spricht in diesem Zusammenhang vom „meaning problem“ (2013, 411) der DH. Daran schließt sich eine fortwährende Diskussion über bedeutungstragende Einheiten bei statistischen Verfahren an (vgl. Gavin 2020).

Insbesondere die Entwicklung großer Sprachmodelle hat zuletzt eine Auseinandersetzung mit menschlicher und maschineller Sinnbildung provoziert (Kirschenbaum 2023), weswegen wir uns auf sprachliche Bedeutung, also die Bedeutung von Worten, Sätzen und Texten, konzentrieren werden. 2  Ziel unseres Panels ist es, danach zu fragen, wie Philosophie, Linguistik und andere Wissenschaften die Repräsentation, Konstitution und Konstruktion von Wort-, Satz- und Textbedeutung beschreiben. Durch Theorieimpulse wollen wir den DH eine angereicherte Beschreibungssprache zur Verfügung stellen, die es erlaubt, Differenzen zwischen den Bedeutungsprozeduren von Maschinen und Menschen genauer zu erfassen und somit auch zu bestimmen, wo scheinbar gleiche oder ähnliche Phänomene doch so unterschiedlich sind, dass die Applikation der KI fraglich und problematisch ist. Dazu ist es notwendig, die genauen technischen Grundlagen und das in den Operationen der Sprachmodelle vorliegende Wissen über Bedeutung auszuführen. Nicht zuletzt soll rekonstruiert werden, welche Formen der Bedeutungsanalyse und welche Prozeduren des Bedeutungsretrievals in Arbeiten aus dem Feld der Digital Humanities durchgeführt werden. 3 

Das Panel wird daher vier Perspektiven zusammenführen:

  • 1. Sprachmodelle und Bedeutung: Funktionsweisen (Jannidis). Eine genauere Rekonstruktion der Bedeutungskonstitution in großen Sprachmodellen (z.B. BERT, GPT, LaMDA, OCRA etc.) soll der Frage nachgehen, welche Aspekte von Bedeutung hierbei präsent sind. Eine Antwort können insbesondere die Forschungen zu den Fehlleistungen der Modelle und etwa zu Fragen der Abstraktionsfähigkeit bieten. Einen guten Überblick über diese Diskussion geben Chang & Bergen 2023: Viele der Fehler sind auf Über- oder Untergeneralisierung textlicher Eigenschaften zurückzuführen. Sie erklären z.B. warum LLMs stärker auf sequentiellen Input als auf logisches und numerisches Kalkül reagieren. Erzeugen die LLMs also Bedeutung nur als situative Reaktion auf Input auf der Wort- und Satzebene? Oder ist die fehlerhafte Generalisierung der Trainingsdaten, also die “Lernerfahrung” des LLMs Indikator dafür, das “Bedeutung” hier als Kontextualisierung von Wörtern und Sätzen in Texten und zwischen Texten verstanden werden sollte? Neben solchen Analysen aus einer “Verhaltensforschung” der LLMs lassen mathematische Analysen der Modelle die “Bedeutung” in individuellen Knoten im neuronalen Netz, der Wahl der Parameter oder der Gestaltung des Attention heads suchen. Liegt die Bedeutungskonstitution der LLMs also eher in einer - vielleicht noch unverstandenen - Mathematik der Prozeduren, in denen Wörter, Sätze und Texte aufeinander bezogen werden? Nicht zuletzt prüfen die Evaluationsinstrumente der Computerlinguistik und Informatik immer detaillierte Aspekte der semantische Verarbeitungsleistung von großen Sprachmodellen ab (z.B. Chang et al. 2023), wodurch ein informatives Beschreibungsinventar von Bedeutung entsteht.

  • 2. Bedeutung und Sprache: Sprachphilosophie(Schröter). Die Frage, ob und in welchem Sinn von LLM generierte Texte Bedeutung haben, wurde jüngst in einem speziellen Forum des Critical Inquiry (CI) mit dem Titel »Again Theory: A Forum on Language, Meaning, and Intent in the Time of Stochastic Parrots« (Kirschenbaum 2023) als die zentrale literaturtheoretische Problemlage identifiziert, und zwar als ein Problem des Verhältnisses von Intention und Bedeutung. Im Zuge dieser Diskussion haben sich drei Positionen herauskristallisiert: (a) die intentionalistische Position, wonach Bedeutung in einer Sprecher:innenabsicht gegründet sein müsste, so dass KI-generierte Texte keine Bedeutung haben könnten (Bender et al. 2021, Knapp/Michaels und Siraganian in Kirschenbaum 2023), (b) die Position, dass die Sprachmodelle anti-intentionalistische und poststrukturalistische Sprachtheorien bestätigen (Underwood in Kirschenbaum 2023), und (c) die Position, dass man es mit interpretationsbedüftigen Texten zu tun habe und deshalb von Schattierungen der Bedeutung zu sprechen sei (Bajohr in Kirschenbaum 2023). Ziel der hier vorgestellten Perspektive ist es, diese Diskussion auf den aktuellen Reflexionsstand zum Intentionalismus zu heben, um dann exemplarisch einzelne der im Licht der jüngsten technologischen Entwicklungen interessant gewordenen Probleme der Bedeutungskonstitution zu diskutieren. Dazu gehört die Unterscheidung zwischen Bedeutungszuschreibung im Kontext simulierter Kommunikationssituationen (wie etwa bei ChatGPT) mit einem Anschluss an Modellierungen kommunikativer Intentionen (Jannidis 2007) und Bedeutungszuschreibungen in Kontexten KI-generierter Spracherzeugung, die Kommunikationssimulationen überspringen oder ausblenden – wie etwa Bajohrs literarisches KI-Experiment »Die Zukunft der Gegenwart« (Bajohr 2023).

  • 3. Bedeutung und Wissen: Modellierung (Gengnagel). Wie kann Bedeutung ohne ein ‘Wissen um etwas’ gegeben sein? Für die DH relevant erscheint nicht zuletzt das Verhältnis von dem Sinngehalt einer Aussage und deren Weltbezug. In Hinblick auf LLMs ist dieses Problem, reduziert auf Faktizität, vielfach als Hallucination-Phänomens besprochen worden (Maynez et al. 2020, Lin et al. 2022, OpenAI 2023). Abhilfe sollen “society of minds” Multiagent-Ansätze (Du et al. 2023) oder auch das Training auf strukturierten Triplen aus Knowledge Graphen wie Wikidata schaffen (Moiseev et al. 2022). Im Rahmen von DH-Modelltheorien drückt sich der Grundkonflikt in der Frage der Abbildbarkeit aus: McCartys Aussage einer “fundamental dependence of any computing system on an explicit, delimited conception of the world or ‘model’ of it” (McCarty 2005, S. 21) auf der einen und N. Katherine Hayles’ Feststellung, “[that] there are large gaps in the knowledge LLMs display, for they have no models of the world, only of language” (Hayles 2023, Kommentar) auf der anderen Seite. Gerade in den DH als Teil der Geisteswissenschaften, die auf ein Verständnis ganzheitlicher Deutungen (d.h. der Kontextualisierung und des Abgleichs) zielen, gilt es daher, einen möglichen Unterschied zwischen maschineller und menschlicher Sinnbildung unter Berücksichtigung eines vorhandenen Weltbezugs zu diskutieren.

  • 4. Bedeutung und Interpretation: Textrepräsentationen (Kleymann) . Interpretation kann als ein Verfahren der Bedeutungszuschreibung verstanden werden (vgl. Lenk 2011; Jacke 2023). In einem iterativen und regelgeleiteten Prozess werden unter anderem Kontexte mit textuellen Entitäten verknüpft. In den Computational Literary Studies werden für solche Bedeutungszuschreibungen auch statistische und datenbasierte Ansätze eingesetzt. Aktuell lässt sich jedoch beobachten, wie der Wandel der Sprachmodelle von Bag-of-words-Repräsentationen und probabilistischen N-Grammen zu vektorbasierten Embedding-Repräsentationen scheinbar die Grenzen zwischen maschinellen und menschlichen Bedeutungszuschreibungen verschiebt (vgl. Biemann et al. 2022, 212). Während bspw. N-Gramme nur relativ lokale Abhängigkeiten modellieren, erfassen Embeddings deutlich größere Kontexte und können kohärente Texte generieren, indem sie die distributionelle Ähnlichkeit von Wörtern berechnen (vgl. Harris 1954). Bender et al. (2021, 615) betonen, dass Embeddings jedoch keinen Zugang zu Bedeutung haben. Dennoch werden solche Embeddings nicht nur für Verfahren der Bedeutungszuschreibung oder -explikation eingesetzt, wie z. B. für Zusammenfassungen, Vergleiche, Ermittlungen von Ähnlichkeit usw. Vielmehr imitieren auch KI-Chatbots dialogische Verstehensprozesse. Wie können wir als Forschende und Lehrende in den DH mit diesen Textrepräsentationen umgehen? Inwiefern stellen Embeddings geisteswissenschaftliche Bedeutungsverfahren auf die Probe?

  • 5. Bedeutung und mentales Lexikon: Linguistik (Zinsmeister). Lappin (2023) argumentiert gegen Bender et al. (2021), dass LLMs nicht nur "stochastische Papageien" sind, die auf konkrete Prompts flüssig klingende Antworten aus gelernten Trainingsdaten synthetisieren. Probing-Experimente zeigen, dass LLMs in der Lage sind, komplexe semantische Zusammenhänge in Daten zu erkennen und Schlussfolgerungen zu ziehen, die z.B. auf hierarchischen Ober- und Unterbegriffen oder kausalen Zusammenhängen basieren. Eine interessante Frage ist dabei, inwieweit die Bedeutungsrepräsentation von LLMs als Modell für das menschliche, mentale Lexikon dienen kann bzw. umgekehrt, inwieweit Beschreibungskonzepte aus dem mentalen Lexikon auch im Kontext von LLMs Anwendung finden. Herausfordernd für eine solche Übertragung ist, dass es deutliche Unterschiede zwischen dem menschlichen Spracherwerb und dem Training von LLMs gibt, da LLMs z.B. wesentlich mehr Trainingsdaten benötigen als Kinder und der Lernprozess nicht interaktiv ist (außer ggf. dem nachgelagerten Schritt des sog. Reinforcement Learning), vgl. Lappin (2023), Abschnitt 3.1. Ein weiterer Aspekt ist die Tokenisierung, d.h. die sprachliche Segmentierung in Einheiten, für die eine Bedeutungsrepräsentation aufgebaut wird. Die derzeit leistungsfähigsten LLMs lernen Bedeutung nicht auf der Basis von Wörtern oder linguistisch motivierten Morphemen, sondern auf der Basis von häufigen Zeichenketten, die von beliebigen Teilwörtern bis zu Mehrwortfolgen reichen (sog. Byte-Pair-Encoding, Sennrich et al. 2015). Eine interessante Forschungsperspektive bietet hier das Probing auf der Grundlage konstruktionslinguistischer Form-Bedeutungs-Paare (vgl. Weissweiler et al. 2023).

  • Methodik und Ablauf des Panels

    Nach einer gemeinsamen einführenden Einleitung werden alle Panelist:innen ihre oben skizzierten Perspektiven in 5–7-minütigen Statements erläutern. Auf diese Impulse wird eine 10-minütige Phase folgen, in der die Panelist:innen auf die Statements der anderen Diskussionsteilnehmer:innen reagieren können. Anschließend wird die Diskussion für das Publikum geöffnet, um eine engagierte Debatte zu ermöglichen. Je nach Publikumspartizipation soll so außerdem der Raum geschaffen werden, weitere relevante Aspekte einzubringen, so etwa aus dem Bereich der Leseforschung und Kognitionspsychologie.

    Schlussbemerkung

    Das Panel verspricht nicht nur menschliche und maschinelle Bedeutungsverfahren in den DH zu explorieren, sondern stellt auch einen ersten Versuch dar, ein geisteswissenschaftliches Vokabular für die Beschreibung und Evaluierung von intelligenten Systemen zu entwickeln. Insbesondere die Konjunktur des Bedeutungsbegriffes in den Datenwissenschaften (vgl. Donoho 2017, 746) macht eine systematische Auseinandersetzung mit der geisteswissenschaftlichen Begriffstradition erforderlich, um die Rolle der Geisteswissenschaften zukünftig zu vermessen. Vor dem Hintergrund der projektbasierten Arbeit in den DH stellt sich außerdem die Frage, wie sich diese in ihren Aufgaben und Zielen durch die Fortschritte in der generativen KI sowohl unmittelbar als auch langfristig verändern wird. Hierzu wird das Panel unter Einbeziehung des Konferenzthemas “Quo vadis?” wichtige Impulse in einer Zeit des Umbruchs liefern.


    Fußnoten

    1 Der Bedeutungsbegriff hat schon sehr breite Diskussionen angeregt, wie sie z.B. den beiden Workshops des Santa Fe Institutes zur künstlichen Intelligenz und der „Barrier of Meaning“, 2018 und 2023 dokumentiert sind. Vgl. auch Mitchell 2018,2019. https://www.santafe.edu/news-center/news/workshop-asks-will-ai-ever-crash-barrier-meaning und https://santafe.edu/events/ai-and-barrier-meaning-2.
    2 Allgemein gilt für jede Disziplin in den Geisteswissenschaften, dass sie sich mit „Bedeutung“auseinandersetzt, wie Erwin Panofsky es beispielsweise grundlegend in der Kunstgeschichte getan hat (Panofsky 1955). Jüngste Entwicklungen in der Digital Art History werden u.a. in Hinblick auf eine “meaning trap“thematisiert (vgl. Offert 2023).
    3 Wir danken Georg Vogeler, der wesentliche Beiträge zum Zustandekommen des Panels geleistet hat.

    Bibliographie

    • Bajohr, Hannes. 2023. „Die Zukunft der Gegenwart“. In metamorphosen, herausgegeben von Michael Watzka und Moritz Müller-Schwefe, 31:8–15. Berlin: Verbrecher-Verlag.
    • Bender, Emily M., Timnit Gebru, Angelina McMillan-Major und Shmargaret Shmitchell. 2021. „On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?“. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–23. FAccT ’21. New York, NY, USA: Association for Computing Machinery. .
    • Bergen, Benjamin. 2019. „Chapter 1: Embodiment“. In Cognitive Linguistics - Foundations of Language, herausgegeben von Ewa Dąbrowska und Dagmar Divjak, 11–35. Berlin, Boston: De Gruyter Mouton. .
    • Berry, David M., und Anders Fagerjord. 2017. Digital Humanities: Knowledge and Critique in a Digital Age. Oxford: Polity Press. .
    • Biemann, Chris, Gerhard Heyer, und Uwe Quasthoff. 2022. Wissensrohstoff Text: eine Einführung in das Text Mining. 2., Wesentlich überarbeitete Auflage. Lehrbuch. Wiesbaden [Heidelberg]: Springer Vieweg. .
    • Chang, Tyler A., und Benjamin K. Bergen. 2023. „Language Model Behavior: A Comprehensive Survey“. arXiv. .
    • Chang, Yupeng, Xu Wang, Jindong Wang, Yuan Wu, Kaijie Zhu, Hao Chen, Linyi Yang, u. a. 2023. „A Survey on Evaluation of Large Language Models“.
    • Donoho, David. 2017. „50 Years of Data Science“. Journal of Computational and Graphical Statistics 26 (4): 745–66. .
    • Du, Yilun, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, und Igor Mordatch. 2023. „Improving Factuality and Reasoning in Language Models through Multiagent Debate“.
    • Fickers, Andreas. 2020. „Update für die Hermeneutik. Geschichtswissenschaft auf dem Weg zur digitalen Forensik?“ Zeithistorische Forschungen – Studies in Contemporary History 17 (1): 157–68. .
    • Gavin, Michael. 2020. „Is there a text in my data? (Part 1): on counting words“. Journal of Cultural Analytics. .
    • Goldstein, Ariel, Zaid Zada, Eliav Buchnik, Mariano Schain, Amy Price, Bobbi Aubrey, Samuel A. Nastase, u. a. 2022. „Shared Computational Principles for Language Processing in Humans and Deep Language Models“. Nature Neuroscience 25 (3): 369–80. .
    • Harris, Zellig S. 1954. „Distributional Structure“. WORD 10 (2–3): 146–62. .
    • Hayles, N. Katherine. 2023. „Afterword: Learning to Read AI Texts“. Critical Inquiry Again Theory: A Forum on Language, Meaning, and Intent in the Time of Stochastic Parrots. .
    • Heuser, Ryan, und Long Le-Khac. 2012. „A Quantitative Literary History of 2,958 Nineteenth-Century British Novels: The Semantic Cohort Method“. Stanford Literary Lab, Pamphlet, , Nr. 4. .
    • Jacke, Janina. 2023. „Interpretation“. Working Paper 2 der Zeitschrift für digitale Geisteswissenschaften. .
    • Jannidis, Fotis. 2007. „Zur kommunikativen Intention“. In Im Rücken der Kulturen, herausgegeben von Karl Eibl, 185–204. Poetogenesis. Paderborn: Mentis.
    • Kirschenbaum, Matthew. 2023. „Again Theory: A Forum on Language, Meaning, and Intent in the Time of Stochastic Parrots“. Critical Inquiry. In the Moment. .
    • Lappin, Shalom. 2023. "Assessing the Strengths and Weaknesses of Large Language Models". Journal of Logic, Language and Information. (doi:10.1007/s10849-023-09409-x)
    • Lenk, Hans. 2011. „Deutung (Interpretation)“. In Neues Handbuch philosophischer Grundbegriffe, herausgegeben von Petra Kolmer und Armin G. Wildfeuer, 3:509–21. Freiburg im Breisgau: Karl Alber.
    • Lin, Stephanie, Jacob Hilton, und Owain Evans. 2022. „TruthfulQA: Measuring How Models Mimic Human Falsehoods“. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 3214–52. Dublin, Ireland: Association for Computational Linguistics. .
    • Liu, Alan. 2013. „The Meaning of the Digital Humanities“. PMLA 128 (2): 409–23. .
    • Maynez, Joshua, Shashi Narayan, Bernd Bohnet, und Ryan McDonald. 2020. „On Faithfulness and Factuality in Abstractive Summarization“. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 1906–19. Online: Association for Computational Linguistics. .
    • McCarty, Willard. 2005. Humanities Computing. Basingstoke: Palgrave Macmillan. .
    • Mitchell, Melanie. 2018. „Opinion \textbar Artificial Intelligence Hits the Barrier of Meaning“. The New York Times, November. .
    • ———. 2019. „Artificial Intelligence Hits the Barrier of Meaning“. Information 10 (2): 51. .
    • ———. 2020. „On Crashing the Barrier of Meaning in Artificial Intelligence“. AI Magazine 41 (2): 86–92. .
    • Moiseev, Fedor, Zhe Dong, Enrique Alfonseca, und Martin Jaggi. 2022. „SKILL: Structured Knowledge Infusion for Large Language Models“. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1581–88. Seattle, United States: Association for Computational Linguistics. .
    • Offert, Fabian. 2023. „The Meaning Trap“. In ChatGPT Und Andere»Quatschmaschinen«- Gespräche Mit Künstlicher Intelligenz, herausgegeben von Anna Tuschling, Andreas Sudmann, und Bernhard J. Dotzler. Bielefeld: transcript Verlag.
    • OpenAI. 2023. „GPT-4 Technical Report“.
    • Panofsky, Erwin. 1955. Meaning in the Visual Arts: Papers in and on Art History. Anchor Books. Garden City, N.Y.: Doubleday.
    • Rahimi, Sadeq. 2019. „Extended Mind, Embedded AI, and “the Barrier of Meaning”“. In IAW 2019 Interpretable AI for Well-Being: Understanding Cognitive Bias and Social Embeddedness. CEUR Workshop Proceedings 2448. .
    • Rota, Gian-Carlo. 1985. „The Barrier of Meaning“. Letters in Mathematical Physics 10 (2): 97–99. .
    • Sennrich, Rico, Barry Haddow, und Alexandra Birch. 2016. "Neural Machine Translation of Rare Words with Subword Units". In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), herausgegeben von Katrin Erk und Noah A. Smith, 1715–1725. Berlin, Germany: Association for Computational Linguistics. (doi:10.18653/v1/P16-1162)
    • Smithies, James. 2017. The Digital Humanities and the Digital Modern. London: Palgrave Macmillan UK. .
    • Trott, Sean, Cameron Jones, Tyler Chang, James Michaelov, und Benjamin Bergen. 2023. „Do Large Language Models Know What Humans Know?“ Cognitive Science 47 (7): e13309. .
    • Weber, Arne M. 2017. „Klassische Kognitionswissenschaft“. In Die körperliche Konstitution von Kognition, herausgegeben von Arne M. Weber, 17–55. Wiesbaden: Springer Fachmedien. .
    • Weissweiler, Leonie, Taiqi He, Naoki Otani, David R. Mortensen, Lori Levin, und Hinrich Schütze. 2023. "Construction grammar provides unique insight into Neural Language Models". In Proceedings of the First International Workshop on Construction Grammars and NLP (CxGs+NLP, GURT/SyntaxFest 2023), herausgegeben von Claire Bonial und Harish Tayyar Madabushi, 85–95. Washington, D.C.: Association for Computational Linguistics. (https://aclanthology.org/2023.cxgsnlp-1.10)
    • Xu, Qihui, Yingying Peng, Minghua Wu, Feng Xiao, Martin Chodorow, und Ping Li. 2023. „Does Conceptual Representation Require Embodiment? Insights From Large Language Models“.