Modellierung von Gattungsunterschieden. Emotionen in Lyrik, Prosa und Drama
https://zenodo.org/records/10698336
Einleitung
Literaturwissenschaftliche Untersuchungen zielen häufig darauf ab, verschiedene Textgruppen (zum Beispiel Gedichte, Romane und Dramen) hinsichtlich verschiedener Texteigenschaften (zum Beispiel Themen oder Emotionen) miteinander zu vergleichen.1 Werden zu diesem Zweck Verfahren der Computational Literary Studies eingesetzt, bedeutet das oft, mit manuellen Annotationen trainierte Modelle auf verschiedene Textgruppen (Domänen) anzuwenden. In vielen Fällen stehen dabei aus Ressourcengründen nicht so viele Annotationen zur Verfügung, dass Modelle für jede Domäne auf ausschließlich domänenspezifischen Annotationen trainiert werden könnten. Stattdessen sind oft nur für eine Domäne hinreichend viele Annotationen verfügbar. Eine naheliegende Lösung besteht darin, für die weiteren, nicht umfassend annotierten Domänen dasselbe Modell wie für die ausführlich annotierte Domäne zu verwenden, oder zumindest Modelle, die maßgeblich auf Annotationen dieser Domäne basieren. Bei derartigen Prozessen kommt es bekanntermaßen zu Performanceeinbußen. Dies sollte allerdings nicht (nur) Anlass zu Enttäuschung geben, vielmehr lassen sich die zunächst suboptimal scheinenden Ergebnisse (auch) produktiv machen. Eben das zu demonstrieren, ist ein wichtiges Ziel dieses Beitrags. Vor allem soll anhand von Performanzunterschieden etwas über die Charakteristika der Domänen, und das heißt in diesem Fall: der literarischen Gattungen, ausgesagt werden.
In der Computerlinguistik (oder allgemeiner im gesamten Feld Machine Learning) wird die erläuterte Problemstellung unter dem Schlagwort Domain Adaptation intensiv beforscht (z.B. Ramponi und Plank 2020). Machine Learning-Probleme lassen sich als Versuch beschreiben, eine automatische Zuweisung von Datenpunkten x zu Labeln y zu lernen. Dabei wird unterstellt, dass alle Punkte x aus der gleichen Verteilung stammen, die zu lernende Zuweisung x→y also für jeden Datenpunkt ähnlich funktioniert. Diese Annahme ist in angewandter Forschung (darunter Computational Literary Studies) jedoch selten zu halten. Die Gründe für einen Domain Shift, also die Veränderung von x, während y stabil bleibt, können vielfältig sein (z.B. historischer Sprachwandel, Übersetzungen). Die Bereitstellung von Datensätzen, die dezidiert mehrere Domänen enthalten, ist also sowohl für Machine Learning Forschung als auch für die CLS hoch relevant.
Als Untersuchungsbeispiel dient die Gestaltung von Emotionen in deutschsprachigen Lyrik-, Prosa- und Dramentexten der zweiten Hälfte des 19. und des beginnenden 20. Jahrhunderts. In früheren Studien hat sich unsere Forschungsgruppe auf Lyrik konzentriert und für diese Gattung umfangreiche manuelle Annotationen erstellt.2 Nun sollen ergänzend Prosa- und Dramentexte einbezogen werden; in beiden Fällen liegen deutlich weniger Annotationen vor. Da wir von der Emotionsontologie unserer Lyrikannotation ausgehen, können die Daten anderer Projekte, die sich mit der Analyse von Emotionen in deutscher Literatur befassen (z. B. Haider et al. 2020, Dennerlein et al. 2022), (noch) nicht einbezogen werden. Ob es in Hinsicht auf die Emotionsgestaltung Unterschiede zwischen Prosa, Drama und Lyrik gibt, ist nicht zuletzt gattungstypologisch interessant. Im Untersuchungszeitraum war die Auffassung verbreitet, dass Subjektivität und auch Emotionalität charakteristische, gegebenenfalls sogar definitionsrelevante Merkmale der Gattung Lyrik seien (vgl. Lamping 2000: 56f.). Zwar zählt die Gestaltung textueller Emotionen nicht zu den „gattungsbildende[n] Zentralmerkmal[en]“ (Zymner 2007: 36) in der Bestimmung von Prosa, Drama und Lyrik; jedoch wurde und wird – in Verallgemeinerung des Modells ‚Erlebnislyrik‘ bzw. epochenspezifischer Lyrikvarianten – Gedichten noch immer ein höherer Anteil an Subjektivität und Emotionalität zugeschrieben, wenn heute auch nur als fakultative Eigenschaft. Wenn sich die Gattungen im Untersuchungszeitraum abweichend verhalten, könnte dies aufschlussreich für die gattungstypologische Relevanz des Merkmals ‚Emotionalität‘ sein. Insgesamt soll nun also danach gefragt werden, welche Schwierigkeiten sich dabei ergeben, auf Lyrikannotationen trainierte Modelle zur Emotionserkennung auf Prosa- und Dramentexte anzuwenden, und was sich so über etwaige Gattungsunterschiede lernen lässt.
Ressourcen
Die Studie verwendet drei Korpora: ein vergleichsweise großes Lyrikkorpus, für das umfangreiche manuelle Annotationen vorliegen, und zwei deutlich kleinere, zu Testzwecken zusammengestellte Korpora mit einerseits Prosa- und andererseits Dramentexten. Das Lyrikkorpus besteht aus Texten in Anthologien aus dem Untersuchungszeitraum, die sich auf Gedichte von Zeitgenoss:innen konzentrieren. Die Anthologien stammen aus der Zeit von 1859 bis 1919 und enthalten mehr als 6000 Gedichte, von denen 1412 (270k Token) annotiert wurden.3 Die Prosa- und Dramenkorpora bestehen aus jeweils 5 vollständig annotierten Texten aus der Zeit um 1900 (Prosakorpus: 17k Token, Dramenkorpus: 34k Token).4
Die Emotionsannotation zielt darauf ab, die im Text gestalteten Emotionen (und nicht die Emotionen der Leser:innen) zu erfassen. Genutzt wurde ein Set von 40 diskreten Emotionen, darunter zum Beispiel Liebe, Trauer, Hoffnung, Sehnsucht oder Hass. Einerseits handelt es sich um Emotionen, die in gängigen Emotionstheorien (Ekman 1992; 1999; Plutchik 1980b; 1980a; 2001) als grundlegend angesehen werden, andererseits wurden zusätzliche Emotionen, die in den Korpustexten häufig vorkommen, aufgenommen, um das Emotionsset an das historische Material anzupassen. Die Annotationseinheiten sind Wörter bzw. Wortfolgen.5 Da für viele einzelne Emotionen nur eine sehr geringe Zahl von Annotationen vorliegen, werden die Emotionen nachträglich zu sechs Gruppen zusammengefasst: Liebe, Freude, Trauer, Erregung/Überraschung, Angst und Wut. Die Gruppierung orientiert sich an der Emotionshierarchie in Shaver u. a. (1987). Die Lyrik-, Prosa- und Dramentexte wurden alle auf dieselbe Weise annotiert. Das Inter-Annotator-Agreement (Mahet 2015) für die Emotionsgruppen beträgt 0.71 γ (Lyrik), 0.61 γ (Prosa) und 0.59 γ (Drama).6 Für die Agreement-Differenzen ist möglicherweise mitverantwortlich, dass die Annotator:innen bislang deutlich weniger Prosa- und Dramen- als Lyriktexte annotiert haben und insofern mit den Gattungen unterschiedlich vertraut sind.
| Tabelle 1: Annotierte Segmente nach Gattung und Emotion. | ||||||
| Agitation | Fear | Anger | Sadness | Joy | Love | |
| Lyrik | 591 | 532 | 870 | 3955 | 4233 | 4159 |
| Drama | 134 | 178 | 161 | 238 | 148 | 144 |
| Prosa | 66 | 42 | 45 | 41 | 50 | 23 |
Klassifikation
Tabelle 2 zeigt die Qualität der Emotionsklassifikation in den drei Gattungen. Verwendet wird ein Modell, welches lediglich mit den Annotationen für Lyrik trainiert ist. Basis ist das deutsche Bert-Modell gbert-large (Chan et al. 2020). Dieses wird zusätzlich auf Lyrik angepasst7 und anschließend trainiert8 (Konle et al. 2022).
| Tabelle 2: Evaluation nach Gattung und Emotion (F1 Macro). | |||||||
| Agitation | Fear | Anger | Sadness | Joy | Love | MEAN | |
| Lyrik (CV9 ) | .62 | .79 | .71 | .74 | .73 | .77 | .73 |
| Drama | .51 | .61 | .54 | .43 | .58 | .58 | .54 |
| Prosa | .52 | .53 | .57 | .57 | .64 | .56 | .56 |
Mögliche Erklärungen für Unterschiede in der Klassifikationsperformanz
Die folgenden Abschnitte beschäftigen sich mit der Suche nach möglichen Erklärungen für die großen Qualitätsunterschiede (siehe Tab. 2). Es werden sowohl Eigenschaften des Modells als auch die Verteilung der annotierten Emotionen, die Zusammensetzung einzelner Emotionen und das zugrundeliegende Textmaterial untersucht.
Modellanalyse
Zunächst lässt sich danach fragen, wie sicher sich das Modell bei den Klassifikationen ist (Abb. 1). Blickt man auf die Vorhersage von (vorhandenen) Emotionen, ist die Sicherheit erwartungsgemäß bei Lyrik am größten, gefolgt von Prosa und danach Drama. Bei der Vorhersage ‘keine Emotion’ ist sich das Modell hingegen im Fall von Dramentexten besonders sicher (sogar noch sicherer als im Fall von Gedichten) und im Fall von Prosa besonders unsicher. Zum einen scheint die Klassifikationsperformance also mit der Sicherheit des Modells zusammenzuhängen; zum anderen weisen die Differenzen zwischen Prosa- und Dramentexten in puncto ‘Emotion’/’Keine Emotion’ auf klassifikationsrelevante Gattungsunterschiede hin.
Emotionsverteilung
Um einen Eindruck von der Emotionsverteilung innerhalb der Gattungen zu erhalten, werden jeweils 50 Segmente (Verse bzw. Sätze) zu einer Einheit zusammengefasst, die als Vektor über die Anzahl der enthaltenen Emotionen repräsentiert wird. Um diese Vektoren zu visualisieren, werden sie in den 2-dimensionalen Raum projiziert (siehe McInnes 2018). Das Resultat (Abb. 2) zeigt, dass die annotierten Gedichte stärker streuen als die annotierten Texte der übrigen Gattungen, also vielfältigere Mischungen an Emotionen enthalten. Auffällig ist zusätzlich die Häufung von Dramen und Prosa im oberen rechten Bereich der Grafik. Die Emotionsverteilung innerhalb der beiden Gattungen ähnelt sich nach diesem Befund und weicht zugleich von der Verteilung in den meisten lyrischen Texten ab.
Abbildung 3 macht deutlich, dass die Gattungen Emotionen in stark unterschiedlicher Häufigkeit gestalten. Lyrik enthält mit Abstand die meisten Emotionen, beinahe das Dreifache im Vergleich zu Dramen. Diese enthalten wiederum das Doppelte an Emotionen, gemessen an Prosa.
Abbildung 4 ermöglicht einen Einblick in die einzelnen Emotionsgruppen nach Shaver ( 1987). Während Lyrik eine deutliche Ungleichverteilung zugunsten von Trauer, Freude und Liebe zeigt, sind die Gruppen in Dramen und Prosa nahe an einer Gleichverteilung.
Zusammensetzung der Emotionsgruppen
Abbildung 5 zeigt beispielhaft für die Emotionsgruppe Erregung/Überraschung, wie sich die Gruppe je nach Gattung anteilig zusammensetzt. Es zeigen sich erhebliche Unterschiede: Während in lyrischen Texten die Kategorie ‘Emotionalität’ dominiert, die vor allem für unspezifische Emotionen eingesetzt wird (‘Er war ein grundsätzlich emotionaler Mensch’ usw.), kommt in den annotierten Dramen ‘Aufregung’ am häufigsten vor; in den annotierten Prosatexten ist wiederum die Einzelemotion ‘Spannung’, verglichen mit den anderen Gattungen, besonders verbreitet. Diese Unterschiede erzeugen ein großes Fehlerpotential, da sich mit der Zusammensetzung auch die Repräsentation der Gruppe im Modell ändert. Während in Lyrik bereits gute Ergebnisse erzielt werden können, wenn lediglich die Einzelemotion ‘Emotionalität’ erkannt wird, ist diese für Prosatexte nutzlos. Umgekehrtes gilt für Spannung.
Texteigenschaften
Nachdem die Verteilungsunterschiede in den Emotionen dargestellt sind, werden Differenzen in der sprachlichen Gestaltung der annotierten Texte untersucht.
| Tabelle 3: Emotionswörter pro Emotion. | ||
| Lyrik | Drama | Prosa |
| 0.22 | 0.27 | 0.23 |
Neben der bislang betrachteten Emotionsannotation wurde separat festgehalten, welche Wörter im Text über ihre lexikalische Bedeutung markieren, dass eine Emotion gestaltet wird, zum Beispiel Ausdrücke wie ‚Angst‘, ‚lachen‘ oder ‘jauchzen’. Eine Emotionsannotation wird meist, aber nicht immer, von der Annotation entsprechender Emotionswörter begleitet; umgekehrt kommen Emotionswörter nie ohne zugehörige Emotionsannotation vor. Tabelle 3 zeigt, wie viele Emotionswörter pro Emotionsannotation je nach Gattung vorkommen. In Dramen werden etwas mehr Emotionswörter verwendet als in Prosa und Lyrik, eine explizitere Nennung von Emotionen in Lyrik als mögliche Fehlerquelle in der anschließenden Klassifikation der anderen Gattungen kann damit ausgeschlossen werden.
Abschließend lässt sich danach fragen, wie groß der Abstand zwischen den Gattungen hinsichtlich des Textmaterials ist und ob die Unterschiede in der Klassifikationsperformance dazu ‘passen’. Abb. 6 zeigt, dass der Abstand zwischen Lyrik und Prosa am größten, der Abstand zwischen Lyrik und Drama bereits deutlich geringer und der Abstand zwischen Drama und Prosa am geringsten ausfällt. Dass Lyrik also, was das Textmaterial angeht, eher den einbezogenen Dramen- als den Prosatexten ähnelt, schlägt sich jedoch nicht unmittelbar in der Klassifikationsperformance nieder, die nämlich im Fall von Dramen nicht besser als im Fall von Prosa ist.
Diskussion
Die Studie ist von der Frage ausgegangen, wie sich etwaige Unterschiede zwischen den literarischen Großgattungen Prosa, Drama und Lyrik in puncto Emotionsgestaltung mit Fragen der Domain Adaptation verknüpfen und aus dieser Perspektive modellieren lassen. Der (zu erwartende) Befund, dass ausschließlich auf Lyrikannotationen trainierte Modelle deutlich schlechter performen, wenn sie auf Prosa- und Dramentexte angewendet werden, kann mit einer ganzen Reihe von Faktoren zusammenhängen, von denen einige näher untersucht wurden. Neben pragmatischen Gesichtspunkten, zum Beispiel den etwas niedrigeren Inter-Annotator-Agreement-Werten, scheinen vor allem Spezifika der Domänen eine Rolle zu spielen. Erhebliche Unterschiede zwischen den Gattungen zeigen sich unter anderem, wenn man die Häufigkeit und Verteilung der gestalteten Emotionen betrachtet und wenn man danach fragt, aus welchen Einzelemotionen sich die Emotionsgruppen zusammensetzen. Demgegenüber deuten weitere Ergebnisse darauf hin, dass sich manche Gattungsunterschiede nicht – oder zumindest nicht unvermittelt – wie erwartet in den Klassifikationsergebnissen niederschlagen. Zumindest hat sich gezeigt, dass Dramen sowohl relativ viele Emotionswörter enthalten als auch lyrischen Texten auf sprachlicher Ebene vergleichsweise stark ähneln und dass für sie trotzdem keine besseren Klassifikationsergebnisse erzielt wurden als für Prosa.
Die Ergebnisse deuten indizienhaft an, dass Gedichte, verglichen mit Dramen und Prosatexten, besonders häufig Emotionen gestalten. Dieser Befund passt zu den in der Einleitung erwähnten gattungstypologischen Vermutungen, wenngleich berücksichtigt werden muss, dass an dieser Stelle nur sehr wenige Prosa- und Dramentexte einbezogen werden konnten. Um noch besser abgesicherte Schlüsse über die Gattungen zu ermöglichen, werden wir weitere Texte annotieren und verschiedene Verfahren der Domain Adaptation testen, um letztlich auch für Prosa und Dramen zuverlässige Klassifikatoren trainieren zu können.
Fußnoten
Bibliographie
- Chan, Brandon; Schweter, Stefan and Möller, Timo. 2020. German’s next language model In: Proceedings of the 28th International Conference on Computational Linguistics, Barcelona, Spain (Online), pp. 6788–6796.
- Dennerlein, Katrin; Schmidt, Thomas; Wolff, Christian. 2023. Computational emotion classification for genre corpora of German tragedies and comedies from 17th to early 19th century, Digital Scholarship in the Humanities, Volume 38, Issue 4, 2023, Pages 1466–1481, https://doi.org/10.1093/llc/fqad046
- Ekman, Paul. 1992. An Argument for Basic Emotions. Cognition and Emotion, vol. 6, no. 3-4, pp. 169–200.
- Ekman, Paul. 1999. Basic Emotions. Handbook of Cognition and Emotion, edited by John Tim Dagleish and Mich J. Power. Wiley, pp. 45-60.
- Dennerlein, Katrin; Schmidt Thomas; Wolff Christian. 2023. Computational emotion classification for genre corpora of German tragedies and comedies from 17th to early 19th century, Digital Scholarship in the Humanities, Volume 38, 4, pp. 1466–1481, https://doi.org/10.1093/llc/fqad046
- Gururangan, Suchin; Marasović, Ana; Swayamdipta, Swabha; Lo, Kyle; Beltagy, Iz Downey, Doug and Smith, Noah A. 2020. Don't stop pretraining: adapt language models to domains and tasks. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.
- Haider, Thomas; Eger, Steffen; Kim, Evgeny; Klinger, Roman and Menninghaus, Winfried. 2020. PO-EMO: Conceptualization, Annotation, and Modeling of Aesthetic Emotions in German and English Poetry. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 1652–1663, Marseille, France. European Language Resources Association.
- Mathet, Yann; Widlöcher, Antoine and Métivier, Jean-Philippe. 2015. The Unified and Holistic Method Gamma (γ) for Inter-Annotator Agreement Measure and Alignment. Computational Linguistics, 41(3), pp. 437–479.
- Konle, Leonard; Kröncke, Merten; Jannidis, Fotis; Winko, Simone. 2022. Emotions and Literary Periods. DH2022. Tokyo.
- Kröncke, Merten; Jannidis, Fotis; Konle, Leonard; Winko, Simone. 2022. Annotationsrichtlinien Emotionsmarker und Emotionen, https://doi.org/10.5281/zenodo.6021152.
- Krönke, Merten; Konle, Leonard; Winko, Simone; Jannidis, Fotis. 2023. Gattungen und Emotionen in der Lyrik des Realismus und der frühen Moderne, in: DHd2023: Open Humanities Open Culture. Konferenzabstracts, Belval/Trier, 13.–17. März 2023, DOI: 10.5281/zenodo.7715402.
- Lamping, Dieter. 2000. Das lyrische Gedicht. Definitionen zu Theorie und Geschichte der Gattung. 3. Aufl. Göttingen.
- McInnes, Lelland; Healy, John; Saul, Nathaniel and Großberger, Lukas. 2018. UMAP: Uniform Manifold Approximation and Projection. The Journal of Open Source Software, 3(29).
- Plutchik, Robert. 1980a. Emotion: A Psychoevolutionary Synthesis. Harper & Row.
- Plutchik, Robert. 1980b. “A general psychoevolutionary theory of emotion.” Emotion: Theory, Research and Experience. Theories of Emotion, edited by Robert Plutchik and Henry Kellerman. Academic Press, vol. 1, pp. 3–33.
- Plutchik, Robert. 2001. “The Nature of Emotions.” American Scientist, vol. 89, no. 4, pp. 344–350.
- Ramponi, Alan and Plank, Barbara. 2020. Neural Unsupervised Domain Adaptation in NLP—A Survey. In Proceedings of the 28th International Conference on Computational Linguistics, pages 6838–6855, Barcelona, Spain (Online). International Committee on Computational Linguistics.
- Reiter, Nils; Konle, Leonard. 2022. Messverfahren zum Inter-annotator-agreement (IAA). DARIAH-DE Working Papers No. 44. Göttingen: DARIAH-DE, 2022. DOI: 10.47952/gro-publ-103.
- Winko, Simone; Konle, Leonard; Kröncke, Merten; Jannidis, Fotis. 2022a. Lyrik-Anthologien 1850-1910, https://doi.org/10.5281/zenodo.6053952.
- Winko, Simone; Konle, Leonard; Kröncke, Merten; Jannidis, Fotis. 2022b. Korpusbeschreibung der Lyrik-Anthologien 1850-1910, https://doi.org/10.5281/zenodo.6204787.
- Zymner, Rüdiger. 2007. Texttypen und Schreibweisen. In: Thomas Anz (Hg.): Handbuch Literaturwissenschaft. Bd. 1: Gegenstände und Grundbegriffe. Stuttgart, Weimar, pp. 25–80.