Phylogenetische Überlieferungsanalyse mit Feature-Matrizen zur Bild- bzw. Diagrammbeschreibung. Ein Versuch an den Handschriften des ‘Compendium Historiae’ (12. Jh.ff)

Cugliana, Elisa; Mertgens, Andreas; Sahle, Patrick; Ioannu, Johannes; Rouxel, Lennart; Goerss, Eleanor
https://zenodo.org/records/14943154
Zum TEI/XML Dokument

Peter von Poitiers Werk “Compendium Historiae in Genelaogia Christi” (chigc), entstanden am Ende des 12. Jahrhunderts in Paris, bietet einen synoptischen Blick auf die genealogischen Verhältnisse der Ahnen Jesu, beginnend mit Adam und Eva, unter Einbezug weiterer Personengruppen, mit kleineren Texten und einigen erklärenden Diagrammen.

Placeholder
Abb. 1: Beispiel für eine “typische” chigc-Handschrift (hier: eine Rolle), Cambridge, Harvard University, Houghton Library, Ms. Typ 216, Nordfrankreich, 1. Hälfte 13. Jh, mit genealogischem Graph, Textabschnitten und “Stämme”-Diagramm. https://nrs.lib.harvard.edu/urn-3:fhcl.hough:2655226

Im Forschungsprojekt “Geschichte als visuelles Konzept” erforschen Spezialist:innen aus verschiedenen Disziplinen das Werk und bereiten die erste Edition vor. Dabei stehen die PIs aus Tübingen (Andrea Worm) für die Kunstgeschichte, aus Graz (Roman Bleier) für die Digital Humanities, aus Wuppertal (Patrick Sahle) für die Editionswissenschaft, aus Venedig (Franz Fischer) für die mittellateinische Philologie und aus London (Laura Cleaver) für die Kodikologie. Für die Überlieferung des Werkes sind inzwischen über 300 Handschriften erfasst worden, die nur einen Bruchteil der tatsächlich produzierten Texte darstellen. Als “Gebrauchstext” zum besseren Verständnis biblischer Geschichten z.B. in einem Unterrichtskontext, aber auch in der Form aufwändiger repräsentativer Schmuck-Rollen, sind die Handschriften über mehrere Jahrhunderte hinweg immer wieder kopiert und an die jeweilige Gebrauchssituation angepasst worden.

Für das Werk und seine Exemplare steht im Projekt weniger die Suche nach einem “Urtext” im Mittelpunkt. Vielmehr sollen zunächst Versionen unterschieden und Handschriftengruppen identifiziert werden, die besonders ähnliche Fassungen haben. Vor dem idealen Ziel eines endgültigen Stemmas, das durch die reine Zahl der erhaltenen Handschriften, die noch größere Zahl der verlorenen Exemplare und die mögliche Kontamination in den Abschreibeprozessen, in weite Ferne rückt, steht der Versuch der Clusterbildung mittels verschiedener Verfahren. Die Suche nach Clustern in der Überlieferungsgeschichte soll dabei auch die Entwicklung und Rezeption des Werkes in der Zeit aufklären.1  Hier kommen für die interdisziplinäre Betrachtung des Gegenstands Methodenfragen ins Spiel, die zwischen klassischen Geisteswissenschaften und den DH als Datenwissenschaft nach neuen innovativen Ansätzen suchen. Traditionellerweise würde man sich stemmatologischen Fragen mit den Mitteln der editorischen Textkritik nähern und über Textveränderungen und “Fehler” Zusammenhänge aufdecken. Dieser Ansatz allein kann aber nicht vollends überzeugen, weil “der Text” nur eine untergeordnete Rolle im Werk spielt. Betrachtet werden deshalb, neben den kodikologischen Parametern (Lokalisierung, Datierung) auch die Makro-Struktur der (fehlenden oder vorhandenen) Teil-Elemente, die Grund-Struktur der Darstellung (der genealogische Graph), ikonographische Merkmale auf einer allgemeinen oder Detail-Ebene sowie die einzelnen Diagramme. Der generelle Methodenmix verbindet zunächst manuelle Sondierungen mit einer Reihe von algorithmischen Untersuchungen.

Bei letzteren liegt der Fokus aktuell auf phylogenetischen Verfahren, die schon seit einigen Jahrzehnten im Bereich der Stemmatologie für Handschriftenüberlieferungen eingesetzt werden (Roelli 2020). Über unsere laufenden Versuche zu phylogenetischen Untersuchungen, die entweder auf Kollationen laufender Texte oder auf Merkmalsmatrizen von Textunterschieden basieren, wird an anderer Stelle zu berichten sein. Hier soll ein Experiment vorgestellt werden, bei dem ein einzelnes Diagramm mit den Mitteln einer “Feature-Matrix” beschrieben und seine Varianz dann mit phylogenetischen Algorithmen untersucht wird. Diagramme als Objekte mit bestimmbaren Eigenschaften zu verstehen, die anhand einer Merkmals-Matrix beschrieben werden können, folgt dem Modell von Howe und Windram (2011), die den Erfolg der Anwendung von phylogenetischen Methoden für die Untersuchung der Genese von Objekten des kulturellen Erbes nachweisen konnten. Es besteht die Hoffnung, damit der Spezifik des Werkes in seiner Multimodalität eher gerecht zu werden und die verschiedenen Fachperspektiven (Kodikologie, Kunstgeschichte, Editorik) methodisch integrieren zu können. Insbesondere erfüllt der phylogenetische Ansatz auch das Programm einer “Datafizierung” der geisteswissenschaftlichen Forschung mit einer Reduktion der analogen Komplexität durch die Einführung multipler diskreter Einheiten, die die Basis des Vergleichs konstituieren und die “Konstruiertheit des Wissens” explizit machen.

Bei unserem Testfall handelt es sich um das sogenannte “Stämme-Diagramm”, das Berichte aus der Bibel, Numeri 2:1–34; 3:17–38 und anderen Texten veranschaulichen soll. Sein Gegenstand ist die Anordnung der Zelte der zwölf Stämme Israels um die Stiftshütte (Tabernakel) mit der Bundeslade während ihrer Wanderung durch die Wüste. Direkt um den Tabernakel herum findet man die vier levitischen Stämme (Moses und Aaron im Osten, die Caatiter im Süden, die Gersoniter im Westen und die Merariter im Norden). Zahlen bei diesen inneren Medaillons weisen darauf hin, wie viele Städte die levitischen Stämme von den 12 Stämmen erhielten. Die verbindenden Linien zeigen, von welchen Stämmen der jeweilige levitische Stamm seinen Anteil bekam (siehe Worm 2020).

Placeholder
Abb. 2: Vier Beispiele. Von oben links im Uhrzeigersinn die Handschriften K (Diagramm-Typ A), L6 (Typ E), Aa (Typ C) und Lz1 (Typ D).

Um Diagramme systematisch untersuchen zu können, müssen ihre Merkmale identifiziert werden. Eine Frage, die sich schon beim Versuch, sie - z.B. in einer Edition - zu repräsentieren, gestellt hatte (Sutor 2024). Diese Vorüberlegungen können nun wieder aufgegriffen werden: Was sind essentielle, was arbiträre Eigenschaften? Welche Merkmale sind konstitutiv für Variantengruppen? Wo wird ein Schreiber einer Vorlage gefolgt sein, wo bestanden Freiheiten zur Änderung? Welche Ebenen der Beschreibung, welche Perspektiven kann man unterscheiden?

Placeholder
Abb. 3: Typ A des Stämmediagramms, idealisiert. (Abstrahierende) Repräsentation ist eine Form der Merkmalsextraktion.

Wenn man diese Beobachtungen zur Grundlage algorithmischer Auswertungen machen will, kann man die Codierung von Merkmalen auf Antworten zu Ja-Nein-Fragen reduzieren (z.B. “Hat der Knoten der civitates gersonite vier Verbindungen?”). Die Summe der Merkmale ergibt dann rein binäre Code-Sequenzen, die leicht mit den Verfahren der Phylogenetik verarbeitet werden können. Dabei muss klar sein, dass diese Feature-Matrizen sich epistemologisch stark von denen der Biologie unterscheiden (Mishler 2005): während bei uns die “termina” (das sind die Spezies der Biologie und die überlieferten Exemplare der Handschriften) unstrittig sind, sind die Merkmale (die “characters” der Code-Sequenz der Biologie) bei Kulturobjekten in höchstem Maße willkürlich ausgewählt und sogar konstruiert. Hier ist es wichtig, das grundlegende Vorgehen zu verstehen: die Modellierung der Merkmalsbeschreibung ist Teil eines Wechselspiels mit seinen Ergebnissen, die mit kodikologischen, historischen oder kunsthistorischen Betrachtungen abgeglichen werden, die das Stämmediagramm nicht nur nach rein formalen Merkmalen, sondern unter starker Berücksichtigung von Kontextwissen einordnen. Diese Betrachtungen werden von den kunsthistorischen und philologischen Teams des Projektes parallel formuliert und werden Teil der Projektpublikation sein. Führt die Feature-Matrix zu großen Widersprüchen gegenüber anderen Befunden, muss die Aussagekraft der Merkmale nochmals überprüft werden. Führt sie zur Zusammenlegung ansonsten deutlich unterschiedlicher Handschriften, müssen die Merkmale eventuell differenzierter beschrieben werden. Schon die Auswahl an Merkmalen stellt einen wichtigen Beitrag zu der phylogenetischen Forschung dar: Während die Konzepte von “Leitfehlern”, “monogenetischen” vs. “polygenetischen” Varianten relativ etabliert sind, ist es bei der Beschreibung von strukturellen und visuellen Aspekten (wie bei Diagrammen oder Illustrationen) noch nicht klar, was genau eine genealogische Entwicklung signalisiert und als Leitvarianten zu betrachten ist und welche Erscheinungen hingegen das Ergebnis von Polygenese sein könnten. Das schon erwähnte Wechselspiel zwischen Definition von Merkmalen und Ergebnissen ist also ein notwendiger Schritt im Erschließungsprozess. Angesichts des Mangels an Literatur zu stemmatologischen bzw. phylogenetischen Arbeiten in der Analyse der Genese visueller Aspekte in vormodernen Texten, ist unser Ansatz vor allem explorativ. Das phylogenetische Verfahren ist ein quantitativer Ansatz. Zu beobachten ist, dass auch in der bioinformatischen Praxis der Prozess der Auswahl und Gewichtung von Merkmalen für die Identifizierung von Clustern von wesentlicher Bedeutung ist (vgl. De Maio et al. 2021).

Für das Stämme-Diagramm arbeiten wir zunächst mit Merkmalsgruppen wie der Grundform, ggf. einem äußeren Rahmen, zusätzlichen Außenelementen, der Rotation und einigen Aspekten der Verbindungen zwischen den Städte-Medaillons und den Stämmen. Hieraus ergeben sich (in unserer aktuellen zweiten Iteration des Experiments) 24 Merkmale, die in späteren Überarbeitungen noch weiter differenziert werden können. Diese Merkmale bilden die Spalten einer Verzeichnungstabelle mit aktuell 148 Handschriften, die das Diagramm enthalten und von denen uns Bilder vorliegen. Jedes Merkmal wird entweder als “abwesend” (0) oder “anwesend” (1) codiert. Von den grundsätzlichen Möglichkeiten, auch “not applicable” (“-”) oder “unklar” (“?”) zu codieren, machen wir einstweilen keinen Gebrauch, da aus den ersten Versuchen deutlich geworden ist, dass eine zweiwertige Codierung für den vorliegenden Fall ausreichend ist3 . Die so entstehende binäre Matrix wird in eine Nexus-Datei transformiert – ein von den meisten phylogenetischen Software-Anwendungen unterstütztes Format (Mertgens et al. 2024). Diese Programme nutzen wiederum verschiedene Algorithmen, um die Strukturen in den Daten zu berechnen. Zu den weiter verbreiteten Verfahren gehören dabei neighbor-joining, maximum likelihood oder Bayesian inference (vgl. Roelli et al. 2015). Wir benutzen nach Tests mit PAUP* (Swofford 2003), aktuell vor allem Splitstree (Huson und Bryant 2006), u.a. mit der cluster-Methode “UPGMA” (Abb. 4) und mit dem neighbor-joining Algorithmus (Abb. 5), um erste Visualisierungen zu erzeugen.4  Auch wegen der heuristischen Natur von phylogenetischen Analysen ist die Nutzung mehrerer Methoden von wesentlicher Bedeutung, um dieselben Daten aus multiplen Perspektiven zu betrachten und mögliche Biases zu beiseitigen. Verschiedene Outputs können auf unterschiedliche Aspekte hinweisen und Kongruenzen in den Gruppierungen deuten auf eine höhere Zuverlässigkeit der Ergebnisse.

Neben der Auswahl und Differenzierung der zu beobachtenden Phänomene erfolgt die weitere Feinjustierung der Daten durch eine Gewichtung der Merkmale. Dazu werden wichtige Spalten vervielfacht. Aus den 24 Merkmalen entstehen so Code-Sequenzen mit 67 Stellen.

Placeholder
Abb. 4: Phylogramm (splitstree, UPGMA bootstrap tree splits)

Placeholder
Abb. 5: Phylogramm (splitstree, neighbor-joining tree)

Placeholder
Abb. 6: Detail aus Abb. 5; Stand der Daten: 16.7.2024.

Ein Teil des Baumes (Abb. 6) zeigt die Gruppe der rechteckigen Stämme-Diagramme (Typ D, siehe Abb. 2). Die Label liefern vier Informationen nach dem Muster [Handschriftensigle]_[Werk-Version]_[Handschriftengruppe]_[Jahrhundert]. Wir erkennen: Die rechteckige Form taucht in den Werk-Hauptversionen 1 und 2 und für die letztere vor allem in den bisher identifizierten Handschriftengruppen A2 und F3 auf. Den unteren Zweig (Av, P2, N) bilden hier die Handschriften mit “vier Verbindungen bei den Gersoniten” (alle in Gruppe F3). Als nächstes wäre u.a. zu prüfen, was es z.B. mit der Handschriften St1 (Stuttgart, Württembergische Landesbibliothek, Cod. theol. et phil. 2° 100; nach bisherigen Kataloginformationen “Regensburger” Provenienz) auf sich hat, die bisher einer ganz anderen Gruppe (D11) zugeordnet ist. Mit diesen heuristischen Hinweisen des Stemmas kommen wir unmittelbar in die eigentlichen Forschungsfragen: wie “wandern” eigentlich Handschriften und die Innovationen in ihnen? Und wie abhängig oder unabhängig ist die Ausprägung einzelner Phänomene von den Grundmerkmalen ansonsten verwandter Handschriften?

Mit unserer Fallstudie wollen wir auf das Potenzial der für die reine Textuntersuchung schon etablierten phylogenetischen Methoden für die Analyse der Entwicklung von multimodalen Werken aufmerksam machen. Die philologische Textkritik und nachfolgend auch die Stemmatologie ist stark vom Konzept des “Fehlers” geprägt. Dagegen will die Untersuchung der Diagramme weniger einen “richtigen” Urtext (hier: Urform) rekonstruieren, als vielmehr die Entwicklungslinien zwischen sich jeweils ähnelnden Gruppen aufdecken. Dabei kann der Fehlerbegriff keine Rolle spielen. Die allgemeine, nicht wertende Frage nach Varianz ist dann ein Argument für die Anwendung von phylogenetischen Methoden, da diese von einer nicht wertenden Betrachtung aller Varianten ausgehen. Dass man Varianten gewichten kann (und soll) steht nicht im Widerspruch dazu, da der Gewichtungsprozess für die Herstellung einer ausgewogenen, sachgerechten Beschreibung wichtig ist. Herausforderungen liegen im Fall von Handschriftenmaterial dann insbesondere (1.) in der Auswahl der Merkmale und ihrer weiteren Differenzierung, (2.) in der Unterscheidung von wesentlichen und zusätzlichen Unterschieden und (3.) der Reduktion von Befunden in der Datenbeschreibung auf ein binäres System. Wir sind dabei bisher einem experimentellen, iterativen Ansatz gefolgt, der auf einem Vergleich mit den Clustern basiert, die bislang aus der Analyse der textuellen Varianz, dem Vorhandensein oder Fehlen von Werkelementen sowie der Ikonographie resultieren. Wir verfügen also durchaus noch nicht über ein etabliertes stemma codicum, eine klare “ground truth”, gegen die wir die Qualität unserer phylogenetischen Ergebnisse einfach ausmessen könnten. Vielmehr sehen wir für das Gesamtprojekt multiple Perspektiven und sich ergänzende Beschreibungs- und Untersuchungsmethoden im Zusammenspiel. Kodikologie, Philologie, Kunstgeschichte und computationale (hier: phylogenetische) Verfahren stellen sich gegenseitig auf die Probe und führen zur Schärfung der jeweiligen Betrachtungsweisen. Die in unserer Datafizierung vorgenommene notwendige Reduktion auf diskrete, hier binäre Werte ist die große Herausforderung der DH, die aber in unserer Erfahrung in den meisten Fällen als Sprungbrett für neue und solidere Entdeckungen funktioniert. Die Einführung multipler, immer genauerer, explizit definierter und vermessener Merkmale, die die Komplexität unserer Quellen deutlich genug abbilden können zwingt uns, die Bequemlichkeit einer diskursiven, ambivalenten Beschreibung des Materials zu verlassen und unsere Forschung immer genauer und nachvollziehbarer zu gestalten.

Diese Methodenfragen zur Genealogie bzw. Gruppierung von Handschriften markieren nur eine von mehreren epistemologischen Dimensionen. Hier geht es auch darum, Beschreibungsverfahren zu objektivieren und damit reproduzierbar und (z.B. über KI-gestützte Merkmalserhebung) automatisierbar zu machen. Interessant sind auch die Potentiale dieser Ansätze für andere Fragestellungen: Was sind eigentlich relevante Merkmale von Diagrammen (oder Bildern)? Oder: Wie agieren mittelalterliche Schreiber im Spannungsfeld von vorlagentreuer Kopie, ästhetischer Innovation, Eingriffen in die “diagrammatische Syntax”, Hinzufügung weiterer Details und inhaltlichen “Verbesserungen”? Merkmalsextraktion bei Kulturobjekten mit Feature-Matrizen ist insofern mehr als nur ein Mittel zum Zweck. Sie wirft Lichter auf die konzeptionellen Grundlagen der Objektanalyse und den weiteren Genese- und Entwicklungskontext.


Fußnoten

1 Siehe Continis Theorie des “testo nel tempo” (Text in der Zeit). Nach dem italienischen Philologen, ist es Aufgabe der Philologie, den Text in seiner zeitlichen Dimension wieder zu öffnen und zwar vor und nach der Entstehung des Textes selbst (“La filologia, quando ne ha i mezzi, riapre questo testo chiuso e statico, lo fa aperto e dinamico, lo ripropone nel tempo. La riapertura si opera in direzioni opposte, dopo e prima del testo”; Contini (2014).
2 K steht für Klosterneuburg, Augustiner Chorherrenstift Cod. 696, Frankreich, 13. Jh.; L6 für London, British Library, Add MS 60628/1, England, um 1250; Aa für Aargauer Kantonsbibliothek, Ms. WettF 9, Basel, 2. Viertel 14. Jh. und Lz1 für Linz, Oberösterreichische Landesbibliothek, Hs. 490, Baumgartenberg, um 1250.
3 Die Merkmale wurden so granular gewählt, dass auch spezifische Besonderheiten der Manuskripte binär erfasst werden konnten. Textzeugen, die nicht oder nur schwer lesbar waren, wurden im Zweifelsfall aus der Betrachtung ausgeschlossen.
4 Diese Algorithmen und Methoden gelten als de facto Standard in der Praxis der Phylogenetik (Roelli 2020 und Roelli et al. 2015).

Bibliographie

  • Contini, Gianfranco. 2014. Filologia , herausgegeben von Lino Leonardi. Bologna: il Mulino.
  • De Maio, Nicola, Alekseyenko, Alexander V., Coleman-Smith, William J. et al. 2021. “A phylogenetic approach for weighting genetic sequences.” In: BMC Bioinformatics 22, 285. DOI: 10.1186/s12859-021-04183-8
  • Howe, Christopher J., and Heather F. Windram. 2011. “Phylomemetics—Evolutionary Analysis beyond the Gene”. PLoS Biology 9 (5): e1001069. DOI: 10.1371/journal.pbio.1001069
  • Huson, D. H. und D. Bryant. 2006. “ Application of Phylogenetic Networks in Evolutionary Studies ”. Molecular Biology and Evolution 23(2), 254-267.
  • Mertgens, Andreas, Lennart Rouxel, and Johannes Ioannu. 2024. ‘Datenset zur Phylogenetische Analyse Des Stämme-Diagramms Im 'Compendium Historiae'’. Zenodo, DOI: 10.5281/zenodo.12780158 .
  • Mishler, Brent D. 2005: “The Logic of the Data Matrix in Phylogenetic Analysis”. In: Parsimony, Phylogeny and Genomics . Hg. von Victor A. Albert. Oxford. S. 57-70.
  • Roelli, Philipp (Hg.). 2020. Handbook of Stemmatology: History, Methodology, Digital Approaches . De Gruyter. DOI: 10.1515/9783110684384
  • Roelli, Philippe, Caroline Macé, Marko Kalevi Halonen et al. 2015. Parvum Lexicon Stemmatologicum. A brief lexicon of stemmatology. Helsinki. https://wiki.helsinki.fi/display/stemmatology
  • Sutor, Nadine. 2024. “Diagramme repräsentieren: Zu einer neuen Editionspraxis”. In: [Book of Abstracts] DHd 2024 - Quo Vadis DH . Hg. von Joëlle Weiss, Thomas Haider und Estelle Bunout. Passau. DOI: 10.5281/zenodo.10698236
  • Swofford, D. L. 2003. PAUP*. Phylogenetic Analysis Using Parsimony (*and Other Methods). Version 4. Sinauer Associates, Sunderland, Massachusetts.
  • Worm, Andrea. 2021. Geschichte und Weltordnung. Graphische Modelle von Zeit und Raum in Universalchroniken vor 1500 . Berlin. S. 73ff.