Digitale Begriffsgeschichte: Zur historischen Semantik des Naturbegriffs in Spanien und Lateinamerika (18. Jh.)

Hillebrand, Philip; Schlünder, Susanne; Garita Figueiredo, Renato; Rißler-Pipka, Nanette
https://zenodo.org/records/10698230
Zum TEI/XML Dokument

Der Begriff der Natur nimmt eine zentrale Stellung in den Sinn- und Handlungszusammenhängen von Gesellschaften ein. Umweltdebatten verweisen nicht zuletzt auf die konfliktive Pluralität, historische Wandelbarkeit und affektive Dimension von Naturkonzepten. Die im Zuge der Aufklärung deutlichen Umbrüche im Naturverhältnis zeichnen sich in den asymmetrischen Mensch-Umweltbeziehungen des spanischen Kolonialreichs im 18. und frühen 19. Jahrhundert anhand politischer, ökonomischer, epistemologischer und identitärer Debatten besonders deutlich ab (Carrasco und Schlünder, 2022). Trotzdem berücksichtigt die neueste Forschung zur Historischen Semantik der iberoamerikanischen Welt den Begriff ‘naturaleza’ nicht (Fernández Sebastián, 2009-2014). Das Projekt nimmt sich (1) dieser Lücke an und entwickelt (2) einen alternativen, digital begriffsgeschichtlichen Zugang, durch welchen bislang aus Quantitätsgründen nicht beforschte Korpora einbezogen werden. Dem Ansatz der digitalen Begriffsgeschichte entsprechend (Schwandt, 2018) verspricht die Verschränkung hermeneutisch-diskursanalytischer und computationeller Methoden neue Erkenntnisse als das bisherige, hermeneutisch geleitete Vorgehen klassisch qualitativer Analysen, das sich auf kanonisierte, vorwiegend ideengeschichtlich-philosophische Texte bezieht. Ziel des Projekt ist es, einen einschlägigen Beitrag zur Geschichte des Proto-Anthropozän in der iberischen Welt (Wendt, 2016) zu leisten und dabei die Verknüpfung von Digital Humanities-Ansätzen und Studien zum 18. Jahrhundert in Spanien und Lateinamerika (Apert-Abrams und McCarl, 2020) zu befördern.  

Das Korpus besteht aus ca. 37.000 Dokumenten (ca. 187.830.500 Tokens) aus Spanien und den spanischen Vizekönigreichen Neugranada und Peru. Einbezogen werden insbesondere Zeitschriften, Reiseberichte, naturwissenschaftliche sowie politökonomische Abhandlungen – Textsorten, deren in ihnen eingeschriebene Diskurse Rückschlüsse auf die Naturbegriffe der Zeit zulassen. Der Großteil der Dokumente liegt in digitalisierter Form (PDF) in Bibliotheken und Archiven in Spanien, Lateinamerika und den USA vor. Um die Digitalisate weiter prozessieren und analysieren zu können, wurde ein OCR-Workflow verwendet. Mit Python-Skripten werden die Datenbanken durchsucht und die PDFs automatisch heruntergeladen. Für Dokumente ohne Textdaten wird Tesseract genutzt, wobei die OCR-Erkennungsrate maßgeblich durch die Bildqualität der Digitalisate, den Überlieferungszustand, idiosynkratische Schriftarten und orthographische Varianz beeinflusst wird. Die Performance der OCR Methode wird mittels CER und WER anhand einer Ground Truth auf einigen Dokumenten ermittelt und mit alternativen Methoden verglichen. In einem zweiten Schritt wird die Qualität jeder mittels OCR erstellten Transkription mithilfe eines Wörterbuchs, bestehend aus dem Diccionario de Autoridades (1726-1739) und dem Korpus Projekt Gutenberg, evaluiert. Für die Trennung automatisch zusammengezogener Wörter wird Wordsegment benutzt (Jenks, 2018). Anschließende Korrekturen des Textes werden mit SymSpell (Garbe, 2012), dem manuellen Beheben häufig auftretender Fehler sowie der Edition von Textpassagen vorgenommen.

Für die Analyse der Korpora werden Topic Modeling und Word Embeddings genutzt. Das Topic Modeling dient der thematischen Exploration des Korpus und der Konturierung von Teilkorpora für vergleichende Analysen. Bei Topic Models mit LDA (Blei, 2012) werden Dokumente als bag of words betrachtet. Die Festlegung der Parameter zur Bestimmung der optimalen Anzahl der Topics sowie deren Interpretation schaffen einen großen Spielraum. Dem versuchen neuere Ansätze (Egger und Yu, 2022) zu begegnen, indem sie für die Zusammenstellung von Topics Word-Embeddingrepräsentationen von BERT (Grootendorst, 2022) verwenden (Liimatta et al., 2023). Das Projekt testet und evaluiert diese Ansätze in Bezug auf die Anwendbarkeit und den Nutzen für die Korpusauswertung. Ziel der Word Embeddings ist es, in Kombination mit hermeneutischen Verfahren unterschiedliche Bedeutungen des Naturbegriffs zu identifizieren und Prozesse semantischen Wandels nachzuverfolgen. Dabei werden verschiedene Embedding-Modelle wie word2vec (Mikolov et. al., 2013), glove (Pennington et. al., 2014) und fasttext (Bojanowski et. al., 2017) erprobt, um zu evaluieren, wie sich semantische Informationen im Fall eines historischen spanischen Korpus am besten repräsentieren lassen (Hu, Amaral und Kübler, 2022). Für die diachrone Analyse sollen die Embeddings sukzessive in den einzelnen Zeitschichten des Korpus trainiert und ihre Räume anschließend angeglichen werden (Hamilton, Leskovec und Jurafsky, 2016; Kim et al., 2014). Da unser Korpus nicht groß genug ist, um Sprachmodelle vollständig zu trainieren und die Qualität der Daten zwischen den Zeiträumen variiert, werden wir versuchen, unser Korpus mit ähnlichen Quellen aus demselben Zeitraum zu kombinieren, beispielsweise mit entsprechenden Dokumenten des Gutenberg-Korpus.

In Bezug auf Textsorten, aber auch – aufgrund historischer Schreibpraktiken und Produktionsbedingungen – in Bezug auf die regionale und zeitliche Menge und Verteilung der Dokumente ist das Korpus heterogen. Spanische Schriftzeugnisse sind stärker vertreten als hispanoamerikanische, Zeitschriften häufiger als Reiseberichte, und die zweite Hälfte des 18. Jh. dominant gegenüber der ersten Hälfte. Bei der Auswertung stellt sich damit das Problem der Normalisierung und die Frage des Umgangs mit Über- und Unterrepräsentation bestimmter Daten. Abbildung 1 zeigt eine Visualisierung der Anzahl und Verteilung der Umgebungen des Lexems ‘naturaleza’ (+/- 50 Wörter) pro Zeitspanne in unseren Daten vor der Normalisierung.

Placeholder

Das Konferenzposter stellt die Workflows zur Korpuserstellung, -vorbereitung und -analyse zur Diskussion. Zudem werden erste Ergebnisse der Analyse präsentiert. Für die Nachnutzung und Reproduzierbarkeit der Ergebnisse werden möglichst alle Korpora (im bestmöglichen OCR-Reintext), Metadaten und Software frei zugänglich im DARIAH-DE Repository veröffentlicht. Dabei ist im Sinne der CARE Prinzipien mit den jeweiligen initialen Datenanbietern zu klären, wie angemessen auf Ursprung und Entstehung der originär lateinamerikanischen Kulturgüter verwiesen werden kann.


Bibliographie

  • "A Python wrapper for Google Tesseract.“ Python. https://github.com/madmaze/pytesseract (zugegriffen: 19. Juli 2023).
  • Albanese, Nicolo. 2022. “Topic Modeling with LSA, pLSA, LDA, NMF, BERTopic, Top2Vec: A comparison between different topic modeling strategies including practical Python examples”. Towards Data Science (blog), September 19, 2022. https://towardsdatascience.com/topic-modeling-with-lsa-plsa-lda-nmf-bertopic-top2vec-a-comparison-5e6ce4b1e4a5 (zugegriffen: 18. Juli 2023).
  • Alpert-Abrams, Hannah und Clayton McCarl. 2020. “Introduction: Digital Humanities & Colonial Latin American Studies.” Digital Humanities Quarterly 14, Nr. 4. http://www.digitalhumanities.org/dhq/vol/14/4/000531/000531.html (zugegriffen: 18. Juli 2023).
  • Blei, David M. 2012. “Probabilistic topic models.” Communications of the ACM 55, Nr. 4: 77-84. https://doi.org/10.1145/2133806.2133826 (zugegriffen: 18. Juli 2023).
  • Bojanowski, Piotr, Edouard Grave, Armand Joulin und Tomas Mikolov. (2017). “Enriching word vectors with subword information.” Transactions of the association for computational linguistics 5: 135-146. http://dx.doi.org/10.1162/tacl_a_00051 (zugegriffen: 18. November 2023).
  • Carrasco M., Rolando und Susanne Schlünder (Hg.). 2022. Asymmetric Ecologies in Europe and South America around 1800. Berlin/Boston: De Gruyter.
  • Egger, Roman und Joanne Yu. 2022. "A topic modeling comparison between lda, nmf, top2vec, and bertopic to demystify twitter posts." Frontiers in sociology 7: 886498. doi: 10.3389/fsoc.2022.886498 (zugegriffen: 18. Juli 2023).
  • Fernández Sebastián, Javier (Hg.). 2009-2014, Diccionario político y social del mundo iberoamericano. 2 Vol. Madrid: Centro de Estudios Políticos y Constitucionales.
  • Garbe, Wolfgang. 2012. Symspell. https://github.com/wolfgarbe/SymSpell (zugegriffen: 18. Juli 2023).
  • Grootendorst, Maarten. 2022. "BERTopic: Neural topic modeling with a class-based TF-IDF procedure." https://arxiv.org/abs/2203.05794v1 (zugegriffen: 19. Juli 2023).
  • Hu, Hai, Patrícia Amaral und Sandra Kübler. 2022. “Word embeddings and semantic shifts in historical Spanish: Methodological considerations”. Digital Scholarships in the Humanities 37, Nr. 2: 441-461. https://doi.org/10.1093/llc/fqab050 (zugegriffen: 18. Juli 2023).
  • Jenks, Grant. 2018. Wordsegment. https://github.com/grantjenks/python-wordsegment (zugegriffen: 19. Juli 2023).
  • Kim, Yoon, Yi-I Chiu, Kentaro Hanaki, Darshan Hegde und Slav Petrov. (2014). “Temporal Analysis of Language through Neural Language Models.” Proceedings of the ACL 2014 Workshop on Language Technologies and Computational Social Science: 61-65. http://dx.doi.org/10.3115/v1/W14-251726 (zugegriffen: 19. November 2023).
  • Liimatta, Aatu, Eetu Mäkelä, Filip Ginter, Iiro Rastas, Iiro Tihonen, Jinbin Zhang, Lidia Pivovarova et al. (2023). “Using ECCO-BERT and the Historical Thesaurus of English to Explore Concepts and Agency in Historical Writing Interpreting the Eighteenth-century Luxury Debate.” Digital Humanities 2023. Collaboration as Opportunity (DH2023). https://doi.org/10.5281/zenodo.8108032. (zugegriffen: 19. November 2023).
  • Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. (2013). “Distributed representations of words and phrases and their compositionality.” Advances in neural information processing systems 26. https://arxiv.org/abs/1310.4546v1 (zugegriffen: 19. November 2023).
  • Pennington, Jeffrey, Richard Socher und Christopher Manning. (2014). “Glove: Global vectors for word representation.” Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP): 1532-1543. http://dx.doi.org/10.3115/v1/D14-1162 (zugegriffen: 18. November 2023).
  • Project Gutenberg. https://www.gutenberg.org/browse/languages/es (zugegriffen: 19. Juli 2023).
  • Schippers, Heinrich. 1978. “Natur“. In Geschichtliche Grundbegriffe, hg. von Otto Brunner, Werner Conze und Reinhart Koselleck, Bd. 4, 215-244. Stuttgart: Klett-Cotta.
  • Schwandt, Silke. 2018. “Digitale Methoden für die Historische Semantik: Auf den Spuren von Begriffen in digitalen Korpora.” Geschichte und Gesellschaft 44: 107-134. https://vr-elibrary.de/doi/pdf/10.13109/gege.2018.44.1.107 (zugegriffen: 18. Juli 2023).
  • Wendt, Helge. 2016. “Epilogue: The Iberian Way into the Anthropocene“. In The Globalization of Knowledge in the Iberian Colonial World, hg. v. dems., 297-314. Berlin: Edition Open Access.
  • Wevers, Melvin und Marijn Koolen. 2020. “Digital begriffsgeschichte: Tracing semantic change using word embeddings.” Historical Methods: A Journal of Quantitative and Interdisciplinary History 53, Nr. 4: 226-243. https://doi.org/10.1080/01615440.2020.1760157 (zugegriffen: 19. Juli 2023).