Deep Learning als Herausforderung für die digitale Literaturwissenschaft
Zusammenfassung
In den Digital Humanities (DH) wird seit einigen Jahren über einen „computational turn“ (Berry 2011, Heyer 2014) diskutiert, der die aktuellen Algorithmen und Computertechniken des maschinellen Lernens und des tiefen Lernens stärker berücksichtigt. Beispiele sind das auf word embeddings basierende word2vec Modell, das darauf trainiert ist, sprachliche Zusammenhänge von Wörtern zu rekonstruieren (Mikolov 2013), oder fastText und GloVe , die ebenfalls zur Textklassifikationen auf der Grundlage von word embeddings erstellt wurden. Diese Technologien haben sich in verschiedensten Bereichen der Verarbeitung von Bilddateien, Online-Datenbanken, der Erkennung natürlicher Sprache, prosodischer Daten und verschlüsselter Textdaten bewährt. Dennoch fehlt es in der Literaturwissenschaft und insbesondere der Textanalyse (Prosa, Lyrik, Drama) bis heute an einer Anwendung dieser neuen Methoden des maschinellen bzw. tiefen Lernens.
Bisher konzentrierten sich die klassischen „Digital Humanities“ eher auf die Generierung und Reflexion digitaler Ressourcen wie Textausgaben, Repositorien oder Bilddatenbanken. Dagegen gibt es nur wenige Versuche, Deep Learning in die digitalen Geisteswissenschaften einzubringen. Zumeist wurde Deep Learning in sehr großen Datenbanken von Unternehmen wie Google, YouTube, Bluefin Labors oder Echonest getestet, etwa um Social Media Signale und den Inhalt von Medien in sozialen Netzwerken zu analysieren. Gerade deshalb blieb in diesem Feld die alte Kluft zwischen traditionellen Geisteswissenschaften und Informatik bestehen. Unser Panel will einen Beitrag leisten, um diese Lücke zu schließen.
Wir wollen vor allem die Probleme erörtern, die bei der rechnerischen Analyse literarischer Texte mit Techniken des tiefen Lernens entstehen, z.B.: Können maschinelle Lerntechniken durch Clustering tatsächlich verdeckte Muster in Textdaten erfassen (Graves 2012)? Wie lassen sich auf der Grundlage eines maschinell erlernten Modells Grenzfälle, Kategorisierungsfehler, Ausreißer und ähnliche Besonderheiten erkennen bzw. in den Klassifikationsprozess einbauen? Wie geht man mit dem großen Problem der “black box” um, wie lassen sich die in den “hidden layers” stattfindenden Klassifikationsprozesse nachvollziehen bzw. gar transparent machen? Und welche Tools für die manuelle (z.B. Sonic Visualizer) und automatische Annotation (z.B. PRAAT, ToBI, oder Sphinx) bzw. welche Softwares für die Modellierung (DyNet, TensorFlow, Caffe, MxNet, Keras, ConvNetJS, Gensim, Theano, und Torch) sind empfehlenswert?
Fragestellung und Aufbau des Panels
Wir haben auf unserem Panel Experten für computergestützte Analysen von literarischen Texten (Prosa, Lyrik, Drama) mit Interesse an vertieften Lerntechniken versammelt, die die computationale Analyse anhand von narrativen (Fokalisierung), dramatischen (Aktantenanalyse), poetischen (Metrik, Metaphorik, Reim) oder gattungsübergreifenden (Stilometrie, Topic Modeling) Textmerkmalen bereits umfangreich erprobt haben. Wir wollen uns vor diesem Hintergrund über bewährte Verfahren, praktische Anwendungen und erlernbare Methoden des Deep Learning austauschen, eine Plattform zur Präsentation und Entdeckung laufender Forschungsprojekte bieten, und die Vorteile und potenziellen Mängel der digitalen Mustererkennung auf der Grundlage der Methoden des tiefen Lernens reflektieren.
Folgende Personen haben dabei eine Teilnahme an dem Panel zugesagt:
- Fotis Jannidis ist Professor für Computerphilologie und Neuere Deutsche Literaturgeschichte an der Julius-Maximilians-Universität Würzburg.
- Christof Schöch ist Professor für Digital Humanities an der Universität Trier und Co-Direktor des Trier Center for Digital Humanities.
- Jonas Kuhn ist Professor für Maschinelle Sprachverarbeitung an der Universität Stuttgart und leitet das Centrum für Reflektierte Textanalyse (CRETA)
- Thomas Haider ist wissenschaftlicher Mitarbeiter am Max-Planck-Institut für empirische Ästhetik in Frankfurt am Main.
- Timo Baumann ist Informatiker am Language Technology Institute der Carnegie Mellon University in Pittsburgh, USA.
- Hussein Hussein ist Informatiker an der Freien Universität Berlin.
- Burkhard Meyer-Sickendiek ist Leiter einer von der Volkswagenstiftung geförderten Forschergruppe im Bereich der maschinellen Prosodieerkennung von Hörgedichten.
Wir werden in einem ersten Teil von maximal 30 Minuten einzelne Impulsvorträge präsentieren, und dann in einem zweiten Teil von ebenfalls 30 Minuten Topic Modeling und Embedding als wichtige Themenfelder des tiefen Lernens in den Geisteswissenschaften fokussieren. In einem dritten Teil von ebenfalls 30 Minuten wollen wir dann das Panel für die Diskussionen mit dem Publikum öffnen.
Panel-Vorträge
Diskussion
Mögliche Themengebiete für die Paneldiskussion im dritten und letzten Teil wären insbesondere die Verwendung tiefer Lernverfahren in den digitalen Geisteswissenschaften, etwa mit Blick auf Stilometrie, Computerstilistik, Reim- und Metrikenanalyse, Aktantenanalyse, oder Themenmodellierung. Dabei soll die Publikumsdiskussion all jenen ein Forum bieten, die sich ein tieferes Verständnis und eine praktische Schulung in deep learning sowie eine Plattform für den Austausch von Praktiken, Ergebnissen und Erfahrungen im Umfeld mit einschlägigen Tools erhoffen. Dies kann sich auch auf Kenntnisse aus den Nachbardisziplinen erstrecken, insofern diese über bereits vorhandenes Wissen hinsichtlich der Anwendung „tiefer Lerntechniken“ etwa im Bereich des Data Mining, der Statistik oder der Verarbeitung natürlicher Sprache verfügen. Auf diese Weise erhoffen wir uns eine effektive Fokusverlagerung innerhalb der digitalen Geisteswissenschaften: von der Erstellung und Archivierung digitaler Artefakte und Repositorien hin zu echten Rechenlösungen auf der Grundlage maschinellen Lernens.
Bibliographie
- Ananthakrishnan, Sankaranarayanan / Narayanan, Shrikanth S. (2008): “Automatic prosodic event detection using acoustic, lexical, and syntactic evidence” IEEE Transactions on Audio, Speech, and Language Processing, 16(1), pp. 216-228.
- Berry, David M. (2011): “The Computing Turn: Thinking About the Digital Humanities”, in: Culture Machine. 12, 1-22.
- Brett, Megan R. (2012): “Topic Modeling: A Basic Introduction. Journal of Digital Humanities”.
- Cho, Kyunghyun / Merrienboer, Bart van / Gulcehre, Caglar / Bahdanau, Dzmitry / Bougares, Fethi / Schwenk, Holger / Bengio, Yoshua (2014): “Learning phrase representations using RNN encoder-decoder for statistical machine translation”. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language.
- Eder, Maciej / Kestemont, Mike / Rybicki, Jan (2013): “Stylometry with R: a suite of tools”. In: Digital Humanities, Conference Abstracts, University of Nebraska, Lincoln, 487-89.
- Escudero, David / González, César / Gutiérrez, Yurena / Rodero, Emma (2017): “Identifying characteristic prosodic patterns through the analysis of the information of Sp_ToBI label sequences”. Computer Speech & Language 45: 39-57.
- Goodfellow, Ian / Bengio, Yoshua / Courville, Aaron (2016): “Deep Learning”. Cambridge, Massachusetts: The MIT Press.
- Graves, Alex (2012): “Supervised sequence labelling with recurrent neural networks” (Vol. 385). Springer.
- Graves, Alex / Jaitly, Navdeep (2014): “Towards end-to-end speech recognition with recurrent neural networks”. In International Conference on Machine Learning, pages 1764–1772,.
- Hannun, Awni / Case, Carl / Casper, Jared / Catanzaro, Bryan / Diamos, Greg / Elsen, Erich / Prenger, Ryan / Satheesh, Sanjeev / Sengupta, Shubho / Coates, Adam (2014): “Deep speech: Scaling up end-to-end speech recognition”. arXiv preprint arXiv:1412.5567.
- Hasegawa-Johnson, Mark / Chen, Ken / Cole, Jennifer / Borys, Sarah / Kim, Sung-Suk / Cohen, Aaron / Zhang, Tong / Choi, Jeung-Yoon / Kim, Heejin / Yoon, Taejin (2005): “Simultaneous recognition of words and prosody in the Boston University Radio Speech Corpus”. Speech Commun 46: 418–439, 2005.
- Heyer, Gerhard (2014): “Digital and computational humanities”, in: http://dhd-wp.hab.de/files/book_of_abstracts.pdf, pp.66f.
- Hopkins, Jack / Douwe Kiela (2017): “Automatically Generating Rhythmic Verse with Neural Networks”. ACL.http://dx.doi.org/10.18653/v1/P17-1016
- Hsu, Chih-Wei / Lin, Chih-Jen (2002): “A comparison of methods for multi-class support vector machines”. IEEE Transactions on Neural Networks, 13:415-425.
- Jannidis, Fotis / Konle, Leonard / Zehe, Albin / Hotho, Andreas (2018): “Analysing Direct Speech in German Novels”. DHd Jahrestagung. http://dhd2018.uni-koeln.de/wp-content/uploads/boa-DHd2018-web-ISBN.pdf
- Jeon, J. / Liu, Y. (2009): “Semi-supervised learning for automatic prosodic event detection using co-training algorithm”. In Proc. of the 47th Annual Meeting of the ACL, pp. 540-548.
- Kestemont, Mike / De Gussem, Jeroen (2017): “Integrated Sequence Tagging for Medieval Latin Using Deep Representation Learning”. Journal of Data Mining & Digital Humanities.http://arxiv.org/abs/1603.01597.
- Mikolov, Tomas / Chen, Kai / Corrado, Greg / Dean, Jeffrey (2013): “Efficient estimation of word representations in vector space”. arXiv preprint. arXiv:1301.3781.
- Moretti, Franco: Distant reading. Verso 2013.
- Schöch, Christof: Quantitative Semantik: Word Embedding Models für literaturwissenschaftliche Fragestellungen. In Digitale Literaturwissenschaft, hrsg. Fotis Jannidis. Stuttgart: Metzler (im Druck).
- Wick, Christoph / Reul, Christian / Puppe, Frank: Calamari (2018): “A High-Performance Tensorflow-Based Deep Learning Package for Optical Character Recognition.” ArXiv:1807.02004 [Cs]http://arxiv.org/abs/1807.02004, 2018.