Nutzergruppenspezifische Zugänge zu mündlichen Korpora aus dem Archiv für Gesprochenes Deutsch: neue Tools, neue Forschungsperspektiven

Frick, Elena; Helmer, Henrike
https://zenodo.org/records/10698242

Das Archiv für Gesprochenes Deutsch (AGD) am Leibniz-Institut für Deutsche Sprache (IDS) ist ein Forschungsdatenzentrum für Korpora des gesprochenen Deutsch (Stift und Schmidt, 2014). Es übernimmt Korpora aus abgeschlossenen Forschungsprojekten, archiviert sie und stellt sie anderen Forschenden für die Nachnutzung bereit. Seine Sammlung, hauptsächlich bestehend aus Gesprächs-, Interview- und Variationskorpora, wurde in verschiedenen Regionen im deutschsprachigen Raum und in extraterritorialen deutschsprachigen Gebieten erhoben und enthält umfangreiche Metadaten. Ein breites Spektrum von Themen und Kommunikationssituationen aus privaten, institutionellen und öffentlichen Lebensbereichen sowie digitalisierte und mit dem Audio-/Video-Signal alignierte Transkripte mit linguistischen Mehrfachannotationen ermöglichen die Erforschung vielseitiger linguistischer Fragestellungen und bieten darüber hinaus eine wichtige Datengrundlage auch für die Nachnutzung in anderen Disziplinen, wie etwa der empirischen Sozialforschung und Oral History Studies.

Zum Zweck der Nachnutzung werden am IDS Methoden und Technologien entwickelt, die dem Erstellen, Aufbereiten und wissenschaftlichen Arbeiten mit mündlichen Korpora dienen. Aus Nutzerperspektive ist hier vor allem die Datenbank für Gesprochenes Deutsch (DGD¹ ; Schmidt, 2017) zu nennen, die aktuell 40 Korpora mit insgesamt fast 5000 Stunden Audio-/Videoaufnahmen für Nutzende nach einer Registrierung und im Rahmen wissenschaftlicher Forschung und Lehre bereitstellt. Die DGD ermöglicht webbasiertes Browsen und systematisches Durchsuchen der Korpora und ist eine international etablierte, breit genutzte Korpusanalyseplattform (aktuell ca. 16.500 registrierte NutzerInnen).

Mit Blick auf neue Nutzergruppen ist in den letzten Jahren im Rahmen des Projekts ZuMult² und in Kooperation mit dem Hamburger Zentrum für Sprachkorpora (HZSK) sowie dem Herder-Institut der Universität Leipzig eine ganze Reihe von neuen Webanwendungen entstanden (Fig. 1). Vor allem für den Bereich Fremdsprachendidaktik, DaF/DaZ-Forschung und -Lehre wurden Korpusnutzungsszenarien entwickelt und entsprechende Online-Angebote wie ZuMal³ und ZuViel⁴ implementiert. Diese Webanwendungen bieten eine Filterung der einzelnen Interaktionen nach für DaF-/DaZ-relevanten Parametern (z.B. Niveaustufenzugehörigkeit des enthaltenen Wortschatzes, hoher/niedriger Anteil an Mündlichkeitsphänomenen) und eine Visualisierung der schwierigkeitsbezogenen Phänomene in einzelnen Transkripten (z.B. Sprechgeschwindigkeit), was eine schnelle Beurteilung der Eignung des entsprechenden Korpusabschnittes für die Lehre erlaubt. Auch für korpusbasierte lexikologische/lexikographische Forschung wurde ein eigener nutzergruppenspezifischer Zugang zu mündlichen Korpora geschaffen: Es handelt sich um eine Funktionalität, die es erlaubt, eine benutzerdefinierte Liste von Lemmata in ZuRecht⁵ hochzuladen, Transkripte nach der Anzahl der Lemmata aus dieser Liste zu filtern und somit schnell passende Gespräche als Belege beim Verfassen z.B. von Wörterbuchartikeln zu finden. Die im Projekt konzipierte und als Open Source verfügbare Softwarearchitektur⁶ für die neuen Korpuszugänge bietet hohe Flexibilität. Dank des Drei-Ebenen-Softwaremodells und der objektorientierten Modellierung der Korpusbestandteile in Kombination mit aktuellen Standards⁷ lassen sich unkompliziert und nachhaltig neue Applikationen für weitere Nutzergruppen unabhängig von Standort und Korpusdatenformaten entwickeln (vgl. dazu Schmidt et al. 2023).

Fig. 1: Webseite mit ZuMult-Anwendungen

Ein weiteres Tool, das derzeit auf Basis der ZuMult-Architektur in enger Zusammenarbeit zwischen SoftwareentwicklerInnen und GesprächsforscherInnen entwickelt wird, orientiert sich spezifisch an den Bedarfen der Gesprächsforschung und macht Wiederholungen in der gesprochenen Sprache auffindbar. Das Konzept umfasst eine MTAS⁸ /Lucene-basierte Suchmaschine mit einer mächtigen korpuslinguistischen Suchanfragesprache in Kombination mit einem nutzerfreundlichen GUI-Filter (Fig. 2), der speziell für die gesprächsanalytische Forschung entwickelt wurde und auf Spezifika von Gesprächskorpora ausgerichtet ist (z.B. durch die Berücksichtigung von nonverbalen Phänomenen und Sprecherüberlappungen). Dank der linguistischen Annotationen und umfangreichen Metadaten der bereitgestellten Korpora können Wiederholungen von komplexen sprachlichen Phänomenen in transkribierter, normalisierter oder lemmatisierter Form in festlegbaren pragmatischen Kontexten gesucht werden (z.B. eine Mehrwortsequenz mit optionalen Häsitationsphänomenen, die von einer Sprecherin am Ende ihres Beitrags realisiert und von einem männlichen Sprecher eventuell mit einer abweichenden Wortfolge direkt nach dem Sprecherwechsel und außerhalb einer Sprecherüberlappung wiederholt wird). Darüber hinaus wurde GermaNet (Henrich und Hinrichs, 2010) in die Anwendung integriert, was das Finden von Wiederholungskonstruktionen ermöglicht, die Synonyme, Hyperonyme oder Hyponyme enthalten können. So können etwa Fälle gefunden werden, in denen Wiederholungen zum Zweck einer Begriffsklärung verwendet werden (z.B. käschte/rechteck, gynäkologe/frauenarzt).

Fig. 2: Tool für die Suche nach Wiederholungen

Das Vorkommen von Wiederholungen und ihre Funktion im Rahmen von sprachlichen Praktiken (z.B. im Spracherwerb) wurden bereits vielfach und in verschiedenen Disziplinen untersucht. Viele Fragestellungen wurden allerdings hauptsächlich für die englische Sprache und noch nicht anhand von Eigenheiten des Deutschen überprüft. Außerdem gibt es Fragestellungen, die bis jetzt noch nicht in den Blick genommen wurden wie z.B. die Relevanz von multimodalen Ressourcen (Gestik, Gesichtsausdrücke usw.) beim Wiederholen von Äußerungen. Auch können phonetische und prosodische Besonderheiten etwa von Wiederholungen ganzer Äußerungen (z.B. nach Unterbrechungen) systematisch untersucht werden. Das neue Tool bietet Forschenden die Möglichkeit, solche und ähnliche Fragestellungen, in denen Wiederholungen eine Rolle spielen, effizienter zu untersuchen, in dem es über eine systematische Suche in Audio/Video-Daten gezielt gewünschte Sequenzen und Kontexte auffindbar macht, ohne dass Forschende mühsam manuell komplette Transkripte gesprochener Sprache sichten müssen. Eine solche Funktion gab es bisher nicht für Korpora des gesprochenen Deutsch.

Das Vorkommen von Wiederholungen und ihre Funktion im Rahmen von sprachlichen Praktiken (z.B. im Spracherwerb) wurde bereits vielfach und in verschiedenen Disziplinen untersucht. Viele Fragestellungen wurden allerdings hauptsächlich für die englische Sprache und noch nicht anhand von Eigenheiten des Deutschen überprüft. Außerdem gibt es Fragestellungen, die bis jetzt noch nicht in den Blick genommen wurden wie z.B. die Relevanz von multimodalen Ressourcen (Gestik, Gesichtsausdrücke usw.) beim Wiederholen von Äußerungen. Auch könnten phonetische und prosodische Besonderheiten etwa von Wiederholungen ganzer Äußerungen (z.B. nach Unterbrechungen) systematisch untersucht werden. Das neue Tool bietet Forschenden die Möglichkeit, solche und ähnliche Fragestellungen, in denen Wiederholungen eine Rolle spielen, effizienter zu untersuchen, in dem es über eine systematische Suche in Audio/Video-Daten gezielt gewünschte Sequenzen und Kontexte auffindbar macht, ohne dass Forschende mühsam manuell komplette Transkripte gesprochener Sprache sichten müssen. Eine solche Funktion gab es bisher nicht für Korpora des gesprochenen Deutsch.

Fußnoten

¹ https://dgd.ids-mannheim.de

² https://zumult.org

³ https://zumult.ids-mannheim.de/ProtoZumult/prototype/dist/zuMal.jsp

⁴ https://zumult.ids-mannheim.de/ProtoZumult/jsp/zuViel.jsp?transcriptID=FOLK_E_00349_SE_01_T_01

⁵ https://zumult.ids-mannheim.de/ProtoZumult/jsp/zuRecht.jsp

⁶ https://github.com/zumult-org/zumultapi

⁷ Media: PCM-WAV/MP3, MPEG-4; Metadaten: XML, CMDI; Transkriptionen/Annotationen: ISO 24624:2016; Korpussuche: Lucene, CQP

⁸ https://textexploration.github.io/mtas

Bibliographie

Henrich, Verena und Erhard Hinrichs. 2010. „GernEdiT – The GermaNet Editing Tool.“ In Proceedings of the Seventh Conference on International Language Resources and Evaluation (LREC). Valletta, Malta, Mai 2010, 2228-2235.
Schmidt, Thomas. 2017. „DGD – die Datenbank für Gesprochenes Deutsch. Mündliche Korpora am Institut für Deutsche Sprache (IDS) in Mannheim.“ In Zeitschrift für germanistische Linguistik 45: 3. Berlin / Boston: de Gruyter, 451-463.
Schmidt, Thomas, Christian Fandrych, Elena Frick, Matthias Schwendemann, Franziska Wallner und Kai Wörner. 2023. „Zugänge zu mündlichen Korpora für DaF und DaZ – Projekt, Datengrundlagen, technische Basis.“ In KorDaF 3(1): 1–12.
Stift, Ulf-Michael und Thomas Schmidt. 2014. „Mündliche Korpora am IDS: Vom Deutschen Spracharchiv zur Datenbank für Gesprochenes Deutsch.“ In Ansichten und Einsichten. 50 Jahre Institut für Deutsche Sprache. Mannheim: Institut für Deutsche Sprache, 360-375.