Japanese Visual Media Graph Bündelung des Wissens von Fan-Gemeinschaften in einem domänenspezifischen Knowledge Graph

Pfeffer, Magnus; Kacsuk, Zoltan; Roth, Martin
https://zenodo.org/records/6328125

Einleitung

Die Umstellung auf digitale Vertriebswege hat visuelle Medien in einer Fülle verfügbar gemacht, die zuvor nur schwer vorstellbar war. Medien für spezielle Zielgruppen und Nischen haben nun ein potenziell globales Publikum und Teile dieses Publikums formieren sich in Fan-Gemeinschaften, die sich auf eigens entwickelten Online-Plattformen über “ihre” Medien austauschen, sie analysieren, katalogisieren und Informationen über sie sammeln (Price & Robinson 2017). Einige dieser Gemeinschaften fokussieren sich auf bestimmte Genres, andere auf ein Herkunftsland oder gar nur das Werk einzelner Autor:innen. Schon die Menge von Daten zu visuellen Medien, die von diesen Gemeinschaften produziert wird, ist beeindruckend, noch mehr aber ist es die Qualität der Datenmodellierung, die Liebe zum Detail und der hohe Grad an Koordination in den Gemeinschaften.

Für Wissenschaftler:innen, die zu visuellen Medien forschen, sind die Daten dieser Gemeinschaften sehr wertvoll, denn sie liefern die benötigte Kontextualisierung und dokumentieren Beziehungen zwischen Werken, Genres und Medienarten. Gleichzeitig geben sie Auskunft über die Rezeption und Bewertung von Medien durch die verschiedenen Zielgruppen und erlauben einen Einblick in lokale und globale Medienkulturen. Die Nutzung dieser Daten ist jedoch mit Herausforderungen verbunden: Zum einen ist es von außen nur schwer einzuschätzen, wie die unterschiedlichen Gemeinschaften in Bezug auf Arbeitsweise und Qualitätsstandards arbeiten, und zum anderen kann es je nach Fragestellung erforderlich sein, Daten aus mehreren Quellen zu kombinieren - was erweiterte Kompetenzen im Bereich der Data Science und beim Modellieren von Daten erfordert. Nicht zuletzt sind die kleineren Gemeinschaften inhärent fragil und haben keine Ressourcen außer der Bereitschaft ihrer Mitglieder, sich an Aufbau, Programmierung und Finanzierung der Online-Angebote zu beteiligen.

Das Japanese Visual Media Graph Projekt

In diesem Projekt sollen Methoden entwickelt werden, um die von den Fan-Gemeinschaften gesammelten Daten für die Wissenschaft zugänglich zu machen und dauerhaft zu sichern. Dies umfasst Software-Werkzeuge, Workflows und die Dokumentation von Best-Practice-Verfahren für das Entdecken, Extrahieren, Sammeln, Konsolidieren und Verknüpfen der Daten. Die aufbereiteten Daten sollen in einem zentralen Repositorium zur Verfügung gestellt und mit einem an den Bedürfnissen der Forschenden orientierten Benutzerinterface versehen werden.

Auch wenn diese Methoden und Vorgehensweisen weitestgehend universell anwendbar sind, beschränkt sich das Projekt zunächst auf die Domäne der japanischen visuellen Medien mit einem Fokus auf Manga, Anime und Computerspielen. Diese Medien haben in den vergangenen zwei Jahrzehnten einen wahren Boom erlebt und sind wesentlicher Bestandteil der japanischen Soft-Power-Strategie, die auch als “cool Japan” bekannt ist (McGray 2002, Oyama 2016, Valaskivi 2013). Dieser Teilbereich der visuellen Medien ist eine besondere Herausforderung für die Erprobung unserer Ansätze und ermöglicht zugleich einen signifikanten Betrag zur Forschung. Die japanische Kreativ-Industrie präferiert weitläufige Story-Universen und ein auf die visuellen Charaktere aufbauendes cross-media Franchising, das auch als “media-mix” bezeichnet wird (Steinberg 2012, Picard & Pelletier-Gagnon 2015, Nozawa 2013), und hat eine enge und besondere Beziehung zu Fan-Werken und Fan-Aktivitäten (Condry 2013). Aus dieser Praxis entsteht ein komplexes und weites Netzwerk aus Werken, das einen Ansatz erforderlich macht, der die Verbindungen zwischen den Inhalten, Genres und Charakteren über Mediengrenzen und Datenquellen hinweg detailliert beschreiben kann. Dazu kommt, dass ein signifikanter Teil der Inhalte und des Contents nur innerhalb Japans verfügbar ist, was das Sammeln und Validieren von Informationen darüber erschwert.

Im Rahmen der Vorarbeiten zu dem Projekt wurden zwei Untersuchungen durchgeführt: Im Rahmen eines Seminars haben Studierende über 40 Fan-Websites zu japanischen visuellen Medien untersucht und nach einheitlichen Kriterien beschrieben. Die Bandbreite reichte von vergleichsweise großen, internationalen Gemeinschaften bis zu kleineren lokalen Gruppen, deren Webseiten nicht in englischer Sprache gehalten sind. Die Untersuchung zeigte, dass nahezu alle Webseiten neben der Möglichkeit, sich online mit Gleichgesinnten auszutauschen, in irgendeiner Form Daten zu den Medien selbst, ihren Inhalten und Genres oder den Charakteren sammeln und systematisch aufbereiten. Diese Datensammlungen werden dem Umfang und der Komplexität dieser Medienwelt mehr als gerecht und zeichnen sich durch einen hohen Detailgrad in der Beschreibung der Medien, große Sorgfalt bei der Kuratierung der Daten und ein beeindruckendes technisches Niveau aus.

Weiterhin wurde in einer qualitativen Befragung der tatsächliche Bedarf in der Fachwissenschaft abgefragt. Zielgruppe waren dabei sowohl Forschende aus dem Bereich der Japanologie, die an modernen Medien interessiert sind, als auch Forschende aus den Medienwissenschaften, sofern Japan in deren Fokus steht. Die Interviews wurden vor Ort auf Konferenzen und Workshops sowie per Email und Videokonferenz geführt. In der Auswertung zeigten sich drei Aspekte, die einen wesentlichen Einfluss auf die Projektziele hatten: Zum einen wird das Feld als ein interessanter Forschungsgegenstand gesehen, was sich in der steigenden Zahl einschlägiger Veröffentlichungen, Workshops und Konferenzen niederschlägt. Dazu kommt ein erkennbarer Mangel an Informationsressourcen, die einen Zugang zu dieser Medienwelt ermöglichen. Bestehende Lexikon-artige Einzelveröffentlichungen wurden als veraltet oder nicht übergreifend genug und zu sehr auf einzelne Aspekte fokussiert wahrgenommen. Die von Fan-Gemeinschaften gesammelten Informationen waren teilweise bekannt, aber der uneinheitliche Zugang, Unklarheit über die Qualität und Vorgehensweise und die Befürchtung, dass diese unvermittelt nicht mehr zur Verfügung stehen könnten, wurden als Hindernisse für deren Nutzung gesehen. Als dritter Aspekt wurde der Wunsch genannt, mehr Optionen für die Bearbeitung von Forschungsfragen zu haben. Die Forschenden möchten vor allem datengetriebene Methoden wie z.B. Netzwerkanalysen, die in anderen Bereichen der Medienwissenschaften bereits etabliert sind, auch auf japanische visuelle Medien anwenden können. Dies und die starke Vernetzung der Medien über Franchises, Charaktere, Genres und Themen sowie die daran beteiligten Personen erfordert Datenbanken, die über die reine Auflistung bibliografischer Angaben hinausgehen. Explizit wurde ein Zugang zu den Medien über die in ihnen auftretenden Charaktere und deren Rollen sowie über das Setting oder andere inhaltliche Aspekte erwähnt.

Projektziele und aktueller Stand

Im Rahmen des Projektantrags wurden vier Kernziele formuliert, die sich aus den Vorarbeiten herleiten. Sie sollen nun kurz vorgestellt und der aktuelle Stand des Erreichten zusammengefasst werden.

Vereinbarungen zum Datenaustausch mit Fan-Gemeinschaften

Für eine erfolgreiche und dauerhafte Partnerschaft ist es wichtig, die Motivation und Bedürfnisse der Fan-Gemeinschaften zu verstehen und zu wissen, vor welchen Herausforderungen und Problemen sie stehen. Direkt zu Projektbeginn wurden mehrere Gemeinschaften angeschrieben und Vertreter:innen zu einem gemeinsamen Workshop mit den Projektbeteiligten eingeladen. Schon vor dem Workshop war auffällig, wie unterschiedlich der Zugang zu den erstellten Daten der Gemeinschaften ist: die Bandbreite reicht hier vom aktiven Blockieren von Crawlern und anderen Harvestern über einen freien Zugang bis hin zu ausgefeilten Schnittstellen (APIs). Lizenzinformationen allerdings fehlten teilweise, waren unvollständig oder sogar widersprüchlich. In der gemeinsamen Diskussion zeigte sich, dass es von Seiten der Fan-Gemeinschaften eine große Bereitschaft zum Teilen der eigenen Daten sowohl mit anderen Gemeinschaften als auch Forschenden gibt. Problematisch hingegen wurde die kommerzielle Nutzung der Daten gesehen. Zugleich wurde von mehreren Seiten eine gewisse Unsicherheit in Bezug auf die rechtlichen und lizenztechnischen Rahmenbedingungen geäußert, was die beobachteten Inkonsistenzen in der Lizenzierung erklärt.

Um Daten mit unterschiedlichen Lizenzen in einem gemeinsamen Portal oder Knowledge Graphen anbieten zu können, müssen die Lizenzen zueinander kompatibel sein. Die häufig anzutreffenden Creative-Commons-Lizenzen sind dabei problematisch, sobald die “share-alike” Klausel genutzt wird. So sind Daten mit CC-BY-SA und CC-BY-SA-NC nicht kombinierbar, da die kommerzielle Nutzung nicht gleichzeitig erlaubt und verboten sein kann. Unproblematisch hingegen sind gänzlich freie Lizenzen wie CC-0 oder die alleinige Verwendung der “by” Klausel, die nur die Nennung der Urheber verlangt. Im Projektkontext wird angestrebt, mit allen Partnern entweder eine Lizenzierung mit einer aktuellen CC-BY-Lizenz oder der Variante CC-BY-SA-NC zu vereinbaren. Alle Daten des Projekts können dann gemeinsam mit der CC-BY-SA-NC Lizenz Dritten zur Verfügung gestellt werden.

Erstellen eines Datenmodells für die Domäne der japanischen visuellen Medien

Ausgehend von den Daten, die von den Gemeinschaften zur Verfügung gestellt werden, werden formale Modelle erstellt, die die jeweiligen Entitäten, ihre Attribute und Beziehungen untereinander abbilden. Diese sind zunächst spezifisch für die jeweiligen Gemeinschaften, haben aber klar identifizierbare Schnittmengen untereinander. In einem zweiten Schritt wird ein gemeinsames Modell erstellt, das die Domäne der japanischen visuellen Medien in ihrer Gänze umfasst. Die Modellierung ist bereits weit fortgeschritten und die formalen Modelle sind als Ontologien in der Web Ontology Language (OWL) zusammen mit einer Beschreibung veröffentlicht worden (Kiryakos & Pfeffer 2021a,b,c).

Aufbau einer zentralen Datenbank

Die OWL-Ontologien werden genutzt, um die Daten der Fan-Gemeinschaften in einzelne Aussagen gemäß dem Resource Description Framework (RDF) zu konvertieren. RDF hat viele Vorteile: Die Aussagen bilden einen Graphen und kommen damit der vernetzten Struktur der Domäne nahe; auch erlaubt die Datenhaltung ein iteratives Vorgehen bei der Integration in das gemeinsame, übergreifende Modell (Kiryakos & Pfeffer 2021d). So können die Daten ohne weitere technische Trennung in einer gemeinsamen Triple-Store-Datenbank gespeichert werden und mittels SPARQL gezielt durchsucht werden. In einem Matching-Schritt werden alle Entitäten identifiziert, die von mehreren Datenquellen beschrieben werden, und geclustert. Die Informationen aus den Clustern können dann in einer “merged Entitiy” zusammengeführt werden, die im gemeinsamen Modell nur noch an einer Stelle beschrieben sein wird.

Um eine Vorstellung der Größe der Datenbank zu bekommen, sind in Abbildung 1 die Bezeichnungen und Anzahl der Kern-Entitäten für drei Fan-Gemeinschaften zusammengefasst. Werke und Medien werden mit unterschiedlicher Granularität beschrieben, was für den Matching-Schritt eine besondere Herausforderung darstellt. Da jede Entität mit anderen verknüpft und durch weitere Attribute beschrieben wird, ergeben sich eine große Zahl an einzelnen Aussagen. In Summe sind es für die drei Quellen in der Tabelle über 10 Millionen Aussagen.

Abb. 1: Struktur und Anzahl der Kern-Entitäten

Der Clustering-Schritt wird zum Zeitpunkt der Einreichung dieser Veröffentlichung durchgeführt und sollte zum Jahresende abgeschlossen sein. Problematisch gestaltet sich neben der unterschiedlichen Granularität der Daten zu den Werken auch die Disambiguierung von Personen mit gleichem Namen. Die betroffenen Entitäten machen aber nur einen vergleichsweise kleinen Anteil an den Gesamtdaten aus und werden bei Bedarf manuell bearbeitet.

Zusätzlich zur Bereitstellung der Daten über die SPARQL-Schnittstelle wurde ein Web-Frontend neu entwickelt, das neben den Standardfunktionen für die Anzeige von RDF-Daten auf Basis der Entity-URLs einfach an die Bedürfnisse des Projekts angepasst werden kann. So können die Aussagen einzelner Datenquellen ein- und ausgeblendet werden und die Sprache für die Label der einzelnen Entitäten gewählt werden. Darüber hinaus steht eine schnelle Suchfunktion über einen Elasticsearch-Index zur Verfügung und es können Erweiterungen in Python realisiert werden, die ausgehend vom Frontend und dem aktuell angezeigten Entity-URI Funktionalitäten im Webinterface anbieten. Exemplarisch wurden bereits Korrelationsanalysen, Teilgraph-Exporte und Visualisierungen implementiert.
Die Entwicklung des Frontends ist weit fortgeschritten. Abbildung 2 zeigt die Ansicht eines Spiels vom Typ “Visual Novel”. Die Bezeichnungen der Attribute (1) stammen aus der Ontologie, der Link führt zum Eintrag in selbiger. Verknüpfte Entitäten - hier: Charaktere (2), beteiligte Personen (3), Tags (4) - werden durch ihre Label repräsentiert und verlinkt. Für jede einzelne Aussage ist die Quelle (5) in hellgrau angegeben. Die Inhalte der Datenbank sind über das Frontend auf der Website mediagraph.link zugänglich. Die Software für das Frontend wird aktuell noch bearbeitet und wird vor Projektende als Open Source bereitgestellt werden.

Abb. 2: Ansicht einer Visual Novel im Frontend

Evaluation der Datenqualität und der Eignung der Daten für Fragestellungen aus Medienwissenschaften und Japanologie

Um eine klare Vorstellung davon zu bekommen, welche Qualität die Daten der Fan-Gemeinschaften haben, wurden für drei unterschiedliche Datenquellen randomisierte Stichproben gezogen und auf Korrektheit überprüft. Die Größe der Stichproben wurde so gewählt, dass das Ergebnis mit einer Konfidenz von 95% (+/- 5%) auch für die Grundgesamtheit gilt. Als Datenelemente wurden die Titel von Anime-Filmen und Computerspielen von Genre “Visual Novel” in der Originalsprache Japanisch und der englischen Übersetzung ausgewählt. Die Titel sind prominent auf den Covern der Vertriebsmedien ersichtlich und können daher mit vertretbarem Aufwand auch ohne Inspektion des Mediums selbst geprüft werden. Konkret konnte dafür auf Abbildungen aus Online-Shops und Webseiten der Vertriebsfirmen zurückgegriffen werden. Abbildung 3 fasst die Ergebnisse der Untersuchung zusammen. Die beobachteten Fehler waren überwiegend typografischer Natur und betrafen primär nicht-sinntragende Elemente der Titel (5,57%-28,16%): Leerzeichen, Interpunktion, Anführungszeichen und Sonderzeichen wie Sterne, Herzen oder auch Sonderformen von Bindestrichen. Es gab deutlich weniger echte semantische Fehler (0%-2,48%), die meisten davon Hinzufügungen zum Titel, die offenbar der Disambiguierung von gleichnamigen Medien dienen soll.

Abb. 3: Detailangaben zur Qualitätsuntersuchung

Der Aufbau einer Infrastruktur für die Forschung sollte nicht von informationstechnischen Notwendigkeiten, sondern von den Bedürfnissen der Forschenden geleitet werden. Im Rahmen des Projekts werden eine Reihe von kleineren wissenschaftlichen Fragestellungen bearbeitet, die wir als “Tiny Use Cases” bezeichnen (Freybe & Rämisch & Hoffman 2019). Ausgehend von einer Forschungsfrage werden von Projektmitarbeitern mit einem medienwissenschaftlichen Hintergrund Anforderungen an Daten zur Beantwortung der Frage und Suchstrategien formuliert. Diese prototypischen Nutzungsszenarien leiten die Projektmitarbeiter mit Informatik- bzw. informationswissenschaftlichen Hintergrund bei der Aufbereitung der Daten und dienen als jederzeit testbare Fallstudien für entstehende Prototypen (für ein Beispiel s. Kacsuk 2021). So entsteht eine enge Feedback-Schleife auf den Ebenen der Datenmodellierung, Datenintegration und der Benutzer- und Suchinterfaces. Diese Phase ist im Projekt fast abgeschlossen und der aktuelle Prototyp wird in Kürze externen Forschenden zur Verfügung gestellt, die den Knowledge Graphen für ihre eigenen Forschungsfragen einsetzen und ebenfalls Feedback und Anregungen für die weitere Entwicklung geben können.

Ausblick

Das Projekt “Japanese Visual Media Graph” startete im Juni 2019 und wird für 36 Monate von der Deutschen Forschungsgemeinschaft in der Förderlinie “E-Research Technologies” gefördert. Die aktuellen Arbeiten und Ergebnisse werden im Projekt-Blog dokumentiert (Website: blog.mediagraph.link ). Zum Zeitpunkt des Vortrags werden die Arbeiten weitestgehend abgeschlossen sein und der Knowledge Graph als Prototyp der Fachöffentlichkeit zur Verfügung stehen. Bereits jetzt ist deutlich, dass die Daten nicht nur nutzbar sind, sondern auf breites Interesse in der Forschungsgemeinschaft stoßen. Durch den Ausbau entsprechender Kollaborationen hoffen wir, die Datenbasis und ihre Anwendungsszenarien sukzessive erweitern und konsolidieren zu können.

Bibliographie

Condry, Ian (2013): The soul of anime. Collaborative creativity and Japan’s media success story. Durham: Duke University Press.
Freybe, Konstantin / Rämisch, Florian / Hoffmann, Tracy (2019): “With small steps to the big picture: A method and tool negotiation workflow.”, in: Steven Krauwer / Darja Fišer (eds.): Proceedings of the Twin Talks Workshop at DHN 2019. co-located with Digital Humanities in the Nordic Countries (DHN 2019). Aachen: CEUR-WS.org 13-24 [letzter Zugriff 15. Juli 2021].
Kacsuk, Zoltan (2021): “Using fan compiled metadata for anime, manga and video game studies research: Revisiting Hiroki Azuma’s ‘Otaku: Japan’s Database Animals’ twenty years on”, in: Roth, Martin / Picard, Martin / Yoshida, Hiroshi (eds.): Japan’s Media between Local and Global. Current Perspectives on Regionality, Representation, Culture and Technology. Heidelberg: CrossAsia-eBooks, Universitätsbibliothek Heidelberg (erscheint in Kürze).
Kiryakos, Senan / Pfeffer, Magnus (2021a): Japanese Visual Media Graph - Visual Novel Database Ontology. Zenodo 10.5281/zenodo.5036040.
Kiryakos, Senan / Pfeffer, Magnus (2021b): Japanese Visual Media Graph - Anime Characters Database Ontology. Zenodo 10.5281/zenodo.5710959.
Kiryakos, Senan / Pfeffer, Magnus (2021c): Japanese Visual Media Graph - AnimeClick Ontology. Zenodo 10.5281/zenodo.5508683.
Kiryakos, Senan / Pfeffer, Magnus (2021d): “The Benefits of RDF and External Ontologies for Heterogeneous Data: A Case Study Using the Japanese Visual Media Graph”, in: Schmidt, Thomas / Wolff, Cristian (eds): Information between Data and Knowledge. Information Science and its Neighbors from Data Science to Digital Humanities. Proceedings of the 16th International Symposium of Information Science (ISI 2021). Regensburg, Germany, 8th-10th March 2021. Glückstadt: Verlag Werner Hülsbusch 308-320 10.5283/epub.44950.
McGray, Douglas (2002): “Japan’s Gross National Cool”, in: Foreign Policy 130: 44-54 10.2307/3183487.
Nozawa, Shunsuke (2013): “Characterization”, in: Semiotic Review 3 [letzter Zugriff 15. Juli 2021].
Oyama, Shinji (2016): “Japanese creative industries in globalization”, in: Hjorth, Larissa / Khoo, Olivia (eds): Routledge Handbook of New Media in Asia. Abingdon Oxon UK: Routledge 322-332 10.4324/9781315774626.
Picard, Martin / Pelletier-Gagnon, Jérémie (2015): “Introduction: Geemu, media mix, and the state of Japanese video game studies”, in: Kinephanos. Journal of media studies and popular culture 5: 1-19 [letzter Zugriff 15. Juli 2021].
Price, Ludi / Robinson, Lyn (2017): “‘Being in a knowledge space’: Information behaviour of cult media fan communities”, in: Journal of Information Science 43(5): 649–664 10.1177/0165551516658821.
Steinberg, Marc (2012): Anime’s media mix. Franchising toys and characters in Japan. Minneapolis: University of Minnesota Press.
Valaskivi, Katja (2013): “A brand new future? Cool Japan and the social imaginary of the branded nation”, in: Japan Forum 25(4): 485-504 10.1080/09555803.2012.756538.