CREST Annotation. Ein Tool zur Unterstützung von Bildannotation mit Ontologien, IIIF und Machine Learning Modellen

Eckenstaler, Sophie; Schneider, Philipp; Hiltmann, Torsten; Berse, Dominic; Burgbacher, Ulrich
https://zenodo.org/records/14943130
Zum TEI/XML Dokument

Einführung

Das Poster stellt das 2024 veröffentlichte Bildannotationstool CREST Annotation (Schneider et al., 2024) vor, das am Lehrstuhl für Digital History1  in Zusammenarbeit mit der Firma tapdo2  entwickelt wurde. Dieses erlaubt die halbautomatische Unterstützung von Annotationsprozessen durch flexibles Hinzuladen von Machine-Learning-Modellen zur Bilddetektion oder -segmentierung sowie von Ontologien als Grundlage für Labelsets. Insbesondere die Segmentierung von Bilddaten wird so erheblich erleichtert. Zugleich werden durch die Nutzung von Ontologien mit dem Tool erstellte (Trainings-)Datensets interoperabel.

Dadurch adressiert CREST Annotation gleich mehrere Herausforderungen, die bei der Bildannotation üblicherweise bestehen und von bestehenden Tools nur bedingt oder gar nicht adressiert werden:

  • Ein hoher Zeitaufwand bei der manuellen Annotation von Bilddaten – besonders bei der Erstellung von Segmentierungsmasken,
  • fehlende Interoperabilität zwischen unterschiedlichen annotierten Datensätzen sowie
  • fehlende Möglichkeiten zur semantischen Hierarchisierung von Labels.

Tool CREST Annotation

Die drei Hauptfunktionen von CREST Annotation sind der Import von Bildern und Labels, das manuelle oder halbautomatische Annotieren und der Export der Annotationsdaten. Die Daten sind in Projekten organisiert, die von User*innen vorab angelegt werden (Figure 1).

Placeholder
Projekte in CREST Annotation

Bild- und Labelimport

Für den Bildimport gibt es zwei Optionen: Zentral ist der Upload via IIIF-Manifest, mit der IIIF Image API (Version 2.1 und 3.0)3 . Erweitert wurde die Funktion außerdem um den Upload aus dem lokalen Filesystem. Für das Anlegen der Labels steht eine Uploadfunktion von Ontologien mit JSON-LD zur Verfügung. Diese Funktion ermöglicht es, ein kontrolliertes Vokabular beim Annotieren zu nutzen sowie Klassenhierarchien innerhalb der Labels abzubilden (Figure 2). Zudem macht es die Bildannotationen für die Integration in einen Knowledge Graph einfacher interoperabel. Werden jedoch nur wenige flache Labels für das Annotieren benötigt, können diese auch manuell angelegt werden. 

Placeholder
Upload von Ontologien zur Erstellung von Labelsets

Annotieren

Für das manuelle Annotieren stehen verschiedene in anderen Annotationstools (Mirador, Labelstudio, etc.) ebenfalls verwendete Werkzeuge zur Verfügung. Dazu gehört das Erstellen der Formen Polygon, Rechteck, Kreis oder Freihand entweder mit Maus oder per Stift (Tablet). Formen lassen sich zudem gruppieren und mit einem Label klassifizieren. Neu ist die AI-unterstützte Bildannotation, mit der Objekte in Bildern automatisch segmentiert oder detektiert werden können. Mit Aktivierung des Zauberstab-Werkzeugs wird das Backend für die Computer Vision konfiguriert, indem ein Modell sowie ein Modus für die AI-unterstützte Bildannotation gewählt werden. Aktuell stehen dafür eine Vorsegmentierung sowie eine Segmentierung nach Auswahl des Users zur Verfügung (Figure 3 und 4). Das Labeln der einzelnen Segmente funktioniert derzeit noch nicht automatisch, sondern muss durch den User erfolgen. Das AI-Feature erlaubt das modulare Nachladen von ML-Modellen, wodurch verschiedene, auch eigene Modelle für das Inferencing in der Anwendung nutzbar gemacht werden können.

Placeholder
Segmentierung von Bildelementen mit ML-Modellen
Placeholder
Segmentierung von Bildelementen mit ML-Modellen Vorsegmentierung mit ML-Modellen

Datenexport, Deployment und Techstack

Die Annotationsdaten können aus dem Tool exportiert und damit in anderen Kontexten weiterverarbeitet werden. Dafür werden die Daten in das standardisierte Format IIIF Open/Web Annotation überführt. 

CREST Annotation ist eine containerisierte Open Source Anwendung, die lokal oder serverbasiert installiert werden kann. Das Backend umfasst eine PostgreSQL-Datenbank und eine FastAPI Anwendungsschnittstelle mit SQLAlchemy ORM. Daneben gibt es das Backend für die Computer Vision, das separat von der Hauptanwendung auf einem externen GPU-Server gehostet werden kann. Das Frontend wurde mit React und Redux (Toolkit) umgesetzt.

In der Praxis: Case Study Heraldik

CREST Annotation wird im Projekt Digital Heraldry4  eingesetzt, um Wappen in mittelalterlichen Handschriften zu erfassen. Dies umfasst sowohl die Annotation von einzelnen Wappenschilden, als auch die Segmentierung der Formen und Figuren, die auf diesen dargestellt sind.

Wappen-Annotationen

Wappen erwiesen sich zugleich als gute Domäne zum Testen des Tools. Einzelne Wappen enthalten meist eine Vielzahl unterschiedlicher Figuren und geometrischer Formen, die in mehreren Layern über- und nebeneinander angeordnet sind. Gleichzeitig hat man es mit einer großen Vielfalt von knapp 1.000 unterschiedlichen Figuren zu tun, von denen die meisten jedoch nur sehr selten verwendet werden.

Digital Heraldry Ontology und Segment Anything Modell

Für die Label wurde die Digital Heraldry Ontology (Hitmann und Schneider, 2022) genutzt, die sowohl ein umfangreiches heraldisches Vokabular als auch ein formales System zur Beschreibung von Wappen beinhaltet. Als ML-Modell wurde bislang Segment Anything (SAM) von Meta eingesetzt. Dieses wurde auf dem ebenfalls von Meta veröffentlichten SA-1B Dataset trainiert, das ca. 11 Millionen (moderne) Fotos und eine Milliarde Segmentierungsmasken enthält (Kirillov et al. 2023). Das Modell ließ sich bereits ohne weiteres Training mit großem Erfolg zur Annotation heraldischer Elemente verwenden (zero shot). Hier steht jedoch noch eine formale Evaluation aus, um zu prüfen, ob aufgrund der modernen Trainingsdaten ein Bias besteht und ein weiteres Training des Modells nötig ist.

Das Poster stellt die Funktionen von CREST Annotation vor und veranschaulicht diese an einem Fallbeispiel (Digital Heraldry) um mit potentiellen Nachnutzer*innen weitere Einsatzszenarien zu diskutieren.


Fußnoten

1 Digital History Lehrstuhl Website, https://www.geschichte.hu-berlin.de/de/bereiche-und-lehrstuehle/digital-history, zugegriffen am 24.07.2024
2 tapdo technologies GmbH, Münster, https://tapdo.io/, zugegriffen am 24.07.2024.
3 International Image Interoperability Framework (IIIF), https://iiif.io/, zugegriffen am 24.07.2024.
4 Digital Heraldry Projektwebsite, https://digitalheraldry.org, zugegriffen am 24.07.2024

Bibliographie