My Body is a Cage: Human Pose Estimation und Retrieval in kunsthistorischen Inventaren

Schneider, Stefanie
https://zenodo.org/records/10698490
Zum TEI/XML Dokument

Theoretisch fundiert ist die Gestik als Ausdruck nonverbaler Kommunikation seit dem 17. Jahrhundert (Knowlson, 1965). Ihre Relevanz für die bildende Kunst wurde jedoch nur vereinzelt betont (Barasch, 1987), etwa als die Antike rezipierende Pathosformel (Warburg, 1998). Diese Punktualität mag nicht nur auf die große Menge an traditionell manuell zu verarbeitenden Daten zurückzuführen sein, sondern ebenso auf das Fehlen eines die Gestik ‚kodifizierenden‘ Vokabulars. Zwar hat sich 1912 der finnische Kunsthistoriker Johan Jakob Tikkanen an einer Typologie kunsthistorischer (Bein-)Stellungsmotive versucht, die er mit potenziellen Entwicklungsketten versah (Tikkanen, 1912). Streng ökonomisch motiviert sind darüber hinaus jedoch allenfalls Studien zur Handgestik, die einige wenige Stereotypen differenzieren (u. a. Bulwer, 1644; Demisch, 1984). Um diesem Desiderat zu begegnen, konzentrieren wir uns auf die quantitativ-fundierte Exploration von Gesten- und Positurtypen in der bildenden Kunst. Die Einreichung knüpft an eigene Vorarbeiten an und erweitert diese (Springstein et al., 2022; Schneider und Vollmer, 2023). Unter Positur (engl. posture) wird gewöhnlich eine statische, „bewusst eingenommene Stellung“ des Körpers verstanden,1  im Gegensatz zur Geste (engl. gesture), die als dynamische, „bewusst eingesetzte Bewegung“ des Körpers definiert wird;2  auf diese Unterscheidung greifen auch wir, soweit möglich, im Folgenden zurück. Wir verweisen zudem auf Mulder (1996).

Unser Ansatz fußt auf zwei Modulen: Zunächst werden ‚Gelenkpunkte‘ von menschlichen Figuren detektiert ( Human Pose Estimation; HPE). Diese werden in ‚Deskriptoren‘ überführt und aufgrund ihrer Nähe zueinander typisiert ( Human Pose Retrieval; HPR). Ein webbasiertes Retrieval im zweidimensionalen Raum rundet die Pipeline ab. Es gibt zwar Ansätze zur HPE in kunsthistorischen Inventaren, diese fokussieren jedoch auf restriktive Datenkorpora: Impett und Süsstrunk (2016) analysieren Tafeln aus Warburgs Bilderatlas Mnemosyne; Madhu et al. (2023) beziehen sich auf griechische Vasenmalerei.

Semi-überwachte Human Pose Estimation

Placeholder
Abb. 1: Unser Ansatz zur HPE ist zweistufig: Zunächst werden menschliche Figuren durch Bounding Boxes lokalisiert und diese Begrenzungsrahmen dann auf Keypoints analysiert (Springstein et al., 2022).

Der hier vorgeschlagene Ansatz zur HPE gründet auf der bewährten Top-Down-Strategie (Li et al., 2021; Wang, Sun et al., 2021): In einem Bild werden zunächst menschliche Figuren durch Bounding Boxes detektiert. Diese Begrenzungsrahmen werden dann auf 17 Keypoints untersucht, die Gelenkpunkte des menschlichen Körpers approximieren. Auf diese Weise soll eine maschinell effizient handhabbare Abstraktion des menschlichen Skeletts, und damit der figuralen Gestik oder Positur, erzeugt werden. Abb. 1 zeigt die Gesamtarchitektur des Ansatzes.

Methodik

Die erste Phase basiert auf dem Detection-Transformer-Framework ( DETR; Carion et al., 2020). Ein Convolutional-Neural-Network-Backbone berechnet Merkmalsdeskriptoren, die durch ein Positional Encoding angereichert werden. Dieser Input wird umgewandelt in eine Sequenz visueller Merkmale und in einen Transformer-Encoder gespeist; der Output des Encoders wird in den Cross-Attention-Modulen des Transformer-Decoders verwendet. Nach der Verarbeitung durch den Decoder wird die Ausgabe in zwei Multilayer-Perceptron-Köpfe geleitet: Der erste Kopf fungiert als Klassifikator, der zwischen Figur und Bildhintergrund unterscheidet; der zweite führt eine Regression auf die Koordinaten der jeweiligen Bounding Box durch. Das Vorgehen in der zweiten Phase ist äquivalent, nur dass hier der Kopf für jede zuvor identifizierte Bounding Box die Koordinaten der 17 Keypoints vorhersagt.

Um das jeweils verfügbare Trainingsmaterial in beiden Phasen zu erweitern, integrieren wir einen Ansatz des semi-überwachten Lernens (Semi-supervised Learning; SSL), der auf dem von Xu et al. (2021) motivierten Lehrer-Schüler-Paradigma aufsetzt. In diesem übernimmt der Lehrer, dessen Gewichte aus dem Exponential Moving Average des Schülers abgeleitet werden (Tarvainen et al., 2017), die Rolle eines Pseudo-Label-Generators: Er generiert Bounding-Box- und Keypoint-Annotationen für unbeschriftete Daten.

Daten

Placeholder
Abb. 2: Es lassen sich Bounding-Box- und Keypoint-Annotationen unterscheiden. Wie in Andrea del Sartos Pietà mit Heiligen (1523–24) gezeigt, werden menschliche Figuren zunächst von Bounding Boxes umschlossen. Dann werden bis zu 17 Keypoints zugewiesen, die in der Detailansicht durch grüne Kreise gekennzeichnet sind.

Für das Training der Modelle werden fünf Datensätze verwendet; vier sind beschriftet, drei mit Keypoint-Annotationen: Als realweltliche Datengrundlage dient COCO 2017 (123.287 Bilder; Lin et al., 2014). Um die Effizienz von Style-Transfer-(ST)-Ansätzen zu evaluieren, generieren wir zusätzlich eine stilisierte Version, die dem jeweiligen Modell anteilig zugeführt wird (Chen et al., 2021). Kunsthistorisches Material fließt zum einen über den People-Art-Datensatz ein, der Bounding Boxes von menschlichen Figuren annotiert (4.851 Bilder; Westlake et al., 2016). Zum anderen wird der von uns in Schneider und Vollmer (2023) eingeführte PoPArt-Datensatz integriert, der ebenfalls Keypoints auf 2.454 Bildern enthält. Alle Datensätze folgen dem Microsoft COCO-Format, in dem bis zu 17 Keypoints pro Figur zusätzlich zu Bounding Boxes gespeichert werden (Lin et al., 2014). Es gibt fünf Keypoints für den Kopf, die Nase, Augen und Ohren repräsentieren; sechs für den Oberkörper, die Handgelenke, Ellbogen und Schultern repräsentieren; und sechs für den Unterkörper, die Knöchel, Knie und Hüften repräsentieren (Abb. 2). Unbeschriftete Daten stammen aus ART500K (318.869 Bilder; Mao et al., 2017).

Evaluation

Placeholder
Tab. 1: Ergebnisse der ersten Phase der HPE, in der Bounding Boxes menschlicher Figuren detektiert werden.
Placeholder
Tab. 2: Ergebnisse der zweiten Phase der HPE, in der für jede identifizierte Bounding Box die Koordinaten von 17 Keypoints vorhergesagt werden.

Für die verwendeten Modellparameter wird auf Springstein et al. (2022) verwiesen. Wie aus Tab. 1 ersichtlich, verbessert SSL die Bounding-Box-Erkennung wesentlich sowohl in Bezug auf Average Precision (AP) als auch Average Recall (AR). Mit AP 50 = 0,738 ist die Leistung unseres Ansatzes für People-Art zudem deutlich höher als die von Kadish et al. (2021) mit AP 50 = 0,68 und als die von Gonthier et al. (2022) mit AP 50 = 0,583. Noch ausgeprägter ist der Unterschied in der Keypoint-Schätzung (Tab. 2).3  Ebenso zeigt sich, dass es zwar nicht notwendig ist, große Mengen an domänenspezifischem Material zu annotieren, aber kleinere Mengen in den Trainingsprozess einbezogen werden sollten, anstatt sich – wie in Madhu et al. (2023) – auf synthetisch generierte Bilder zu stützen.

Blickwinkel-invariantes Human Pose Retrieval

Placeholder
Abb. 3: Der HPR-Ansatz besteht aus drei Schritten: Zunächst wird eine Query gefiltert und in ein 320-dimensionales Embedding überführt (Sun et al., 2020). Dieses Embedding wird dann mit Hilfe einer Support-Menge klassifiziert.

Unser dreistufiger HPR-Ansatz baut direkt auf der HPE auf: Die Keypoints werden hier in semantisch-plausible Gestendeskriptoren übersetzt und mit Hilfe einer kleinen Support-Menge typisiert. Abb. 3 stellt die Gesamtarchitektur dar.

Methodik

Ausgehend von der HPE des Ganzkörperskeletts werden Ober- und Unterkörper zusätzlich getrennt abgelegt; diese ‚Konfigurationen‘ ergeben die Query q . In einem Pre-Processing-Schritt werden zunächst Konfigurationen mit hoher Unsicherheit entfernt, d. h. solche, die weniger als τ = 0,5 der jeweils möglichen Keypoints haben. Alle verbleibenden, hinreichend sicheren Konfigurationen werden in ein 320-dimensionales Embedding überführt, das als Gestendeskriptor fungiert. Bisherige Verfahren integrieren dazu entweder Informationen über die absolute Position der Keypoints (So und Baciu, 2005) oder über winkelbasierte Maße zwischen ihnen (Chen et al., 2011). In beiden Fällen sind die erzeugten Embeddings nicht Blickwinkel-invariant: Eine kauernde Figur würde, wenn sie einmal von vorne und einmal von hinten dargestellt wird, nicht auf den gleichen Punkt im Embedding Space abgebildet. Um diesen für das HPR gravierenden Mangel abzuschwächen, adaptieren wir die Pr-VIPE-Architektur von Sun et al. (2020), in der probabilistische Embeddings durch Blickwinkel-augmentierte Keypoints im zweidimensionalen Raum gelernt werden. Der Ansatz zielt darauf ab, dass das Embedding von zweidimensionalen Gesten in einem hochdimensionalen Raum den Abstand zwischen dreidimensionalen Gesten im euklidischen Raum widerspiegelt. Mit anderen Worten: Wenn zwei dreidimensionale Gesten einander ähnlich sind, sollten ihre zweidimensionalen Pendants im Embedding Space nahe beieinander liegen. Die Ähnlichkeit dreidimensionaler Gesten beruht auf ihrer visuellen Ähnlichkeit unter Berücksichtigung der menschlichen Wahrnehmung; zwei Gesten können mathematisch unterschiedlich sein, aber je nach Betrachtungswinkel visuell ähnlich erscheinen.

Jedes Embedding wird anschließend klassifiziert. Da bislang kein Datensatz vorliegt, der kunsthistorisch bedeutsame Gesten benennt und illustriert, konstruieren wir eine Taxonomie auf Basis von Iconclass (van de Waal, 1973–1985). Sie besteht aus vier Notationsgruppen: „postures of the human figure“ ( 31A23), „postures and gestures of arms and hands“ ( 31A25), „postures of the legs“ ( 31A26) und „movements of the human body“ ( 31A27). Notationen unter 31A23 und 31A27 dienen der Klassifizierung des Ganzkörperskeletts, 31A25 des Ober- und 31A26 des Unterkörpers. Die Notationen für den Oberkörper ( 31A25) und den Unterkörper ( 31A26) sind mit 22 bzw. 19 annähernd gleich häufig. Bei den Ganzkörpernotationen gibt es jedoch eine Diskrepanz: Notation 31A23 hat 19 und Notation 31A27 nur 8 verwendbare Unternotationen, sodass sich insgesamt 27 Unternotationen ergeben. Unser Vorgehen orientiert sich am Prinzip des One-shot-Lernens (OSL): Für die insgesamt 69 Subnotationen identifizieren wir jeweils ein repräsentatives Bildbeispiel einer Figur in Wikidata,4  erstellen ihre Ground-Truth-Annotation und generieren ihr Embedding. D. h. anstatt wie in typischen OSL-Ansätzen einen One-Shot-Klassifikator separat zu trainieren (u. a. Jadon et al., 2020), nutzen wir die Pr-VIPE-Embeddings nach und berechnen die Abstände zwischen den Embeddings. Diese Support-Menge S wird verwendet zur Typisierung der Konfigurationen; die Kosinusdistanz d misst den Abstand zwischen dem jeweiligen Query-Embedding und den Embeddings der Support-Menge. Dies ermöglicht eine feingranulare Erschließung der Gestik oder Positur, auch wenn Teile einzelner Konfigurationen nur unzureichend geschätzt werden konnten. Gleichzeitig wird keine feste, semantisch zweifelhafte Kategorisierung in Gruppen vorgegeben, wie dies bei agglomerativen Clusterverfahren der Fall ist (Impett und Süsstrunk, 2016).

Daten

Wir extrahieren 644.155 kunsthistorische Objekte durch Abfragen des Wikidata-SPARQL-Endpunkts.5  Um Query Timeouts zu vermeiden, gehen wir iterativ vor: Zuerst werden 171 ‚Klassenentitäten‘ extrahiert, die direkte Unterklassen der Knoten „visual artwork“ ( wdt: Q4502142 ) oder „artwork series“ ( wdt:Q15709879) sind. Für jede Klassenentität werden dann ‚Objektentitäten‘ abgefragt, denen eine zweidimensionale Reproduktion ( wdt:P18) zugeordnet ist und die entweder Instanzen dieser Klassenentität oder Unterklassen davon sind. Zwar ist nicht auszuschließen, dass auch Wikidata mehrere Knoten für dasselbe Objekt führt und somit mehr als eine Reproduktion nach demselben Original zurückliefert. Unseres Erachtens ist der Anteil jedoch geringer als bei Aggregatdatenbanken wie Prometheus.6 

Evaluation

Mangels eines annotierten Testdatensatzes ist die Evaluation des HPR im Gegensatz zur HPE rein qualitativer Natur. Um dennoch eine möglichst verlässliche Aussage über die Güte des verwendeten Ansatzes treffen zu können, untersuchen wir den erzeugten Embedding Space auf Aggregat- und Individualebene. Die 644.155 Objekte aus Wikidata durchlaufen die gesamte Pipeline von HPE und HPR; 385.481 werden mit 2.355.592 Figuren als potenziell relevant erkannt.

Aggregatebene

Placeholder
Abb. 4: Im dimensionsreduzierten Embedding Space fallen zwei marginal abgetrennte Gruppen auf, die insbesondere Konfigurationen des Ober- und Unterkörpers referenzieren.

Die Auswertung des Embedding Space erfolgt durch eine Reduktion der 320 Dimensionen des Ganzkörperskeletts auf zwei. Gängige Methoden zur Dimensionsreduktion wie t-SNE (van der Maaten und Hinton, 2008) oder UMAP (McInnes et al., 2018) fokussieren entweder auf die Erhaltung lokaler oder globaler Strukturen, so dass häufig falsche Cluster projiziert werden, die im hochdimensionalen Raum nicht existieren. Wir verwenden daher Pairwise Controlled Manifold Approximation Projection ( PaCMAP; Wang, Huang et al., 2021). Abb. 4 zeigt den so reduzierten Embedding Space, den wir auf Basis von PixPlot auch interaktiv explorierbar machen.7  Es sind zwei annähernd clusterartige Strukturen erkennbar, die vor allem Konfigurationen des Ober- und Unterkörpers entsprechen, und damit spezifischeren Arm- und Beinhaltungen, die mit Hilfe der Iconclass-annotierten Support-Menge typisiert werden konnten. Deutlich wird jedoch, dass es sich bei der Typisierung lediglich um eine Hilfskonstruktion handelt, die die Interaktion im Embedding Space erleichtern und mögliche Clusterbildungen schneller identifizieren soll. Insbesondere Haltungen mit stärker gebeugten Gliedmaßen – hockende, kauernde oder sitzende Figuren – bilden eine dritte Gruppe, die semantisch mehrdeutig zu erfassen ist. Falsche Schätzungen des Ganzkörperskeletts finden sich am häufigsten in den schwach besetzten Zwischenräumen, die zur Mitte konvergieren.

Individualebene

Placeholder
Abb. 5: Retrieval-Ergebnisse für die links abgebildete Figur aus James Tissots Le Coup de Lance (1886–1894) mit den jeweils geschätzten Keypoints in grün.

Für das HPR einzelner Gesten oder Posituren wird eine Indexstruktur erstellt, in die die 320-dimensionalen Embeddings der Figuren geladen werden. Wir verwenden mit Hierarchical Navigable Small World ( HNSW; Malkov und Yashunin, 2020) einen Approximate-k-Nearest-Neighbor-Ansatz mit polylogarithmischer Komplexität, der andere graphbasierte Ansätze wie Faiss (Johnson et al., 2021) in Precision und Recall übertrifft (Aumueller et al., 2023). Als Beispiel- Query filtern wir eine Figur aus James Tissots Le Coup de Lance (1886–1894): den gekreuzigten Schächer zur Rechten Christi. In Abb. 5 ist eine Auswahl von Retrieval-Ergebnissen mit geringer Distanz zur Query dargestellt. Es dominieren naturgemäß vor allem Figuren aus Kreuzigungsgruppen, wenn auch meist mit Oberkörper-Konfigurationen in klassischer T- oder leichter Y-Form. Die angewinkelten Arme des Schächers werden in Pietà-Darstellungen aufgegriffen, z. B. in der Kopie nach Marcello Venusti (erste Zeile, fünftes Bild von links). Eine interessante Fehlschätzung findet sich in Jacques Louis Davids Napoleon am Großen St. Bernhard (1801; dritte Zeile, drittes Bild von links): Der vordere Teil des aufgerichteten Pferdes wird in der HPE fälschlicherweise als Figur mit nach hinten gestreckten Armen und angewinkelten Beinen erkannt – eine Konfiguration, die im HPR große Ähnlichkeit mit der des Schächers hat.

Fazit und Ausblick

Obwohl das HPR nur qualitativ auf der Aggregatebene durchgeführt werden konnte – oder auf der Individualebene exemplarisch am Beispiel des gekreuzigten Schächers in Tissots Le Coup – wird deutlich, dass der Ansatz in Kombination mit einer semi-überwachten HPE eine vielversprechende Basis schafft für die quantitativ-fundierte Exploration von Gestentypen in der bildenden Kunst: Das menschliche Skelett wird durch ein Blickwinkel-invariantes 320-dimensionales Embedding ganzheitlich erfasst. Indem neben dem Ganzkörperskelett auch Ober- und Unterkörper separat abgelegt werden, lassen sich Gestik oder Positur feingranular erschließen und typisieren, auch wenn einzelne Konfigurationen nur unzureichend geschätzt werden.

Es ist geplant, die Pipeline anhand von zwei disparaten Anwendungsfällen kunsthistorisch näher zu evaluieren: der kompositionell restriktiven Ikonographie des Sündenfalls und der zeitlich dynamischer variierenden Kreuzabnahme Christi. Beide lassen sich auf dominante Gestentypen oder zeitabhängige Phänomene hin untersuchen, wie sie für den Manierismus durch die Überstreckung der Gliedmaßen charakteristisch sind. Intra- und interikonografisch wiederkehrende Motive, deren teils radikal veränderte Semantik befremdet, sind in diesem Zusammenhang zu diskutieren.

Danksagung

Diese Arbeit wurde teilweise von der Deutschen Forschungsgemeinschaft (DFG) unter der Projektnummer 415796915 gefördert.


Fußnoten

1 https://www.duden.de/node/113566/revision/1343578, wie alle URLs zugegriffen: 9. November 2023
2 https://www.duden.de/node/57136/revision/1454368.
3 Die Auswertung erfolgt auf dem vollständig mit Bounding Boxes annotierten PoPArt-Datensatz, im Gegensatz zu Springstein et al. (2022).
4 https://www.wikidata.org.
5 https://query.wikidata.org/bigdata/namespace/wdq/sparql.
6 https://prometheus-bildarchiv.de/de.
7 https://github.com/YaleDHLab/pix-plot.

Bibliographie

  • Aumueller, Martin, Erik Bernhardsson und Alec Faitfull. 2023. ANN Benchmarks. https://ann-benchmarks.com (zugegriffen: 19. Juli 2023).
  • Barasch, Moshe. 1987. Giotto and the Language of Gesture. Cambridge: Cambridge University Press.
  • Bulwer, John. 1644. Chirologia. Or the Naturall Language of the Hand. London: Thomas Harper.
  • Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov und Sergey Zagoruyko. 2020. „End-to-end Object Detection with Transformers.“ In Computer Vision – ECCV 2020. Lecture Notes in Computer Science 12346: 213–229 10.1007/978-3-030-58452-8_13.
  • Chen, Cheng, Yueting Zhuang, Feiping Nie, Yi Yang, Fei Wu und Jun Xiao. 2011. „Learning a 3D Human Pose Distance Metric from Geometric Pose Descriptor.“ IEEE Transactions on Visualization and Computer Graphics 17.11: 1676–1689 10.1109/TVCG.2010.272.
  • Chen, Haibo, Lei Zhao, Zhizhong Wang, Zhang Hui Ming, Zhiwen Zuo, Ailin Li, Wei Xing und Dongming Lu. 2021. „Artistic Style Transfer with Internal-external Learning and Contrastive Learning.“ In 35th Conference on Neural Information Processing Systems. https://proceedings.neurips.cc/paper/2021/file/df5354693177e83e8ba089e94b7b6b55-Paper.pdf (zugegriffen: 19. Juli 2023).
  • Demisch, Heinz. 1984. Erhobene Hände. Geschichte einer Gebärde in der bildenden Kunst. Stuttgart: Urachhaus.
  • Gonthier, Nicolas, Saïd Ladjal und Yann Gousseau. 2022. „Multiple Instance Learning on Deep Features for Weakly Supervised Object Detection with Extreme Domain Shifts.“ Computer Vision and Image Understanding 214 10.1016/j.cviu.2021.103299.
  • Impett, Leonardo und Sabine Süsstrunk. 2016. „Pose and Pathosformel in Aby Warburg’s Bilderatlas.“ In Computer Vision – ECCV 2016 Workshops. Lecture Notes in Computer Science 9913: 888–902 10.1007/978-3-319-46604-0_61.
  • Jadon, Shruti und Aryan Jadon. 2020. An Overview of Deep Learning Architectures in Few-shot Learning Domain. arXiv:1412.6980.
  • Johnson, Jeff, Matthijs Douze und Herve Jegou. 2021. „Billion-scale Similarity Search with GPUs.“ IEEE Transactions of Big Data 7: 535–547 10.1109/TBDATA.2019.2921572.
  • Kadish, David, Sebastian Risi und Anders Sundnes Løvlie. 2021. „Improving Object Detection in Art Images Using Only Style Transfer.“ In International Joint Conference on Neural Networks. IJCNN 2021, 1–8 10.1109/IJCNN52387.2021.9534264.
  • Knowlson, James R. 1965. „The Idea of Gesture as a Universal Language in the XVIIth and XVIIIth Centuries.“ Journal of the History of Ideas 26: 495–508.
  • Li, Ke, Shijie Wang, Xiang Zhang, Yifan Xu, Weijian Xu und Zhuowen Tu. 2021. „Pose Recognition with Cascade Transformers.“ In IEEE Conference on Computer Vision and Pattern Recognition. CVPR 2021, 1944–1953.
  • Lin, Tsung-Yi, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár und C. Lawrence Zitnick. 2014. „Microsoft COCO. Common Objects in Context.“ In Computer Vision – ECCV 2014. Lecture Notes in Computer Science 8693: 740–755 10.1007/978-3-319-10602-1_48.
  • van der Maaten, Laurens und Geoffrey Hinton. 2008. „Visualizing Data Using t-SNE.“ Journal of Machine Learning Research 9: 2579–2605. https://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf (zugegriffen: 19. Juli 2023).
  • Madhu, Prathmesh, Angel Villar-Corrales, Ronak Kosti, Torsten Bendschus, Corinna Reinhardt, Peter Bell, Andreas K. Maier und Vincent Christlein. 2023. „Enhancing Human Pose Estimation in Ancient Vase Paintings via Perceptually-grounded Style Transfer Learning.“ ACM Journal on Computing and Cultural Heritage 16.1: 1–17 10.1145/3569089.
  • Malkov, Yu A. und D. A. Yushunin. 2020. „Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs.“ IEEE Transactions on Pattern Analysis and Machine Intelligence 42.4: 824–836 10.1109/TPAMI.2018.2889473.
  • Mao, Hui, Ming Cheung und James She. 2017. „DeepArt. Learning Joint Representations of Visual Arts.“ In MM ’17. The 25th ACM International Conference on Multimedia, 1183–1191 10.1145/3123266.3123405.
  • McInnes, Leland, John Healy, Nathaniel Saul und Lukas Großberger. 2018. „UMAP. Uniform Manifold Approximation and Projection.“ Journal of Open Source Software 3.29 10.21105/joss.00861.
  • Mulder, Axel. 1996. Hand Gestures for HCI. Vancouver: Simon Fraser University.
  • Schneider, Stefanie und Ricarda Vollmer. 2023. Poses of People in Art. A Data Set for Human Pose Estimation in Digital Art History. arXiv:2301.05124.
  • So, Clifford Kwok-Fung und George Baciu. 2005. „Entropy-based Motion Extraction for Motion Capture Animation.“ Computer Animation and Virtual Worlds 16.3–4: 225–235 10.1002/cav.107.
  • Springstein, Matthias, Stefanie Schneider, Christian Althaus und Ralph Ewerth. 2022. „Semi-supervised Human Pose Estimation in Art-historical Images.“ In MM ’22. The 30th ACM International Conference on Multimedia, 1107–1116 10.1145/3503161.3548371.
  • Sun, Jennifer J., Jiaping Zhao, Liang-Chieh Chen, Florian Schroff, Hartwig Adam und Ting Liu. 2020. „View-invariant Probabilistic Embedding for Human Pose.“ In Computer Vision – ECCV 2020. Lecture Notes in Computer Science 12350: 53–70 10.1007/978-3-030-58558-7_4.
  • Tarvainen, Antti und Harri Valpola. 2017. „Mean Teachers are Better Role Models. Weight-averaged Consistency Targets Improve Semi-supervised Deep Learning Results.“ In 5th International Conference on Learning Representations. ICLR 2017.
  • Tikkanen, Johan Jakob. 1912. Die Beinstellungen in der Kunstgeschichte. Ein Beitrag zur Geschichte der künstlerischen Motive. Helsingfors: Druckerei der finnischen Litteraturgesellschaft.
  • van de Waal, Henri. 1973–1985. Iconclass. An Iconographic Classification System. Completed and Edited by L. D. Couprie with R. H. Fuchs. Amsterdam: North-Holland Publishing Company.
  • Wang, Jingdong, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, Wenyu Liu und Bin Xiao. 2021. „Deep High-resolution Representation Learning for Visual Recognition.“ IEEE Transactions on Pattern Analysis and Machine Intelligence 43.10: 3349–3364 10.1109/TPAMI.2020.2983686.
  • Wang, Yingfan, Haiyang Huang, Cynthia Rudin und Yaron Shaposhnik. 2021. „Understanding How Dimension Reduction Tools Work. An Empirical Approach to Deciphering t-SNE, UMAP, TriMAP, and PaCMAP for Data Visualization.“ Journal of Machine Learning Research 22.201: 1–73. https://jmlr.org/papers/v22/20-1061.html (zugegriffen: 19. Juli 2023).
  • Warburg, Aby. 1998 [1905]. „Dürer und die italienische Antike.“ In Die Erneuerung der heidnischen Antike. Kulturwissenschaftliche Beiträge zur Geschichte der europäischen Renaissance. Gesammelte Schriften, hg. von Horst Bredekamp und Michael Diers, 443–449. Berlin: Akademie Verlag.
  • Westlake, Nicholas, Hongping Cai und Peter Hall. 2016. „Detecting People in Artwork with CNNs.“ In Computer Vision – ECCV 2016 Workshops. Lecture Notes in Computer Science 9913: 825–841 10.1007/978-3-319-46604-0_57.
  • Xu, Mengde, Zheng Zhang, Han Hu, Jianfeng Wang, Lijuan Wang, Fangyun Wei, Xiang Bai und Zicheng Liu. 2021. „End-to-end Semi-supervised Object Detection with Soft Teacher.“ In IEEE/CVF International Conference on Computer Vision. ICCV 2021, 3040–3049 10.1109/ICCV48922.2021.00305.