Microsofts Künstliche Intelligenzen schreiben jetzt Bildergeschichten

Wer eine deutsche Grundschule besucht hat, kennt mit größter Wahrscheinlichkeit etliche Vater-und-Sohn-Bildergeschichten. Deutschlehrer warfen sie mit dem Overhead-Projektor an die Wand oder verteilten sie als Matritzendruck, damit die Schüler die Comicstrips mal mehr, mal weniger originell, in eigene Worte fassen konnten. Doch was bisher Menschen vorbehalten war –Zusammenhänge zwischen mehreren Bildern zu erkennen und diese dann zu erläutern – sollen jetzt auch Künstliche Intelligenzen (KI) meistern. Das belegt eine Studie von Microsoft.

„Bei der Bilderkennung geht es darum, konkrete Objekte zu erkennen und diese wortwörtlich zu beschreiben“, erläutert die Leiterin des Forschungsprojekts Margaret Mitchell. Visual Storytelling hingegen sei viel komplexer. Es erfordere die Fähigkeit, Objekte auf einem Foto zu interpretieren: „Es geht darum, konzeptionelle und abstrakte Ideen aus den Objekten abzuleiten.“

+++ Mehr von WIRED regelmäßig ins Postfach? Hier für den Newsletter anmelden +++

Mitchell erklärt weiter, eine einfache Bilderkennungssoftware beschreibe ein Bild so: „Eine Gruppe von Menschen, die tanzen.“ Ein Visual-Storytelling-System hingegen deute es so: „Wir hatten sehr viel Spaß beim Tanzen.“ Die Computerlinguistin, die Teil der Microsoft NLP-Research-Group ist, erläutert weiter, dass herkömmliche Systeme das Bild einer untergehenden Sonne mit „Dieses Bild zeigt einen Sonnenuntergang“ beschreiben könnten, während das Visual Storytelling eher zu „Der Abendhimmel ist brilliant beleuchtet“ tendiere.

Hier sieht man den Unterschied zwischen Bilderkennungssoftware (DII), die den Bildinhalt ganz deskriptiv zusammenfasst, und dem interpretierenden Visual-Storytelling-System (SIS).
© Alle Bilder: Screenshot Microsoft/NLP-Group

Das Visual-Storytelling-System, das in dem aktuellen Forschungsprojekt erläutert wird, soll aber nicht nur ein singuläres Bild beschreiben, sondern zusammenhängend mehrere in Folge. Um dies zu erzielen, mussten die Wissenschaftler einen Datensatz schaffen, mit dem sie ihre Künstliche Intelligenz füttern konnten, den SIND (Sequential Image Narrative Dataset). Dieser besteht aus 81,743 Einzelaufnahmen in 20,211 Sequenzen plus Text.

Denn dafür schrieben Menschen Bildunterschriften deskriptiver und literarischer Art, sowohl zu den singulären Bildern, als auch zu den Serien. Basierend auf diesen Informationen, brachten Ingenieure den Maschinen bei, ganze Geschichten über die Einzelsequenzen zu erzählen. Ein Ansatz, der auf Deep Learning basiert, einer Methode, die Maschinen das Denken lehrt.

Diese Tabelle zeigt, wie unterschiedlich die Bilderkennung arbeitet. SIS steht für das von Microsoft neu entwickelte System, das ganze Bildergeschichten erzählen kann.

Um das Visual-Storytelling-System zu generieren, verwendeten die Wissenschaftler künstliche neuronale Netzwerke, so kreierten sie ein so genanntes „Sequenz zu Sequenz“-System aus dem Bereich des maschinellen Lernens. Ähnliches nutzen automatisierte Übersetzungen. Anstatt einen Satz vom etwa Englischen ins Deutsche zu übertragen, brachten die Wissenschaftler ihrem System bei, das Bild in einen Satz zu übersetzen. Die Erkenntnisse dieser Studie könnten sehbehinderten und blinden Menschen zugute kommen.

Die Studie soll im Juni bei dem jährlichen Treffen des North American Chapter of the Association for Computational Linguistics vorgestellt werden.

Teilen