Hinweis zu Affiliate-Links: Alle Produkte werden von der Redaktion unabhängig ausgewählt. Im Falle eines Kaufs des Produkts nach Klick auf den Link erhalten wir ggf. eine Provision.

Diese Website verwandelt eure Worte in Albtraumbilder

von Michael Förtsch
Aus Worten werden Albträume. Das gilt nicht nur für die Romane von Stephen King, sondern auch eine Künstliche Intelligenz, die geschriebene Sätze in Bilder verwandeln soll. Denn deren Werke gleichen vielfach bizarren Horrorszenerien.

In den vergangenen Jahren sind Künstliche Intelligenzen bereits erstaunlich gut darin geworden, die Inhalte von Bildern zu dechiffrieren. Sie können Gesichter ausmachen, Katzen von Hunden unterscheiden und bei Gemälden feststellen, welcher Künstler sie wohl gezeichnet hat. Aber ebenso können Künstliche Intelligenzen bereits Fotos in Gemälde transformieren, in Gruselbilder verwandeln oder basierend auf Vorbildern bizarre Aktgemälde generieren. Der Entwickler Cristóbal Valenzuela hat nun aber auch eine Künstliche Intelligenz als einen Webdienst gestartet, die das malt, was Menschen ihr vorgeben.

Die schlichte WebApp basiert auf dem AttnGAN – Attentional Generative Adversarial Network – genannten Machine-Learning-Algorithmus, der ursprünglich von Forschern des Deep Learning Technology Center von Microsoft geschaffen worden war. Sie soll helfen, die Texteingaben von Nutzern zu visualisieren. Dafür analysiere sie nicht nur einzelne Worte, sondern ermittle auch, in welcher Beziehung sie womöglich zueinander stehen, um eine Art Gesamtaussage festzustellen. Trainiert worden war die KI zudem mit zahlreichen Bildern samt Beschreibungstexten aus dem Coco-Datenset, „die es ihr erlauben, visuellen Repräsentationen zu den Worten zu finden.“

Tippt ein Nutzer also einen Satz, soll die AttnGAN ein Bild generieren, das darstellt, was eingetippt worden war. Allerdings: Sonderlich gut macht sie das nicht, wie die Web-Implementierung von Cristóbal Valenzuela zeigt. Aber genau das macht sie auch so faszinierend. Die Beschreibung „a empty room“ bringt etwa noch ein Bild hervor, das tatsächlich einen Raum mit einem großen Fenster erahnen lässt. Der Satz „A man eating a banana“ erzeugt hingegen ein einen unförmigen Körper auf dem ein Kopf mit mehreren Augen und Mündern zu sitzen scheint.

Auch andere Eingaben wie „two kids playing baseball“ oder „a kid and his dog are playing with a ball“ führen zu surrealen und stellenweise geradezu erschreckend bizarren Fell- und Fleischklumpen, die mit verzerrten Armen, Beinen und Gesichtszügen bestückt sind. Allerdings sollen diese Ergebnisse, wie Tao Xu, einer der Entwickler von AttnGAN, gegenüber Gizmodo äußerte, deutlich über dem liegen, was vorherige Künstliche Intelligenzen abliefern konnten. Das große Problem derartiger Systeme sei aber weiterhin, dass „sie die visuelle Welt nicht verstehen.“ Sie könnten einem Hund beispielsweise gewisse Muster und Formen zuordnen aber wissen nicht, was ein Hund ist und wie ein prototypischer Hund auszuschauen hat.

GQ Empfiehlt