Tübinger Doktoranden erklären, wie man ein neuronales Netzwerk zum Malen bringt

Das Netz verwandelt normale Fotos in Gemälde im Stil von van Gogh, Kandinsky und Picasso. Wie funktioniert das? Ensteht daraus eine ganz neue computergenerierte Ästhetik? Und wer braucht dann eigentlich noch Menschen, die malen? Wir haben mal nachgefragt.

WIRED: Neuronale Netzwerke sind kompliziert. Angenommen, van Gogh wäre gerade aus einer Zeitkapsel gestiegen und hätte von nichts eine Ahnung. Wie würden Sie ihm erklären, wie Ihr Netzwerk funktioniert?
Leon Gatys: Im Gegensatz zu uns Menschen fällt es Computern sehr schwer zu dekodieren, was für Objekte auf einem Bild zu sehen sind. Wir nutzen daher ein neuronales Netzwerk, das die Information aus dem Bild so transformiert, dass es dessen Inhalt auslesen kann. Ein neuronales Netzwerk besteht aus vielen kleinen Einheiten, die jeweils sehr einfache Berechnungen vornehmen. Dadurch, dass man diese ganzen kleinen Einheiten — die Neuronen — hierarchisch anordnet und in vielen Lagen übereinander stapelt, entsteht aus all den kleinen Berechnungen in der Summe eine extrem komplexe Rechenoperation. Die Pixelwerte werden dafür einzeln ausgelesen und summiert und diese Werte aktivieren dann die nächste Lage Neuronen, die dasselbe machen. Man muss sich das vorstellen wie sehr viele Bildfilter übereinander, die das Bild bearbeiten und immer weiter herunterrechnen. Am Ende werden aus einem Foto in einer Auflösung von 256x256 Pixeln 512 gefilterte Bilder in einer Auflösung von 8x8. Aus denen kann man dann die Information über die abgebildeten Objekte auslesen.

Das Ausgangsfoto: Die WIRED-Redaktion in der Berliner Linienstraße
© Lars Gaede

WIRED: Damit hat das neuronale Netz die Information darüber, was inhaltlich auf dem Originalfoto zu sehen ist. Aber wie verwandelt es das Foto dann im Stil eines Gemäldes?
Gatys: Das Netzwerk merkt sich die Information über das Foto, dann füttern wir es mit der Abbildung des Gemäldes, das als Vorbild dient. Wir haben dann also einen Satz gefilterter Fotos und einen Satz gefilterter Bilder von dem Gemälde. Im nächsten Schritt machen wir eine Berechnung, bei der die räumliche Information über das Gemälde weggeworfen wird. Wir haben dann also die reine Texturinformation aus dem Gemälde – quasi den Stil – und die Inhaltsinformation aus dem Foto extrahiert und separiert. Diese können wir dann neu kombinieren und zusammensetzen. Wir können also ein Bild bauen, das die Inhaltsinformation des Fotos hat und gleichzeitig die Texturinformation von einem Gemälde. So entsteht das neue Bild.

Das Foto im Stile von Vincent van Goghs "Sternennacht"

WIRED: Was dabei auch entsteht, ist eine völlig neue computergenerierte Bild-Ästhetik.
Gatys: Ja. Das wirklich Neue ist, dass wir jetzt neuronale Netzwerke haben, die das Mapping von Pixeln zu Objekten gelernt haben. Wir können also künstliche visuelle Systeme bauen, die in ihrer Fähigkeit zur Bildverarbeitung unserem biologischen visuellen System schon sehr nahe kommen. Und genau weil sie so ähnlich sind, können sie auch solche Bild-Strukturen erzeugen, die in unserer menschlichen Wahrnehmung interessant oder ästhetisch sind — sie ergeben für unser Hirn einfach Sinn.

WIRED: War das das Ziel der Studie? Das zu beweisen?
Gatys: Wir wollten verstehen lernen, wie hochleistungsfähige visuelle Systeme Information verarbeiten. Uns Menschen fällt das Separieren von Inhalt und Stil total leicht. Es war aber bisher überhaupt nicht klar, wie das funktioniert. Wir haben jetzt in einem ersten Schritt gezeigt, wie so eine Berechnung prinzipiell in einem künstlichen neuronalen Netz möglich ist. Damit kann man jetzt neurowissenschaftliche Annahmen testen, Ideen entwickeln, Experimente durchführen. Aber das Ganze ist natürlich auch einfach für die Bildbearbeitung ein neues, spannendes Instrument. Nachdem wir unsere Arbeit veröffentlicht haben, wurde sie recht schnell auch von Künstlern aufgegriffen — wie zum Beispiel von Kyle McDonald, der damit tolle GIFs gemacht hat. Grundsätzlich glauben wir, dass diese Art der Bildbearbeitung langfristig viel Potential bietet und wir bisher nur einen kleinen Teil möglicher Anwendungen gesehen haben.

Das WIRED-Büro im Look von Vassily Kandinskys „Composition 7“

WIRED: Wenn die neuronalen Netze schon so gut abbilden können, was unsere Hirne schön oder interessant finden, kann man sie dann nicht gleich einfach selbst malen lassen? Der Computer als Künstler?
Gatys: Das ist eine schwierige Frage. Können Computer Bilder generieren, die in uns etwas auslösen und die wir ästhetisch finden? Ja, absolut! Ob das dann aber Kunst ist oder einfach schöne Bilder oder was genau der Unterschied ist, möchte ich nicht beurteilen.

William Turners „The shipwreck of the Minotaur“ macht die Linienstraße zu einem Ölgemälde.

WIRED: Man könnte zumindest die These vertreten: Wenn ein Rechner schon so gut malen kann wie van Gogh, ist es mit dem menschlichen Kunsthandwerk vorbei. Es ist entzaubert.
Gatys: Vielleicht werden traditionelle Handwerke durch die Digitalisierung der Kunst im Kunstbetrieb tatsächlich unwichtiger. Andererseits sind diese neuronalen Netzwerke eben auch nur ein neues Werkzeug, um das sich dann wieder neue handwerkliche Fähigkeiten entwickeln können. Nämlich wie man diese Netzwerke designt, wie man sie trainiert und einsetzt. Diese Netzwerke haben ja kein Bewusstsein, die machen Berechnungen, verarbeiten Information. Wie sie das machen, liegt zumindest momentan noch in der Hand der Menschen, die sie nutzen und gestalten.

Das Originalfoto gemischt mit Pablo Picassos „Figure dans un Fauteuil“

WIRED: Viele Menschen hätten sicher große Lust, ihre Urlaubsfotos in einen van Gogh oder einen Kandinsky zu verwandeln? War denn schon jemand von Instagram oder Flickr bei Ihnen in Tübingen und hat eine Schubkarre voll Geld vorbeigebracht?
Gatys: Wir sind stark daran interessiert, die Technik zu einem Produkt weiterzuentwickeln. Und wir haben auch tatsächlich schon mit Firmen darüber geredet. Allerdings gibt es noch einige technische Hürden zu bewältigen, bevor die Technik einem großen Markt zugänglich gemacht werden kann.

WIRED: Wie lang braucht ein Computer für die Verwandlung eines Bildes?
Gatys: Ein Rechner mit einer wirklich guten Grafikkarte rechnet derzeit bis zu einer Stunde an einem Bild mit einer relativ geringen Auflösung. Auf einem ganz normalen Rechner zu Hause dauert es noch viel länger und auf dem Handy ist es derzeit noch gar nicht möglich. Aber wir halten diese Probleme für grundsätzlich lösbar und arbeiten daran, unseren Algorithmus schneller und besser zu machen. Außerdem muss man bedenken, dass die neuronalen Netzwerke im Moment ein totaler Hype sind. Es gibt in der Industrie ein großes Interesse daran, diese Netzwerke schneller, kleiner und effizienter zu machen. Da sind in absehbarer Zeit große Fortschritte zu erwarten. Wir sind optimistisch, unser Modell bald vielen Menschen zugänglich machen zu können.

Teilen