Dieser Algorithmus baut Filme aus Bildern von Google Street View

Über mehr als fünf Millionen Kilometer strecken sich mittlerweile die Straßen und Wege, die Google auf seinem Street-View-Dienst zur Besichtigung anbietet. Wer diese Straßen wirklich erkunden will, sollte trotzdem besser die Koffer packen als vor dem Bildschirm zu bleiben. Einen filmreifen Blick kann der Dienst nämlich nicht bieten — weil er dafür nicht genügend Bilder pro Sekunde liefern kann. Noch nicht.

Wie errät ein Computer die Wirklichkeit?

Google-Wissenschaftler haben jetzt einen Algorithmus vorgestellt, der dieses Problem lösen soll: Deep Stereo kann von selbst fehlende Frames zwischen zwei aufeinanderfolgende Bilder einfügen und so aus einer lückenhaften Bilderabfolge eine flüssige Filmsequenz zaubern. „Unser Modell produziert überzeugende Ergebnisse, die auf Anhieb nur schwer von echten Bildern zu unterscheiden sind“, sagt John Flynn, Software-Entwickler bei Google und Mitverfasser der Studie, gegenüber MIT Technology Review.

Wie aber errät ein Computer die Wirklichkeit? Wie bei allen Algorithmen steckt hinter Deep Stereo wenig Magisches, sondern vor allem viel Zeit zum Lernen mit einer großen Datenmenge. Flynn und seine Kollegen fütterten ihren Algorithmus mit einem riesigen Datensatz aus Bildersequenzen. Der Computer behandelt dabei jedes Bild als eine Zusammenstellung von Pixeln. Seine Lernaufgabe lautete: Bestimme die Tiefe und Farbe jedes einzelnen Bildpunkts im neuen Bild — anhand der Tiefe und Farbe der entsprechenden Pixel in den Bildern, die in der Filmsequenz davor und danach kommen.

Um den Algorithmus zu trainieren, entfernte das Google-Team ein Bild aus einer Sequenz und ließ es Deep Stereo selbst neu produzieren. Danach speicherten sie das künstlich hergestellte Foto zusammen mit dem vorher entfernten Originalbild ab, damit der Algorithmus aus dem Vergleich lernen konnte.

Alle verwendeten Bilder zeigen Straßenszenen und wurden wie bei Street View aus einem fahrenden Auto aufgenommen. Mit Bewegung kommt der Algorithmus also gut zurecht: „Die von Deep Stereo generierten Bilder wirken leicht verschwommen — so wie es bei Bewegungen meist der Fall ist“, schreiben die Forscher. Der Algorithmus könne aber auch komplexere Inhalte wie Bäume oder Gras erfolgreich reproduzieren und aus einer anderen Perspektive zeigen.

Um diese Inhalte zu sehen, akzeptieren Sie bitte unsere Cookies.

Cookies verwalten

Allerdings ist die Erfindung noch weit von Perfektion entfernt. In einem Video gewähren Flynn und seine Leute eine Kostprobe. Das von Deep Stereo erstellte Filmchen zeigt einen Gang durch das französische Schloss Fontainebleau. Die leichten Wackler darin erzeugen beim Betrachter schnell ein Schwindelgefühl. In der Studie berichten die Forscher auch von weiteren Problemen: So stolpere der Algorithmus vor allem über Lichtreflektionen. Außerdem hadern sie mit einem „leichten Verlust bei der Auflösung und dem Verschwinden von schmalen Strukturen im Vordergrund“.

Dennoch erwartet sich das Google-Team viel von dem Algorithmus. Wie MIT Technology Review berichtet, könne eine optimierte Version auch für Kino, Animationen und Virtual Reality interessant werden.

Ein anderer aufsehenerregender Google-Algorithmus ist Deep Dream. Er verwandelt Fotos und Filme in psychedelische Traumbilder — und könnte eine wahre Revolution in der Bilderkennung und Künstlichen Intelligenz einläuten.

Software

Teilen