Es gibt nur noch einen Gegner für Googles KI AlphaGo

„Die auffälligste Änderung für mich ist, dass wir keine Daten mehr eingeben müssen“, sagt Demis Hassabis, CEO und Mitbegründer von DeepMind, das AlphaGo entwickelt hat und zu Google gehört. Während die erste Version von AlphaGo mit Daten aus Spielen menschlicher Spieler trainiert wurde, kann AlphaGo Zero – so heißt die neue Version – mit einem leeren Spielbrett lernen. DeepMind hat nicht nur die Dateneingabe durch den Menschen unnötig werden lassen, sondern Zero lernt auch schneller als sein Vorgänger.

David Silver ist der Hauptentwickler des Go-Projekts von DeepMind. Er sagt, dass die ursprüngliche AlphaGo-Version, die den 18-fachen Go-Weltmeister Lee Sedol mit 4:1 besiegte, mehrere Monate lang trainiert werden musste.

„Mit AlphaGo Zero haben wir nach nur 72 Stunden Training eine überragende Leistung erreicht“, sagt Silver. Nur 4,9 Millionen simulierte Spiele waren für das Training von Zero nötig, verglichen mit den 30 Millionen Einheiten der ersten AlphaGo-Version. Nach nur drei Tagen konnte Zero die Version, die Lee Sedol besiegt hatte, mit einem Ergebnis von 100:0 schlagen. Und nachdem es das Spiel 40 Tage immer wieder gespielt hatte, besiegte Zero schließlich DeepMinds bisher stärkste AlphaGo-Version mit dem Namen Master, die im Mai dieses Jahres den chinesischen Go-Meister Ke Jie geschlagen hatte.

Die Ergebnisse der DeepMind-Forscher wurden in der Zeitschrift Nature veröffentlicht und sind ein weiterer wichtiger Schritt auf dem Weg zum Ziel des Unternehmens, eine allgemeine Künstliche Intelligenz zu erschaffen.

Als Reaktion auf die Veröffentlichung sagte der Direktor des KI-Zentrums der University of Michigan der Nature, dass Zero „die ohnehin schon übermenschliche KI AlphaGo“ massiv übertreffe und einer der größten Fortschritte in der KI-Forschung sein könne.

Die beste AlphaGo-Version

Als AlphaGo Zero anfing, Go gegen sich selbst zu spielen, wurden der KI von den Entwicklern nur die Regeln, ein Spielbrett und die zum Spielen benötigten weißen und schwarzen Steine gegeben. Zero wusste nicht, welche Strategien, Züge oder Taktiken erforderlich sind, um zu gewinnen.

Wenn man Zero die Regeln gibt, spielt die KI Spiele gegen sich selbst. Während der Zeit lernt das System die verschiedenen Bewegungen, die es machen kann und die zu einem Sieg führen. Damit DeepMind sein erfolgreiches KI-System weiter verbessern konnte, musste es die von AlphaGo verwendeten Algorithmen neu entwickeln.

Der gesamte Prozess basiert auf einem Lernalgorithmus, der mit einem Suchsystem kombiniert wird. Vereinfacht bedeutet das, dass Zero aus Versuchen und Fehlern lernt und mit seinem Suchsystem jede mögliche Bewegung, die es machen kann, selbst herausfindet.

Als Zero ein Spiel gegen sich selbst spielte, erhielt es Feedback vom System. Ein +1 wurde gegeben, wenn Zero gewann und ein -1 bei einer Niederlage. Nach jedem Spiel konfigurierte sich das neuronale Netzwerk hinter Zero automatisch in eine neue und theoretisch bessere Version. Im Durchschnitt brauchte das System 0,4 Sekunden Zeit zum Nachdenken, bevor es den nächsten Zug machte.

AlphaGo Zero lernt und ergänzt

„In der ersten Version von AlphaGo haben wir genau das auch probiert und es stürzte jedes Mal ab“, sagt Hassabis. Zero benutzt nur noch ein neuronales Netzwerk statt zwei wie beim Vorgänger. Außerdem werden nur vier KI-Prozessoren von Google verwendet, statt der 48 Recheneinheiten, die bei dem Spiel gegen Lee Sedol benötigt wurden. Während der Entwicklung von Zero sei die KI auf Hardware trainiert worden, die das Unternehmen 35 Millionen Dollar gekostet habe, sagt Hassabis. Die Hardware werde allerdings auch für andere Projekte benötigt.

Bei der Entwicklung von Zero konnte das Unternehmen also mit weniger mehr erreichen. Bei internen Tests, die Nature detailliert beschreibt, konnte Zero alle früheren Versionen schlagen: AlphaGo Master, AlphaGo Lee, AlphaGo Fan, Crazy Stone, Pachi, und GruGo. Silver fügt hinzu, dass Zero noch nicht das maximal mögliche Maß an Wissen erreicht habe – aber nur, weil das Team aufgehört habe, an dem Projekt zu arbeiten.

„Es ist möglich, das System auf ein übermenschliches Level zu bringen, ohne dass menschliche Vorbilder oder Regeln benötigt werden“, heißt es in dem Forschungsbericht. Das System lernte die Züge und Taktiken und ergänzt sie durch eigene und effizientere Züge.

Das Übertragen in den Alltag ist eine Herausforderung

Wie beim Sieg von Deep Blue gegen den Schachweltmeister Gary Kasparo im Jahr 1996, so hat auch DeepMinds anhaltender Erfolg bei Go weitreichendere Auswirkungen.

Auch wenn Zero eine fortschrittliche KI ist, kann sie nicht für jedes Problem angewandt werden. „Die Ergebnisse zeigen zwar, dass eine KI, die auf sich allein gestellt ist, bei Lernprozessen besser abschneidet als diejenige, die auf menschlichem Wissen basiert“, sagt Singh. Das System könnte aber zum Beispiel nicht für die Übersetzung von Sprachen verwendet werden.

Für Hassabis und seine Kollegen besteht die Herausforderung deshalb darin, das Gelernte aus dem AlphaGo-Projekt auf andere KI-Probleme anzuwenden. „Wir haben versucht, den Algorithmus so zu gestalten, dass er prinzipiell auch andere Spiele spielen kann, die ähnlich aufgebaut sind, wie zum Beispiel Schach“, sagt Silver.

Dazu gehören auch die Probleme bei der Proteinfaltung, der Wirkstoffforschung, im Materialdesign und der Quantenchemie. Ein Teil der Lösung dieser Probleme liegt in der Fähigkeit, potenzielle Ergebnisse zu simulieren. Das Go-Spiel ist auf eine feste und streng reglementierte Umgebung beschränkt. Es gibt beim Go-Spiel kein Glück oder Zufall, was das Ergebnis beeinflussen könnte. Darum kann es nicht auf Szenarien im Alltag übertragen werden, in denen es ein gewissen Maß an Unvorhersehbarkeiten gibt.

„Ich hoffe, dass diese von unserem Algorithmus und von zukünftigen Versionen von AlphaGo inspirierten Bereiche, wie zum Beispiel Wissenschaft und Medizin, mit uns zusammen daran arbeiten werden, Grenzen zu erweitern“, sagt Hassabis. „Vielleicht werden wir irgendwann neue Arten von Akkus, Materialien und Medikamenten haben, die zum Teil durch solche Algorithmen zusammen mit dem Menschen entwickelt wurden.“

Dieser Artikel erschien zuerst auf WIRED.co.uk.

Teilen