So trainierten die Google-Forscher ihre KI fürs Go-Spielen

Nachdem Schach bereits in den 90ern von IBMs Deep Blue gemeistert wurde, war das chinesische Brettspiel Go bis vergangene Nacht die größte Herausforderung der KI-Forschung. Doch dann schlug die Künstliche Intelligenz AlphaGo von der Google-Tochter DeepMind den besten Go-Spieler der Welt: den Südkoreaner Lee Sedol. Den Forschern von DeepMind war ein Durchbruch gelungen. Das jahrelange Training ihres neuronalen Netzwerks hatte sich ausgezahlt, es war so gut geworden, dass es sogar ein solch komplexes Spiel wie Go auf Weltklasse-Niveau spielen konnte.

Trotz seiner simplen Grundregeln gibt es bei Go weitaus mehr mögliche Zugvarianten als bei Schach. Die 19 mal 19 einander kreuzenden Linien auf dem Brett bilden insgesamt 361 Schnittpunkte, auf die die Spielsteine gesetzt werden können. Statt wie beim Schach die Figuren übers Brett zu ziehen, werden die Steine bei Go nach dem Platzieren allerdings nicht mehr bewegt. Die Spieler versuchen vielmehr durch geschicktes Legen der Steine, die Figuren ihres Gegners einzuschließen. Gelingt das, gelten die Glasperlen des Gegners als gefangengenommen. Das Spiel soll so den Kampf zweier Generäle um Gebiete eines Schlachtfelds symbolisieren. Am Ende gewinnt derjenige, der die meisten Steine gefangen und gleichzeitig ein möglichst großes Gebiet auf dem Spielfeld besetzt hat.

Alles fing mit alten Atari-Spielen an.

Um solch ein komplexes System zu verstehen, reicht kein simpler Algorithmus. Als Vorbild für ihren Computer AlphaGo zogen die Forscher von DeepMind deshalb das menschliche Gehirn heran. Mit seinen Synapsen und Nervenzellen, die Erfahrungen speichern und durch Wiederholung wachsen. Das komplexe Systeme lernt so nach und nach durch Wiederholung, eine Aufgabe optimal zu lösen. Die KI AlphaGo musste also wie ein Kind das Spiel nach und nach selbst lernen. Dieser Prozess ist auch als Machine Learning bekannt.

Die Forscher wagten sich jedoch nicht sofort an Go, sondern fingen mit etwas einfacherem an: alten Atari-Spielen. Ein Beispiel dafür war etwa „Breakout“, bei dem man mit einem Ball versuchen muss, möglichst schnell eine Reihe von Pixel-Blöcken abzuräumen. Der Computer bekam dabei eine einfach Anweisung von den Forschern: Erziele die beste Punktzahl.

Anfangs tat sich der Computer schwer – er hatte noch nicht mal die Regeln von „Breakout“ verstanden. Erst durch Ausprobieren lernte die KI, was gute Herangehensweisen an das Spiel sind. „Nach 30 Minuten und 100 Partien sieht es eher schlimm aus“, sagte Demis Hassabis, CEO und Gründer des von Google gekauften Unternehmens DeepMind, im August 2015 über sein System (hier geht's zur großen Hintergrund-Story). Der Computer musste am Anfang erst einmal lernen, dass ein Verlust des Balles zum Ende des Spiels führt oder dass er Punkte bekommt, wenn er die Blöcke am oberen Bildschirmrand zerstört. „Doch nach zwei Stunden beherrscht das System das Spiel mehr oder weniger“, sagte Hassabis. Und irgendwann wurde die KI dann zum Meister, spielte besser als jeder menschliche Champion.

Dass eine KI schon jetzt den amtierenden Weltmeister schlagen würde, galt bis vor Kurzem noch als unwahrscheinlich.

Insgesamt 49 Atari-Games meisterte die KI damals nach demselben Prinzip. Anders als frühere System war sie aber nicht auf eine bestimmte Aufgabe spezialisiert. Die KI von DeepMind ist ein Allarounder: „Auch unser System könnte lernen, Schach zu spielen – aber gegen Deep Blue hätte es keine Chance“, sagte Hassabis im vergangenen Jahr.

Doch seitdem ist viel passiert. Aus dem von ihm und seinen Kollegen entwickelten Deep-Q-Network ist ein neues System namens AlphaGo entstanden, das sich darauf spezialisiert hat, Go zu spielen.

Dass einer KI schon jetzt ein Sieg gegen den amtierenden Weltmeister gelingen würde, galt bis vor Kurzem unter Experten noch als unwahrscheinlich. Doch Hassabis dachte auch 2015 schon weiter als die meisten. In 10 oder 15 Jahren glaubte er, könnten Computer vielleicht sogar Wissenschaftler statt nur Go-Spieler werden: „Womöglich taucht ein KI-System unter den Autoren einer Nature-Studie auf. Das wäre ziemlich cool.“, sagte der DeepMind-Chef damals.

Teilen