Hinweis zu Affiliate-Links: Alle Produkte werden von der Redaktion unabhängig ausgewählt. Im Falle eines Kaufs des Produkts nach Klick auf den Link erhalten wir ggf. eine Provision.

Erzähl, Maschine! Der Lovelace-2.0-Test soll kreative Intelligenz bei Computern nachweisen

von Max Biederbeck
Mark O. Riedl verstand den ganzen Aufstand einfach nicht. Überall in den Medien las er, dass ein Stück Software den Turing-Test bestanden hätte. Dabei muss ein Computer eine Jury davon überzeugen, dass er ein echter Mensch ist. Der heilige Gral der Forschung an künstlicher Intelligenz — ein System, das sich menschlichem Selbstbewusstsein annähert. Doch Riedl hält den Test für unzulänglich und hat deswegen eine eigene „kreative“ Prüfung entwickelt.

Im Juni, so schien es, hatte die russische Software „Eugene Goostman“ es geschafft. Das zuständige Prüfkomitee der englischen University of Reading verkündete einen „Meilenstein der Computergeschichte“. Goostman habe den Turing-Test bestanden. In einer Testsituation konnte der Chatbot über 30 Prozent einer menschlichen Jury in einer Unterhaltung davon überzeugen, dass er ein 13-jähriger Junge aus der Ukraine ist, der gebrochenes Englisch spricht. Er reagierte auf ihre Aussagen, beantwortete ihre Fragen. Das war im Juni — und Mark O. Riedl wunderte sich, dass die Ergebnisse des Tests von der Weltpresse so ernst genommen wurden.

Denn der 1950 erdachte Turing-Test sei für solche „Prüfungen“ eigentlich gar nicht gemacht, erklärt der Professor an der Georgia Tech School of Interactive Computing in Atlanta. „Er ist nur eine Theorie. Sie beruht auf dem Spielgedanken, einen Menschen zu täuschen.“ Echte Intelligenz, davon ist Riedl überzeugt, könne man so aber gar nicht messen. Stattdessen würden mögliche Dialoge einem Programm vorher nur „antrainiert“. Die Fragen der Jury auf der anderen Seite blieben oft viel zu vage.

Um den klassischen Lovelace-Test zu bestehen, müsste ein Computer intelligenter sein als sein Schöpfer.

„Hätten die Prüfer über kompliziertere Dinge wie Wetter oder Sport geredet, dann hätte das Programm den Test wohl nicht bestanden“, sagt er. Kurz gesagt: Beim Turing Test ist der Wunsch meist Vater des Gedankens. Alle Jahre wieder, sagt Riedel, glaube jemand, es wieder geschafft zu haben. Deshalb dachte der Programmierer in den letzten sechs Monaten darüber nach, was echte Intelligenz ausmacht und kam zu einem Ergebnis: Kreativität.

Auch für die gibt es schon seit 2001 ein Testverfahren, den Lovelace-Test, benannt nach der Mathematikerin Ada Lovelace. Er geht davon aus, dass derjenige intelligent ist, der Dinge kreativ erschafft. Wenn eine Maschine ein Gedicht aufschreiben, ein Kunstwerk zeichnen oder eine Geschichte erdenken kann, dann sind das Anzeichen einer höheren Form von Bewusstsein.

Bei Lovelace 2.0 muss das Programm ein Geschichte erzählen, die immer schwerer wird.

Doch auch der Lovelace-Test hat einen Fehler, glaubt Riedl. Dem Verfahren zufolge hat ein Programm nur dann kreativ gehandelt, wenn sein Programmierer nicht versteht, wie ein Werk zustande gekommen ist. „Das kann ein Computer gar nicht schaffen“, sagt Riedl. Denn dazu müsse eine Software intelligenter sein als ihr Erschaffer. Riedl hat jedoch einen Ausweg aus diesem Dilemma gefunden. Er programmiert seit Jahren kreative Storytelling-Systeme, aufbauend auf dieser Erfahrung hat er den Lovelace-2.0-Test entwickelt.

Der verlangt von Maschinen weder, dass sie jemandem vorspielen, ein Mensch zu sein. Noch müssen sie ein völlig neues Werk erschaffen, das nicht mal ihr Erschaffer versteht.

Stattdessen gibt Riedl ihnen einen Kontext. Er befiehlt einer Kunst-Software zum Beispiel: „Erzähle mir die Geschichte eines Hundes, der auf sein Herrchen wartet.“ Schafft ein System diese Aufgabe, verkompliziert er den Test: „Erzähle mir die Geschichte eines Hundes, der um einen Baum herumrennt, dabei einen Sattel trägt und aufgeregt auf sein Herrchen wartet.“ Der Kontext einer Geschichte kann so Stück für Stück immer enger gezogen werden. Eine Geschichte darum zu spinnen, wird schwerer und schwerer, bis es eine Software nicht mehr hinbekommt. Je nachdem, wie weit sie es schafft, kann der Lovelace 2.0 einen Grad an Intelligenz ausmachen.

Es ist unwichtig, wie kreativ die Software letztendlich ist. Es müssen keine Meisterwerke entstehen.

„Beim Turing Test geht es immer um die Frage: Schafft das Programm es oder nicht? Bei meinem Test handelt es um eine sinnvollere Prüfung des Grades an Intelligenz.“ Dabei sei es unwichtig, wie kreativ die Software sei. Es müssten keine „Meisterwerke“ entstehen, erläutert Riedl.

Seine eigenen Storytelling-Systeme schaffen beim Test nur die ersten beiden Stufen. Aber die Programme werden immer intelligenter. Riedl will seine Software etwa einsetzen, um Autisten oder Kriegsveteranen praktische Anleitungen für verschiedene Lebenssituation automatisch zu generieren. Und sein Lovelace-Test überprüft, inwieweit Programme zu solchen Aufgaben in der Lage sind. Etwas, das über den reinen Show-Effekt des Turing-Tests hinausgeht. „Wir müssen lernen, nicht die ganze Zeit auf den großen Wurf zu warten, sondern Systeme Stück für Stück intelligenter zu machen“, sagt Riedl. 

GQ Empfiehlt