Warum Künstliche Intelligenzen oft zu Sexisten werden

Im letzten Herbst stellte Vicente Ordóñez erstmals ein Muster in Schlussfolgerungen fest, die von seiner Bilderkennungs-Software gezogen wurden. „Immer wenn die KI eine Küche auf einem Bild erkannte, assoziierte sie sie eher mit Frauen als mit Männern“, sagt der Informatikprofessor, der an der University of Virginia lehrt.

Hatten sie ihre Software unabsichtlich mit Vorurteilen ausgestattet? Ordóñez und andere Wissenschaftler schlossen sich daraufhin zusammen und testeten zwei riesige Sammlungen an Fotos, die zum „Trainieren“ von Bilderkennungs-Software eingesetzt werden.

Die Ergebnisse sind bemerkenswert. Zwei häufig benutzte Fotosammlungen – inklusive einer, die von Microsoft und Facebook unterstützt wird – zeigten einen signifikanten genderbezogenen Verzerrungseffekt bei der Darstellung von Aktivitäten wie Kochen und Sport. Bilder, die Shopping- oder Waschszenen zeigten, wurden so eher Frauen zugeordnet, während Sport und Schießen als männlich klassifiziert wurden.

Machine-Learning-Algorithmen, die mithilfe dieser Datenbanken trainiert wurden, haben die Stereotype nicht nur übernommen, sondern auch verstärkt. Wenn Fotos und deren Beschriftungen Kochen überwiegend mit Frauen in Verbindung brachten, dann lernte die Software Kochen immer als Frauentätigkeit zu erkennen.

Mark Yatskar forscht am Allen Institut für Künstliche Intelligenz und sagt, dass dieses Phänomen auch rassistische Tendenzen in den Datensätzen verstärken könnte. „Es könnte existierende soziale Vorurteile nicht nur festigen, sondern auch verschlimmern“, sagt Yatskar, der von der University of Washington aus mit Ordóñez und anderen an dem Projekt mitgearbeitet hat.

Da Machine-Learning-Algorithmen immer häufiger zum Einsatz kommen, sind solche Verzerrungen nicht trivial. In der Studie wurden Personen in Küchen mit höherer Wahrscheinlichkeit als „Frau“ markiert, als es in den Daten tatsächlich der Fall ist. In einem Bild in der Studie steht ein Mann am Herd und wird vom Algorithmus als „Frau“ erkannt.

Wenn Tech-Unternehmen diese Algorithmen einsetzen, könnte das ungeahnte Folgen für Fotocommunitys wie Flickr, Heimassistenten mit Kameras wie Amazon Look oder Tools haben, die Kundenpräferenzen von Social-Media-Fotos ableiten. Google hat die Gefahren von schlechter Bilderkennung schon 2015 versehentlich demonstriert, als der Fotodienst in Porträts von dunkelhäutigen Menschen Gorillas sah.

Wenn AI-basierte Systeme immer komplexere Aufgaben übernehmen, wird auch die Fallhöhe immer größer. Yatskar beschreibt eine Zukunft, in der Heimassistenten Männern ein Bier empfehlen und Frauen zum Geschirrwaschen auffordern, wenn sie unsicher sind, was jemand in der Küche tut. „Ein System, das Entscheidungen aufgrund von Gender Bias trifft, kann mit Menschen nicht erfolgreich interagieren“, sagt er.

Vor etwa fünf Jahren hat es einen großen Durchbruch im maschinellen Lernen gegeben. Seitdem verlassen sich Tech-Unternehmen immer stärker auf Software, die von Bergen an Daten lernen. Erst kürzlich haben Forscher begonnen zu beweisen, dass Programme, die eigentlich kühl und emotionslos handeln sollen, verletzende Vorurteile reproduzieren.

Im Sommer 2016 haben Forscher der Boston University und Microsoft bewiesen, dass Programme, die mit Artikeln von Google News trainiert wurden, dieselben Gender-Verzerrungen zeigen, die auch bei Menschen beobachtet werden können. Sie forderten die Software auf, den folgenden Satz zu vervollständigen: „Mann verhält sich zu Programmierer wie Frau zu X“. Das Programm antwortete mit „Hausfrau“.

Ursache sind die Trainings-Datenbanken selbst. Die Forscher schauten sich die Datenbank ImSitu von der University of Washington sowie COCO an, die ursprünglich von Microsoft kuratiert wurde und nun auch von Facebook und dem Startup MightyAI kofinanziert wird. Jede Kollektion beinhaltet 100.000 Bilder mit komplexen Szenen aus dem Internet inklusive Titel und Beschreibung. Beide Datensätze beeinhalten mehr Männer als Frauen, die Objekte und Aktivitäten, mit denen die Geschlecher in Verbindung gesetzt werden, zeigen einen signifikanten Gender Bias. In den COCO-Daten werden Küchenutensilien wie Löffel und Gabeln hauptsächlich mit Frauen abgebildet, während Sportartikel wie Snowboards und Tennisschläger Männern zugeschrieben werden. Bilderkennungsprogramme verstärken diese Verzerrung nur noch. Im Test ordnete der Algorithmus Bilder mit Tastaturen und Computermäusen häufiger Männern zu als der Datensatz selbst.

Die Forscher haben aber einen Weg gefunden, diesen Effekt zu neutralisieren, indem sie das Programm gewissermaßen zwingen, das Gelernte zu reflektieren. Allerdings bedarf es dazu eines Forschers, der die Verzerrungen erst einmal identifiziert und der Software sagt, was genau sie korrigieren soll. Aber selbst die korrigierte Software spiegelt natürlich die Gender Bias der Originaldaten wider.

Eric Horvitz, Direktor bei Microsoft Research, hofft, dass er solche Tools bei Machine-Learning-Programmen anwenden kann. Das Unternehmen hat sogar ein Ethik-Gremium, das sicherstellt, dass die KI der unterschiedlichen Produkte nicht aus der Reihe tanzt. „Ich und Microsoft als Ganzes schätzen jede Bemühung Voreingenommenheiten und Lücken in Datensätzen und Systemen ausfindig zu machen“, sagt Horvitz. Forscher und Ingenieure, die mit COCO und anderen Datenbanken arbeiten, sollten immer nach Anzeichen von Verzerrungen schauen, sagt er.

Abseits der Datensätze sind Bücher und andere Unterrichtsmaterialien für Kinder oft absichtlich so gestaltet, dass sie ein idealisiertes Bild der Welt zeigen, mit einer ausgeglichenen Anzahl von männlichen und weiblichen Bauarbeitern, zum Beispiel. Horvitz ist der Meinung, dass ein ähnlicher Ansatz auch bei Lehrmaterialien für Künstliche Intelligenz angebracht wäre. „Es ist eine ziemlich wichtige Frage: Wann sollten wir die Realität anpassen, damit unsere Systeme zum Vorbild werden können?“, fragt er.

Andere Forscher zweifeln diesen Ansatz an. Wenn es wirklich mehr männliche Bauarbeiter gibt, sollte Bilderkennungssoftware auch fähig sein, das zu erkennen, sagt Aylin Caliskan, Forscherin in Princeton. Im Nachhinein könnten dann bei Bedarf Änderungen vorgenommen werden. „Wir riskieren, essentielle Informationen zu verlieren“, sagt sie. „Die Datensätze sollten die wahren Verteilungen in der Welt widerspiegeln.“

Eine Sache scheint aber allen Forschern klar zu sein: Maschinelles Lernen ist komplexer als es viele vorher gedacht hätten. Suresh Venkatasubramanian, Professor an der University of Utah, sagt: „Unsere Arbeit raubt uns endlich die Illusion, dass Algorithmen blind auf ein Problem losgelassen werden können, um es zu lösen.“

Dieser Artikel erschien zuerst bei WIRED.com
Das Original lest ihr hier.

Teilen