Forscher entwickeln KI, die rassistische Codes entschlüsselt

Im Herbst 2016, in der heißen Phase des US-Wahlkampfs, veränderte sich die Sprache der rechten Trolle auf Twitter. Um zu vermeiden, dass ihre Tweets von den KI-Filtern der Plattform als Hate Speech erkannt werden, entwickelten sie alternative Codes. Weil eine Künstliche Intelligenzen etwa identifizieren können, dass es sich bei Aussagen wie „gas all jews“ um Hassrede handelt, änderten sich die Tweets der Rechtsextremen dahingehend, dass Begriffe wie „jew“, „black“ oder „mexican“ durch Codeworte ersetzt wurden, die besonders häufig im Internet auftauchen. In diesem Fall handelte es sich um „skype“, „google“ und „yahoo“.

Forscher der University of Rochester haben unter der Leitung von Jiebo Luo nun ein Paper vorgestellt, in dem sie die Entwicklung eines neuen Algorithmus beschreiben. Der Ansatz ist, dass die KI lernt, nicht nur bestimmte Worte als Hate Speech zu identifizieren, sondern auch den Kontext, in dem die Aussage steht. Werden diese Worte beispielsweise gleichzeitig mit den Worten MAGA („Make America Great Again“), „white“ oder „gas“ verwendet, ist die Wahrscheinlichkeit hoch, dass die KI die Aussage als Hassrede erkennt. Darauf basierend soll die KI selbstständig die Codes der Rechten mitlernen und erkennen, sobald diese sich weiterentwickeln.

Um zu untersuchen, in welcher Form die Codeworte benutzt wurden, analysierte das Team mehr als eine Million Tweets, die später auf 250.000 reduziert wurden. Auf Basis dieser Daten fand eine Spracherkennungssoftware heraus, welche Wortkombinationen besonders häufig verwendet wurden (zum Beispiel „google“ und „skittle“). Neben den Wortkombinationen konnten auch einzelne User identifiziert werden, deren Tweets dann zur weiteren Analyse herangezogen wurden. Gegenüber Motherboard sagte Jiebo Luo, er hoffe, dass Unternehmen wie Twitter und Facebook die Forschungsergebnisse aufgreifen und gegen Hate Speech einsetzen werden.

Von der rein Keyword-basierten Analyse hatte sich auch schon die Künstliche Intelligenz wegbewegt, die Yahoo im vergangenen Jahr entwickelt hat. Dabei achteten die Forscher unter anderem auf die Länge der Kommentare sowie auf die Interpunktion. Der Algorithmus konnte 90 Prozent aller getesteten Hasskommentare identifizieren, zeigte aber auch Probleme auf, wenn es darum ging, den Kontext mit einzubeziehen.

Teilen