Yahoo programmiert den Anti-Troll-Algorithmus

Yahoo hat einen Algorithmus entwickelt, der Online-Missbrauch verhindern soll, indem er identifiziert, ob Kommentare Hassrede enthalten oder nicht. In 90 Prozent der Testfälle konnte das Programm beleidigende Kommentare identifizieren – ein Level an Genauigkeit, das einer Studie zufolge die Ergebnisse anderer gegenwärtiger Deep-Learning-Verfahren übertrifft.

Das Unternehmen nutzte eine Kombination aus maschinellem Lernen und Daten zur Missbrauchserkennung, die über Crowdsourcing generiert wurden, um einen Algorithmus zu kreieren. Er durchforstet die Kommentarspalten von Yahoo News und Yahoo Finance und erkennt beleidigende Kommentare. Teil des Projekts ist auch eine Datenbank, in der Hassposts gesammelt und kuratiert werden. Diese wird nach Veröffentlichung frei zugänglich sein.

Derzeit funktionieren Systeme, die hasserfüllte Sprache aufspüren sollen, über die Suche nach entsprechenden Wörtern oder Phrasen in Nutzerkommentaren. Sobald ein Post ein für beleidigende Kommentare typisches Stichwort enthält, wird dies als Missbrauch identifiziert und entweder direkt vom Algorithmus gelöscht oder zur Bewertung an einen Moderator weitergeleitet.

Die Schwäche solcher Stichwortsuche-Systeme ist, dass sie subtilere Formen von Missbrauch nicht erkennen können. Phrasen könnten bewusst abgeändert werden, um den beleidigenden Gehalt zu verschleiern und so den Filter zu umgehen. Zudem können Posts durchaus beleidigend oder ausfallend sein, ohne spezielle Stichworte zu enthalten. Die Algorithmen könnten zudem sarkastische Kommentare fälschlicherweise als beleidigend einstufen, daran scheitern, neuere Formen des Ausdrucks von Hass zu erkennen oder Beschimpfungen ignorieren, weil sie ohne grammatikalische Fehler verfasst wurden.

+++Mehr von WIRED regelmäßig ins Postfach? Hier für den Newsletter anmelden+++

Yahoos Algorithmus soll über die stichwortorientierte Suche hinaus eine möglichst genaue Identifizierung von Hasskommentare gewährleisten. Anhand eines Datensets, zusammengesetzt aus beleidigenden und nicht beleidigenden Kommentaren zu Artikeln aus Yahoo News und Yahoo Finance, analysierte der Algorithmus die Posts auf Länge, die Anzahl der Beschimpfungen und Zeichensetzung, um typische Merkmale einer Hassnachricht zu erkennen.

Experten, die in der Bewertung hasserfüllter Kommentare ausgebildet sind, analysierten dieselben Daten und beurteilten sie auf ihren Missbrauchsgehalt. So profitiert der Algorithmus von der menschlichen Fähigkeit, implizite Beleidigungen zu identifizieren, und entwickelt daraus ein System, das Kommentare erkennt, die kategorisch als beleidigend empfunden werden.

Zusätzlich nutzte Yahoo zur Analyse Bewertungen von Amazons Mechanical Turk, einer Webseite, auf der sich jeder anmelden kann, um Aufgaben zu erledigen, die einen gewissen Grad an menschlicher Intelligenz erfordern, wie das Sortieren von Bildern und das Analysieren von Sprache. In dieser Studie wurde untrainierten Nutzern für jeden Kommentar, den sie als beleidigend oder nicht beleidigend einstuften, eine Summe von 0,02 Dollar gezahlt. Im Vergleich zum ausgebildeten Personal von Yahoo, schnitten die Mitarbeiter von Mechanical Turk im Erkennen von missbräuchlichen Kommentaren viel schlechter ab. Ein Hinweis darauf, dass Experten eine wichtige Rolle im Aufspüren beleidigender Posts spielen.

Der Algorithmus wurde bislang nur mit den Datensätzen von Yahoo getestet, aber der Internetkonzern ist sich sicher, dass er für den Bereich der linguistischen Datenverarbeitung ingesamt einen bedeutenden Fortschritt darstellt. Die mit Anmerkungen versehene Datenbank missbräuchlicher Posts soll demnächst auf Yahoo Webscope veröffentlicht werden.

Dieser Artikel erschien zuerst auf WIRED UK.

Teilen