Hinweis zu Affiliate-Links: Alle Produkte werden von der Redaktion unabhängig ausgewählt. Im Falle eines Kaufs des Produkts nach Klick auf den Link erhalten wir ggf. eine Provision.

Machines Of Loving Grace / Wie Algorithmen unsere Postfächer aufräumen

von Jürgen Geuter
Algorithmen sind überall. Jeder hat ständig mit ihnen zu tun, viele fürchten sie, doch die wenigsten verstehen tatsächlich, wie sie funktionieren. In seiner WIRED-Kolumne durchleuchtet Jürgen Geuter die mathematischen Problemlöser, die unsere Welt zu lenken scheinen. Diesmal: Wie filtern Algorithmen unsere E-Mails?

Die Erfindung der E-Mail war sicher eine der wichtigsten digitalen Innovationen überhaupt. Als schneller, kostengünstiger und einfach nutzbarer Kommunikationsdienst hat die E-Mail nicht nur Geschäftsprozesse, sondern auch den persönlichen Informationsaustausch massiv verändert. Die Idee, ohne große Verzögerung und quasi kostenlos Nachrichten über den gesamten Erdball schicken zu können, ist eines der grundlegenden Versprechen der Digitalisierung. Und man kann es als erfüllt betrachten. Die E-Mail ist schnell, robust, leistungsfähig und kostengünstig. Doch die Party musste irgendwann enden — und der Name des Partycrashers war: Spam.

Als E-Mail erfunden wurde, dachte man nicht an irgendwelche Leute, die gefälschte Luxusuhren, Medikamente gegen Erektionsstörungen oder Aktien-Scams an die Menschen bringen wollen. So sind die E-Mail Standards zum Beispiel nicht darauf ausgelegt, die Authentizität einer Absenderadresse zu überprüfen: Wer seinen eigenen E-Mail-Server betreibt (oder Zugriff auf einen nicht besonders geschützten Server hat), kann ohne besonderen Aufwand jede Menge Nachrichten mit jeder beliebigen Absenderadresse absetzen. Spam zu verschicken ist günstig und einfach und so geht man heute davon aus, dass etwa 90 bis 95 Prozent aller verschickten E-Mails ins diese Kategorie fallen.

Lesen Filter-Algorithmen alle meine E-Mails?

Spammer fälschen allerdings nicht nur Adressen sondern verwenden auch Netzwerke aus virenverseuchten Rechnern zum Versand oder variieren durch Programme den versendeten E-Mail-Text. Das macht das Aufspüren der falschen Nachrichten ziemlich schwierig, denn die einfach zu filternden Informationen jeder E-Mail (Absender, Betreff, Text etc.) sind kaum — und wenn, dann nur für sehr kurze Dauer — in den Griff zu bekommen. Trotzdem haben wir heute recht gute Spamfilter, in meinem liegen jetzt gerade zum Beispiel 2317 E-Mails. Viel Müll also, der ganz automatisch aus meinem Posteingang gefischt wurde.

Aber wie funktioniert eigentlich ein Spamfilter? Lesen die Filter-Algorithmen zum Sortieren alle meine E-Mails? Liefere ich mich und all meine Kommunikation irgendwelchen Mail-Anbietern aus? Ja und nein.

Ganz abstrakt gesehen, „lesen“ Spamfilter natürlich alle meine Mails. Nur so können sie entscheiden, ob eine bestimmte E-Mail Müll ist oder wertvoll. Aber „Lesen“ ist eigentlich ein viel zu starkes Wort, denn der Filter versteht nicht ein einziges Wort des E-Mail-Textes. Leider können wir uns beim Erfinder nicht mehr für diesen ziemlich effektiven Algorithmus bedanken: Der Mathematiker und Pfarrer Thomas Bayes starb schon 1761.

Das nach ihm benannte Bayes-Theorem erlaubt es, die Wahrscheinlichkeit eines Ereignisses anhand der Wahrscheinlichkeiten mit dem Ereignis zusammenhängender Dinge vorherzusagen. Weiß man beispielsweise, wie häufig eine Krankheit generell auftritt, wie viele Menschen in der Bevölkerung rauchen und wie viele der Erkrankten geraucht haben, kann man daraus einfach errechnen, wie hoch die Wahrscheinlichkeit ist, dass jemand mit der Erkrankung auch geraucht hat. Spam ist zwar keine Krankheit, aber durch eine clevere Idee kann man die Bayes-Formel auch auf Texte anwenden: Man betrachtet einfach alle Worte einzeln und zieht das Ergebnis zusammen.

Mit mathemaischen Formeln ist es manchmal wie mit Medizin: Man muss ein bisschen bitteres Zeug schlucken, damit es irgendwann besser wird. Zum Glück ist die Formel, mit der man bestimmen kann, wie wahrscheinlich es ist, dass eine Mail Spam ist, wenn ein bestimmtes Wort auftaucht, ziemlich simpel.

 

Nehmen wir „Viagra“, ein Wort, bei dem wir instinktiv die Spamwahrscheinlichkeit bei 99 Prozent festlegen würden. Zuerst multiplizieren wir die Wahrscheinlichkeit, dass ein Wort in Spam-Mails, die wir schon kennen, auftaucht (bei „Viagra“ sehr hoch), und die Wahrscheinlichkeit, dass die E-Mail Spam ist (wie viel Prozent der eingehenden Mails Spam sind, unterscheidet sich von Anbieter zu Anbieter). Wir teilen diesen Zähler durch die Summe aus Zähler und dem Produkt aus der Wahrscheinlichkeit, mit der das vorliegende Wort in Nicht-Spam-Mails auftaucht und der Wahrscheinlichkeit, dass die Mail kein Spam ist.

Wow, kompliziert. Machen wir also ein Beispiel: Ein Prozent aller Spammails enthalten das Wort „Viagra“. 90 Prozent aller Mails sind Spam. 0,1 Prozent aller Mails erwähnen irgendwann „Viagra“. Und „Viagra“ taucht sogar nur in 0.01 Prozent aller Nicht-Spam-Mails auf. Dann liegt die Wahrscheinlichkeit, dass eine „Viagra“-Mail Spam ist, bei:

0.01 * 0.9 / (0.01 * 0.9 + 0.0001 * 0.1) = 99.89%

Für das fiktive Beispiel war unsere Empfindung also richtig. Der Spamfilter macht das gleiche für alle Worte im Mail-Text und rechnet die Wahrscheinlichkeiten der einzelnen Worte der Nachricht zu einer Gesamtwahrscheinlichkeit zusammen. Der Anbieter des E-Mail-Postfachs legt nun eine Schwelle fest, zum Beispiel bei 80 Prozent. Das bedeutet: Alle E-Mails, die laut dem Algorithmus eine Spam-Wahrscheinlichkeit von 80 Prozent haben, werden in den Spam-Ordner verschoben.

Die Formel verrät uns aber noch mehr. Zum Beispiel, warum die Spamfilter der großen Anbieter oft besser sind, als die auf unseren eigenen Rechnern: In die Formel fließen die Wahrscheinlichkeiten ein, dass ein bestimmtes Wort in Spam-Mails vorkommt, genauso wie die Wahrscheinlichkeit, dass eine Mail generell Spam ist. Das sind Fragen, die Anbieter mit vielen E-Mail-Accounts und damit großem Nachrichtenaufkommen sehr viel präziser beantworten können als kleine Anbieter. Jeder Klick, mit dem wir eine nicht erkannte Spam-Mail in den entsprechenden Ordner verschieben oder eine falsch erkannte Mail aus dem E-Mail-Fegefeuer holen, gibt unserem Anbieter und seinem Spamfilter mehr Informationen, mit denen er seine Algorithmen trainieren kann.

Ich bin schlicht dankbar für vier Müll-Mails weniger.

Mein Spam-Ordner enthält jetzt 2321 E-Mails. Während des Schreibens dieses Textes sind dank fleißiger kleiner Programme vier Stück dazugekommen. Natürlich haben diese Programme meine E-Mails dazu „gelesen“, in einzelne Worte zerschnippelt und viele Zahlen addiert, multipliziert und dividiert. Ob man das als gravierenden Eingriff in die eigene Privatsphäre wertet, muss jeder selbst entscheiden. Ich bin schlicht dankbar, vier Müll-Mails weniger in meinem Posteingang zu haben.

Private Kommunikation findet heute zunehmend in den Messengern sozialer Netzwerke statt. Trotzdem scheint die E-Mail die vielen Texte über ihren Tod nicht gelesen zu haben und macht auch dann noch weiter ihren, wenn der IrgendwasVZ-Messenger schon lange keinen Pieps mehr von sich gibt. Und das funktioniert heute immer noch ganz gut, dank eines Algorithmus vom Anfang des 18. Jahrhunderts. Retro-Hightech sozusagen.

In der letzten Folge fragte Jürgen Geuter: Wie liest man eigentlich Algorithmen? 

GQ Empfiehlt