Hinweis zu Affiliate-Links: Alle Produkte werden von der Redaktion unabhängig ausgewählt. Im Falle eines Kaufs des Produkts nach Klick auf den Link erhalten wir ggf. eine Provision.

Wie die 11,5 Millionen Dateien der Panama Papers analysiert wurden

von GQ
Das größte Daten-Leak der Geschichte hat mehr als 70 bedeutende Politiker und Prominente der Steuerflucht überführt. Milliarden von Euro wurden dabei an geheime Briefkastenfirmen weitergeleitet. Hier erfahrt ihr, wie die Masse an Daten analysiert wurde.

Die Panama Papers zeigen, dass die Kanzlei Mossack Fonseca Hunderten von Klienten, darunter wichtige globale Machthaber, geholfen hat, Gelder zu waschen, Steuern zu hinterziehen und möglicherweise rechtliche Sanktionen zu umgehen.

Die Dokumente selbst wurden Medien aus anonymer Quelle zugespielt und mit mehr als 100 weiteren Organisationen und 400 Journalisten geteilt – die Recherche allein dauerte fast ein Jahr.

Um die rohen Daten den Journalisten zugänglich machen zu können, wurden sie zunächst digitalisiert. Hochleistungscomputer filterten dann anhand von Algorithmen bekannte Namen aus dem Wust an Informationen heraus.

Wie groß ist das Panama-Papers-Leak?
Das Internationale Konsortium Investigativer Journalisten (ICIJ) kündigte an, die vollständige Liste der betroffenen Unternehmen im Mai publizieren zu wollen. Obwohl diese Originaldokumente noch nicht öffentlich sind, ist ihre Größe bereits bekannt.

Berichten zufolge enthält der Leak mehr als 11,5 Millionen interne Dateien von Mossack Fonseca, darunter vor allem E-Mails, Verträge, Abschriften und gescannte Dokumente. Insgesamt legt er 4,8 Millionen E-Mails, drei Millionen Datenbankdateien, 2,1 Millionen PDF-Dokumente, 1,1 Millionen Bilder und 320.000 Textdokumente offen. Damit ist der Datensatz größer als jede WikiLeaks-Veröffentlichung oder die Snowden-Dokumente.

In ihrer Summe enthalten die Panama Papers 2,6 Terabyte an Informationen. Die Dateien, die zuerst die Süddeutsche Zeitung erhalten hatte, reichen von 1977 bis ins Jahr 2015. „Sie zeigen, dass Mossack Fonseca mit über 14.000 Banken, Kanzleien, Unternehmensgründern und anderen Mittelsmännern zusammengearbeitet hat, um bestehende und neue Unternehmen ihrer Kunden aufzubauen“, teilte das ICIJ mit.

Wie analysiert man 11,5 Millionen Dateien?
Um über die Dokumente angemessen berichten zu können, musste sichergestellt werden, dass sie auffindbar und deshalb maschinell lesbar sind. „Es ist schwierig, heterogene Daten aufzunehmen und interne Zusammenhänge zu erkennen“, sagt Gabriel Brostow, Dozent für Computerwissenschaft am University College London, gegenüber WIRED UK. „Tabellen, Abbildungen und PDFs sind fast undurchdringlich.“

Mit dem Ziel die Dateien zunächst zu ordnen und zu organisieren, arbeiteten die Süddeutsche Zeitung und das ICIJ mit der Softwarefirma Nuix zusammen. Die Bewältigung der schieren Menge an Daten machte private Server erforderlich, die in keinster Weise mit der Außenwelt verbunden sein durften, erklärte Carl Barron, Senior Consultant bei Nuix gegeüber WIRED UK.

„Wir wollten den Inhalt dieser Informationen mit samt ihrer Metadaten. Nuix half, die Daten aus der analystischen Big Data-Perspektive zu prüfen“, so Barron.

Die größte Herausforderung für die Datenverarbeitung war die Textmenge, die anfangs noch nicht maschinell erkannt wurde. Nuix nutzte die Methode der Optischen Zeichenerkennung (OCR), mit der die Daten in Text umgewandelt wurden, der schließlich auch von Computern verstanden und gesucht wurde. Einmal extrahiert, wurde der Text in Index und Datenbank eingepflegt. Die finale Größe der Datenbank schätzt Barron auf 30 Prozent der Originalgröße.

„Wir erlaubten ICIJ und der Süddeutschen Zeitung nach Keywords zu suchen und konnten schließlich Datensätze mit Vornamen, Zweitnamen und Tabellen herausfiltern“, sagte Barron. „Außerdem waren wir mit unseren Analysen in der Lage, Namen mit Dokumenten in Verbindung zu bringen. Fanden wir etwa einen Personennamen in einer E-Mail, konnten wir sehen, an welchen Stellen der Datenbank diese Person abermals auftauchte.“

Waren Informationen wie diese einmal in den Index aufgenommen worden, suchten die Algorithmen nach spezifischen Verlinkungen in der riesigen Datenbank. Dieser Automatismus wurde mit manuell erstellten Daten kombiniert.

Die Journalisten hätten Listen von bedeutenden Politikern, internationalen Kriminellen, bekannten Profi-Sportlern „und vielen anderen“ erstellt, erklärte die Süddeutsche in einem Leitartikel. Von da an sei es möglich gewesen, mit einem Search Tool die Namen auf den Listen gezielt zu suchen.

Dieser Artikel ist zuerst bei WIRED UK erschienen. 

GQ Empfiehlt