Dieser Wissenschaftler stellt die vergangenen 20 Jahre der Hirnforschung infrage

Den statistischen Verfahren, die in der Hirnforschung zur Datenanalyse genutzt werden, ist nicht zu trauen. Das klingt vielleicht zunächst nicht spektakulär, heißt aber: Die Ergebnisse von 40.000 Hirnforschungsstudien aus den letzten zwei Jahrzehnten könnten schlicht falsch sein. Genauer gesagt: die Studien, die die sogenannte Funktionelle Magnetresonanztomografie (fMRT) genutzt haben.

Sie ist eines der häufigsten Verfahren, um Gehirnaktivität abzubilden. Die bunten Bilder sollen zeigen, was im Gehirn passiert, während ein Mensch eine bestimmte Tätigkeit ausübt. Dazu muss man allerdings die Daten, die während des MRTs entstehen, statistisch auswerten. Und genau da liegt das Problem: Lange hat niemand richtig untersucht, ob die verwendeten Analyse-Verfahren das auch wirklich gut können.

Anders Eklund von der Linköping-Universität in Schweden sagt: „Ich hatte schon seit einer langen Zeit meine Zweifel was die statistischen Methoden, die bei fMRTs genutzt werden, betrifft.“ Deshalb haben er und seine Kollegen sie nun einer eingehenden Prüfung unterzogen. Mit einem erschreckenden Ergebnis: Ein Software-Bug könnte 20 Jahre Hirnforschung in Frage stellen.

Anders Eklund stellt die vergangenen 20 Jahre der Hirnforschung infrage
© Monica Westman Svenselius

Mit WIRED sprach Eklund darüber, wie es dazu kommen konnte und was seine Erkenntnis für die Wissenschaft bedeutet:

WIRED: Warum braucht man für die Auswertung einer fMRT überhaupt statistische Verfahren?
Eklund: fMRT misst nicht direkt die Gehirnaktivität, sondern die Veränderungen im Blutfluss, von denen man annimmt, dass sie durch Gehirnaktivität entstehen. Wenn jemand im MRT-Gerät eine Aufgabe bewerkstelligt, werden Aufnahmen vom Gehirn gemacht und anschließenden mit dem Computer analysiert. Diese Daten sind meistens sehr verrauscht, weil auch das MRT-Gerät und der Mensch darin – wenn er zum Beispiel atmet oder seinen Kopf bewegt – Geräusche machen. Die Statistik braucht man, um dann zu entscheiden, was das echte Signal und was einfach nur Lärm ist.

WIRED: Wieso hat sich bisher noch nie jemand darum gekümmert, zu überprüfen, ob die Statistikprogramme, die man dazu nutzt, auch wirklich zuverlässig sind?
Eklund: Auch andere Wissenschaftler haben schon die Software getestet, allerdings meist mit simulierten Daten. Sie haben anstelle von echten Daten – also Gehirnaufnahmen, die von einem echten Menschen stammen – mit Daten gearbeitet, die ein Computer generiert hat.

WIRED: Warum hat man bisher keine echten Daten genommen?
Eklund: Ein Grund ist, dass es sehr teuer ist, fMRT-Daten zu sammeln. Wir sprechen da von etwa 500 bis 1000 Dollar pro gescannter Person. Simulierte Daten sind billiger. Heutzutage gibt es aber verschiedene Sharing-Initiativen, die fMRT-Daten einer großen Anzahl von Personen teilen. Für unsere Studie haben wir die fMRT-Daten von 671 Personen aus drei verschiedenen Quellen heruntergeladen und damit eine Menge Zeit und Geld gespart.

Simulierte Daten können nicht alle Eigenschaften von realen Daten imitieren

WIRED: Wieso ist es überhaupt so wichtig, dass man die Software mit Daten von echten Personen testet?
Eklund: Simulierte Daten können nicht alle Eigenschaften von realen Daten imitieren. Es ist extrem schwer, das menschliche Gehirn zu simulieren. Es ist auch sehr schwer, einen MRT-Scanner zu simulieren. Und es ist dementsprechend noch viel schwieriger, ein Gehirn in einem MRT-Gerät zu simulieren.

WIRED: Sie sind zu dem Ergebnis gekommen, dass die Statistikprogramme Falsch-Positiv-Raten von bis zu 70 Prozent erzeugten. Was bedeutet das?
Eklund: Um die Methoden zu testen, haben wir nur fMRT-Daten von gesunden Menschen verwendet. Wenn man dann die Gehirnaktivität von zwanzig gesunden Menschen mit einer Kontrollgruppe von 20 anderen gesunden Menschen vergleicht, sollte man generell eigentlich keine Unterschiede finden. Allerdings kann man durch Zufall Unterschiede finden, die nennt man dann „falsche Positive“. Normalerweise liegt das akzeptierte Level dafür bei fünf Prozent. Wenn wir also 1000 zufällige Gruppen-Vergleiche machen, dann erwarten wir 50 zufällige Unterschiede. In manchen Fällen bekamen wir aber einen sehr viel höheren Grad an falschen Positiven. Das bedeutet, dass die fMRT-Software dem Nutzer sagt, dass es einen Unterschied zwischen den zwei Gruppen gibt, obwohl es eigentlich keinen Unterschied gibt.

WIRED: Liegt das daran, dass die Software einen Bug hat oder die Wissenschaftler sie falsch anwenden?
Eklund: In einer Software haben wir einen Bug gefunden, der mehr als 15 Jahre alt war. Für alle drei Programme, die wir getestet haben, kann man sagen: Die statistischen Methoden, die benutzt werden, basieren auf einer Reihe von Annahmen über die Daten. Zum Beispiel, wie die Geräusche des Scanners aussehen. Und manche dieser Annahmen haben sich als falsch herausgestellt.

Einige Studien sind falsch, aber es ist unmöglich zu sagen, wie viele

WIRED: Wie kann man das in Zukunft verhindern?
Eklund: In unserem Paper zeigen wir, dass eine andere statistische Methode, die auf weniger Annahmen beruht, viel besser funktioniert und Falsch-Positiv-Raten hat, die näher an den fünf Prozent dran sind.

WIRED: Aber was bedeutet das für all die Forschungsergebnisse, die mithilfe der anscheinend ja sehr fehlerhaften Software schon veröffentlicht wurden?
Eklund: Das bedeutet, dass einige Studien falsch sind. Es ist aber unmöglich zu sagen, wie viele. Das liegt vor allem daran, dass die ursprünglichen fMRT-Daten nicht mehr verfügbar sind. Das heißt, es ist nicht möglich, sie noch einmal zu analysieren. Generell würde ich sagen, dass wir ein bisschen skeptischer gegenüber Ergebnissen aus fMRT-Studien sein müssen. Wenn eine fMRT-Studie von einer oder mehrere Forschungsgruppen repliziert wurde, dann sind die Ergebnisse vertrauenswürdiger. Und wenn eine fMRT-Studie Daten von mehr als hundert Personen gesammelt hat, dann ist es auch wahrscheinlicher, dass die Ergebnisse valide sind, als bei einer Studie, die nur die Daten von 20 Personen verwendet hat.

Teilen