/Business

Diese Firma will Krankheiten mit Machine Learning besiegen

Achim Fehrenbach 11.12.2018 Lesezeit 9 Min

Bis ein Medikament marktreif ist, vergehen oft viele Jahre. 90 Prozent der Forschungsprojekte scheitern schon vorher. Das kostet nicht nur enorm viel Geld – sondern auch Zeit, die den Patienten fehlt, die auf ein bestimmtes Medikament warten. Ein US-Unternehmen will das mithilfe massiver Datenmengen und maschinellem Lernen künftig verhindern.

Die Firma Recursion Pharmaceuticals aus Salt Lake City im US-Bundesstaat Utah will den Prozess der Arzneimittel-Entwicklung beschleunigen. Dazu setzt sie auf die Hilfe von Robotern, Bilderkennung und Machine Learning. Auf der Tech-Konferenz Slush in Helsinki stellte CEO Chris Gibson den Forschungsansatz von Recursion vor. Wir haben mit ihm über teure Fehler in der Forschung gesprochen und darüber, wie Big Data, Cloud-Computing und maschinelles Lernen sie künftig abmildern könnten.

WIRED: Mr. Gibson, könnten Sie uns bitte kurz Ihr Unternehmen vorstellen?
Chris Gibson: Klar. Recursion konzentriert sich auf die Entdeckung neuer Medikamente im großen Maßstab. Wir nutzen Fortschritte in den Bereichen Automation, Bilderkennung, Machine Learning und KI – und kombinieren diese, um schneller Behandlungswege finden zu können. Unser Ansatz ist folgender: Mit Mikroskopen und Robotern nehmen wir Bilder von menschlichen Zellen auf, die wir Millionen unterschiedlichen Versuchsanordnungen unterworfen haben. Und dann nutzen wir einige der Fortschritte der Bilderkennung – zum Beispiel aus dem Bereich Autonomes Fahren – um damit neuronale Netze zu erschaffen. Mit deren Hilfe interpretieren wir die Bilder menschlicher Zellen, um Biologie besser verstehen zu können. Wir haben rund 110 Mitarbeiter. Über Eigen- und Fremdfinanzierung haben wir etwa 100 Millionen US-Dollar eingesammelt.

WIRED: Ihr Ziel ist also, häufiger und schneller medizinische Entdeckungen zu machen?
Gibson: Genau. Unser Ziel ist, die sehr teuren Fehler, die in der biopharmazeutischen Industrie passieren – die spät passieren, wenn schon viel Geld ausgegeben wurde – zeitlich nach vorne zu verlagern, wenn sie noch nicht so teuer sind. Wenn man das erreichen und den Ansatz gleichzeitig auch noch skalieren kann, dann lassen sich – so glauben wir – die Kosten für die Entdeckung und Entwicklung von Medizin dramatisch reduzieren. Wir sind der Meinung, dass wir das am besten erreichen, wenn wir die Entwicklung anderer Industrien spiegeln – indem wir also riesige, qualitativ hochwertige Datensätze und Rechenwerkzeuge zusammenbringen. Dadurch können wir mehr Fragen stellen als irgendjemand vorher. Und wir können die besten Fragen als Basis weiterer Studien auswählen.

Recursion-CEO Chris Gibson (rechts) auf der Tech-Konferenz Slush in Helsinki

WIRED: Wie funktioniert die Bilderkennung genau?
Gibson: Wir haben jede Menge Roboter, die jede Woche etwa 100.000 Experimente mit echten menschlichen Zellen durchführen. Am Ende jeder Woche nehmen Mikroskope automatisch Millionen Bilder auf – momentan rund zwei Millionen Bilder pro Woche, was rund 20 Terabyte Daten entspricht. Dann speichern wir diese Bilder in der Cloud und lassen verschiedene Machine-Learning-Prozesse darüberlaufen, um die nützlichen Daten zu extrahieren.

WIRED: Wie funktioniert das?
Gibson: Wir nutzen immer noch einige herkömmliche Ansätze der Bildsegmentierung und des Machine Learning. Dabei kommen verschiedene Methoden der Bilderkennung zum Einsatz und machen aus jeder Zelle einen Haufen Zahlen. Anschließend untersuchen wir diese Zahlen mit statistischen Methoden und Machine Learning. In letzter Zeit speisen wir Bilder auch immer häufiger direkt in neuronale Netze ein. Darauf liegt jetzt unser Schwerpunkt, denn das ist eines der Felder, die wir ausbauen.

WIRED: Haben Sie die neuronalen Netze dafür selbst entwickelt?
Gibson: Ja. Als wir das Unternehmen starteten, haben wir viel von der Arbeit, die im Silicon Valley in anderen Industrien geleistet wurde, auf unser Problem angewandt. Vor etwa 18 bis 20 Monaten kam Yoshua Bengio – einer der Väter des Deep Learning – als Berater in unsere Firma. Er hat unserem Team dabei geholfen, die Entwicklung maßgeschneiderter Machine-Learning-Techniken anzuschieben. Ich finde, unser Ansatz ist dadurch noch ungewöhnlicher geworden. Wir greifen zwar teilweise immer noch auf das zurück, was andere tun, aber unser Netzwerk ist sehr stark auf die Lösung unseres Problems zugeschnitten. Der Datensatz ist riesig und wächst schnell: Bis jetzt sind es rund 1,5 Petabyte. Unsere Wissenschaftler lieben es einfach, mit solch gewaltigen Datensätzen zu arbeiten.

WIRED: Für Machine Learning ist diese Masse an Daten also offenbar sehr wichtig.
Gibson: Die Masse und auch die Qualität. Besonders in der Biologie versuchen viele Unternehmen, öffentliche Datensätze zu verwenden. Aber das ist gefährlich. In den meisten Laboren gibt es nur eine einzige Person, die von allen anderen mit Experimenten beauftragt wird, weil sie es besonders gut kann. Für Aggregierung öffentlicher Datensätze ist das sehr gefährlich, denn es bedeutet, dass die Daten sehr stark rauschen. Das ist einer der Gründe, warum wir einen zweistelligen Millionenbetrag in Robotik und Software investiert haben. So können wir alle Experimente selbst durchführen und unsere eigenen Daten erzeugen. Wir achten auch besonders auf die Lieferkette unserer Reagenzstoffe, um den Input unserer Experimente kontrollieren zu können. So können wir über Wochen hinweg sehr gut vergleichbare Daten erzeugen. Wenn man nämlich qualitativ minderwertige Daten hat, muss man viel stärker skalieren – dann nämlich kommt man mit einer gewissen Schwankung bei den Daten zurecht. Am besten ist aber, wirklich stabile, vergleichbare, qualitativ hochwertige Daten zu haben – und eine ganze Menge davon. Mit denen kann man dann am meisten anfangen. Und genau das versuchen wir immer weiter voranzutreiben.

Jedes Wochenende lassen wir 20 Terabyte Daten analysieren

Chris Gibson

WIRED: Wie wichtig wird es für Sie sein, dass Ihre Rechen-Power weiterwächst?
Gibson: Wir standen vor der Wahl, entweder eine Vor-Ort-Lösung einzurichten – also einen massiven CPU-Cluster – oder mit einem Cloud-Partner zusammenzuarbeiten. In der Vergangenheit haben wir meist auf Cloud-Computing zurückgegriffen. Das eignet sich gut für uns, weil unsere Experimente einmal pro Woche enden – unsere Cloud-Nutzung erfolgt deshalb stoßweise. Zwischen Freitagnachmittag und Samstagnachmittag kommen 20 Terabyte an Daten zusammen und die wollen wir bis Montagmorgen analysieren lassen. Wir haben also wegen dieser stoßweisen Nutzung auf Cloud-Computing gesetzt. Theoretisch ist das unendlich skalierbar, obwohl wir mit der Größe unseres Datensatzes schon manchmal die lokale Rechenstabilität beeinträchtigt haben. Wir bauen aber auch ein Cluster vor Ort, weil wir manche Dinge ganz nah bei uns haben wollen. Unser Problem ist auch deswegen knifflig, weil unsere Bilder sehr viel Speicher belegen. So viel Speicher nahe an den Rechenknoten heranzubekommen ist bei vielen Clouds schwierig.

WIRED: Wie kommt dabei am Ende ein neues Medikament heraus?
Gibson: Viele Probleme des Machine Learning haben mit Einordnung zu tun. Wir haben eine andere Art von Netz geschaffen: ein darstellendes Netz. Im Wesentlichen versuchen wir Bilderkennung zu nutzen, um das Aussehen von Dingen zu beschreiben. Wir sagen also nicht „Das ist ein Vogel“ oder „Das ist eine Katze“, sondern treffen Aussagen wie „es ist pelzig, hat vier Beine und zwei Augen“. Und wir wenden das auf Abermillionen biologischer Bestandteile an. Unser Netz liefert uns also für jede Krankheit und für jedes Medikament bestimmte Sets von Attributen. Als wir die Firma starteten, mussten wir jedes Medikament an jeder Krankheit testen. Jetzt haben wir genügend Daten beisammen und können voraussagen, welche Medikamente am wahrscheinlichsten die Wirkung haben, die wir uns wünschen. Außerdem lernt die Plattform mit der Zeit dazu. Wir lassen sie Woche für Woche laufen, machen Vorhersagen und testen diese Vorhersagen dann in der Folgewoche.

WIRED: Wie funktionieren diese Tests?
Gibson: Mit Hilfe von Robotern geben wir das Medikament den menschlichen Zellen bei. In den Zellen haben wir eine Krankheit nachmodelliert. Zum Beispiel blockieren wir gezielt, dass ein bestimmter Gen-Code abgelesen wird [wodurch eine Fehlfunktion ausgelöst wird, Anm. d. Red.], infizieren die Zellen mit einem Krankheitserreger oder fügen ein Protein zu, das eine Entzündungsreaktion hervorruft. Sobald wir das getan haben, nehmen wir ein Bild davon auf. Wir wollen alle möglichen Formen sehen, in denen sich kranke Zellen von gesunden unterscheiden. Dann geben wir den Zellen mit Hilfe unserer Roboter tausende Medikamente bei und nehmen anschließend erneut Bilder auf. Dabei halten wir nach Medikamenten Ausschau, die die Zellen wieder gesund aussehen lassen.

WIRED: Sie haben in Ihrer Slush-Rede erwähnt, dass sich bereits eines Ihrer Medikamente in der klinischen Prüfungsphase befindet.
Gibson: Ja, vor zwei Monaten haben wir unsere erste klinische Studie begonnen. Das ist eine Studie der Phase 1, in der gesunde Freiwillige ansteigende Medikamentendosen erhalten. Wir überwachen bei diesen Leuten alle möglichen Werte, um zu gewährleisten, dass das Medikament sicher ist.

WIRED: Um zu dieser Studie zugelassen zu werden, mussten Sie also den gesamten regulatorischen Prozess hinter sich bringen.
Gibson: Ja, den gesamten Prozess, der notwendig ist, um Versuche an Menschen durchzuführen. Das führte zu einem 6000-Seiten-Antrag mit Daten, in die wir Millionen Dollar investiert haben. Hunderte experimentelle Tests auf Basis der FDA-Vorschriften waren nötig. Aber das ist alles gut und richtig. Es wird sichergestellt, dass man Verantwortung zeigt, wenn man Experimente an Menschen durchführen möchte. Wir wollen dabei sehr vorsichtig sein, deshalb ist es gut, dass es all diese Schutzmaßnahmen gibt.

WIRED: Welchen Einfluss könnte Ihre Arbeit auf die Medizin haben?
Gibson: Im Zeitraum vom Beginn der klinischen Studie bis zur Marktreife scheitern derzeit 90 Prozent der Programme aus irgendeinem Grund. Diese Programme brauchen Jahre und kosten hunderte Millionen Dollar, nur um dann zu scheitern. Selbst wenn wir den Prozess nicht beschleunigen können, wäre es doch ideal, zumindest die Ausfallrate zu reduzieren. Stellen Sie sich Folgendes vor: Würden wir es schaffen, dass nur 80 Prozent der Programme scheitern, dann wäre die Industrie schon doppelt so effizient. Senkt man die Ausfallrate von 90 auf 80 Prozent, dann kann man die Kosten für die Entwicklung neuer Medikamente halbieren. Könnte das die gesamte Industrie schaffen, dann wären das 1,3 von 2,6 Milliarden Dollar. Würden wir die Ausfallrate dann noch von 80 auf 40 Prozent senken, würden sich die Kosten erneut halbieren – und die Entwicklung neuer Medikamente würde dann im Schnitt etwa 800 Millionen Dollar kosten. Die Preise würden sinken, und es könnten mehr Patienten mit den Medikamenten behandelt werden. Unsere Mission ist also, Fehler zeitlich nach vorne zu verschieben, so dass sie noch vor Beginn der klinischen Studie zu Tage treten.

WIRED: Was sind die nächsten Ziele Ihres Unternehmens?
Gibson: Unser erstes Ziel war, unser erstes Medikament in eine klinische Studie zu bekommen. Das haben wir diesen Sommer geschafft und das ist großartig. Innerhalb der nächsten drei Jahre wollen wir insgesamt zehn Medikament in klinische Studien bringen. Nur ganz wenige Firmen unserer Größe schaffen zehn klinische Programme. Wenn wir das schaffen, können wir beweisen, dass unser Ansatz, Medikamentforschung zu skalieren, funktioniert. Und dann werden wir auch mehr Ressourcen erhalten, um unsere Technologie weiterzuentwickeln – um sie besser und schneller zu machen.