Big Data Die Blackbox-Diagnosen

Kluge Software krempelt derzeit die Medizin um: Sie lernt selbständig dazu und entdeckt seltene Erbkrankheiten. Wird sie irgendwann auch den Arzt ersetzen können?

Recherche von Astrid Viciano, Infografiken von Sarah Unterhitzenberger

Manchmal, wenn Fabian Theis die Worte ausgehen, wirft er seine Daten einfach in die Luft. Unter der Kuppel eines virtuellen Gebäudes dreht der Bioinformatiker dann bunte Kugeln nach rechts und links, oben und unten, zieht sie wie in einer Art Tanz zu sich heran und schleudert sie zurück in den Raum. In der virtuellen Realität versucht der Forscher vom Helmholtz-Zentrum in München darzustellen, was wir Menschen uns im echten Leben nicht vorstellen können: die Analyse und Verknüpfung von Abermillionen Daten.

Was unsere Vorstellung sprengt, möchte Fabian Theis nutzen, um die Entwicklung gesunder und kranker Zellen zu verstehen. In seinem Büro, ein paar Türen neben dem VR-Raum, klappt der Leiter des Instituts für Computational Biology sowie Lehrstuhlinhaber für Mathematische Modelle biologischer Systeme an der TU auf einem schlichten weißen Tisch seinen Laptop auf. Keine Papierstapel liegen herum, kein Buch steht im Regal, nicht einmal ein Regal gibt es hier. Es ist fast so, als müsse man mit Theis in die digitale Welt reisen, um die immensen Veränderungen der Biomedizin zu verstehen.

Riesige Datenmengen finden sich dort, die wie eine digitale Welle viele Bereiche der Medizin überschwemmen. Als ob sie Patientenakten zerfleddern würden, stellen die neuen Daten gängige Diagnosen auf den Kopf. "Big Data" ist ein Schlagwort, das heute aus der Medizin nicht mehr wegzudenken ist. Der schwammige Modebegriff ist vor allem ein etwas hilfloser Versuch, enorme technische Fortschritte in gleich drei relevanten Bereichen der Medizin mit einem gemeinsamen Begriff zu umspannen: Entwicklungen im Bereich der künstlichen Intelligenz, in der Gentechnik und den bildgebenden Verfahren. Alle drei Bereiche generieren heute Daten, immens viele Daten. Werden Computer daher bald Ärzte ersetzen? Kommt es zum Ende der menschlichen Medizin? Was im Gewirr ängstlicher Fragen untergeht: Darum geht es oft gar nicht.

Worum es zum Beispiel geht, möchte Fabian Theis auf seiner Reise erklären. Er klappt seinen Laptop zu, verlässt sein Institut, um in Jeans und Sweatshirt durch den tiefen Schnee über die Straße zu seinem ersten Ziel zu laufen, einem schwarzen Kasten im ganz realen Labor des Biologen Heiko Lickert. Was wie eine zu groß geratene Schmuckschatulle aussieht, ermöglicht es Forschern seit Kurzem, den menschlichen Körper im Detail zu ergründen. Statt wie bislang große Zellgruppen genetisch zu analysieren, können Theis und Lickert heute in diesem Sequenziergerät jede einzelne Zelle mit einer Art Strichcode markieren, um ihre Genaktivität im Anschluss zu messen und somit aufzuzeichnen, was welche Zelle gerade macht. Und was geschieht, wenn die Forscher nicht große Zellgruppen pauschal auswerten, sondern einzelne Zellen analysieren? Genau, es entstehen riesige Datenmengen.

Die bringen Theis und seinem Kollegen erst einmal wenig. "Kein Mensch wäre in der Lage, sich durch Tabellen mit Milliarden Daten zu arbeiten und daraus sinnvolle Schlussfolgerungen zu ziehen", sagt der Mathematiker Theis. Was uns Menschen nicht gelingt, schaffen intelligente Computerprogramme hingegen besonders gut: Sie lernen mithilfe bestimmter Vorgaben, den Algorithmen, Muster im Datenwust zu erkennen und die Muster untereinander in Bezug zu setzen. So konnte Theis zum Beispiel herausfinden, wie aus den Stammzellen des Darms die einzelnen Zelltypen des schlauchförmigen Verdauungsorgans entstehen. Wie dem Bioinformatiker das gelang? Indem er seine Algorithmen ebenfalls nach gemeinsamen Mustern suchen ließ, in der Genaktivität der einzelnen Zellen.

Auf dem Rechner erscheinen kleine, bunte Kugeln - die Zelltypen des Darms

Um das zu erklären, lädt Theis wieder in die digitale Welt: In seinem Büro ruft er an seinem Rechner erneut die bunten Kugeln auf, die unter der Kuppel des virtuellen Gebäudes im Raum schwebten. Die kleinen Bälle in Rot und Grün, Blau und Gelb, Türkis und Lila stellen die nach den Mustern sortierten Zelltypen des Darms dar, in verschiedenen Phasen ihrer Entwicklung. Was in Abermillionen Messungen analysiert wurde, wird erst in der virtuellen Wolke wieder greifbar, nicht nur im Falle des Darms. "Wenn wir verstehen, wie einzelne Zellen sich entwickeln und was sie genau machen, können wir auch Krankheitsprozesse viel besser verstehen", sagt Theis.

Wie bedeutsam das ist, hat der Bioinformatiker von klein auf erlebt. Seine Eltern sind beide Allgemeinmediziner, die große Verantwortung für ihre Patienten hat ihn schon als Jugendlicher beeindruckt. "Nehmen Sie nur Diabetes mellitus und seine Komplikationen, etwa die Erkrankung der Netzhaut. Sie ist in Industriestaaten eine der häufigsten Ursachen für eine Erblindung", erklärt er. Umso wichtiger sei es für Ärzte, die Veränderungen der Netzhaut frühzeitig zu erkennen. Was, wenn er und andere Forschergruppen es schaffen würden, die gefürchtete Komplikation im Frühstadium zu erkennen und Mediziner dann eingreifen könnten? Theis redet jetzt sehr schnell, zeichnet Diagramme auf ein Blatt Papier, jongliert mit englischen Fachbegriffen und macht ein wenig den Eindruck, als ob er jeden Moment vor Begeisterung von seinem Stuhl aufspringen könnte. Stattdessen aber begibt er sich wieder in eine Datei auf seinem Rechner, diesmal führt seine Reise in ein Gebiet, das womöglich das Leben vieler Menschen verändern wird. Auf seinem Bildschirm verzweigen sich rote Linien auf gelbem Hintergrund, ein heller Kreis ist zu sehen, Aufnahmen von Menschen mit gesunder und erkrankter Netzhaut. Die hat Theis analysiert.

Er gab dem Computerprogramm nur vier Kategorien vor, eine für Aufnahmen von gesunden Menschen sowie drei von Patienten mit diabetischer Netzhauterkrankung, eingeteilt in leicht, mittel und schwer. Die Software lernte anhand von 30 000 Bilddaten nicht nur, die Aufnahmen voneinander zu unterscheiden. Es gelang ihr auch ohne weitere Vorgaben, den Krankheitsverlauf zu erkennen. Sie ordnete die Bilder in einer Reihe an, von gesund bis schwer krank. "Das Programm schafft es also, den kontinuierlichen Krankheitsprozess zu erkennen", sagt Theis.

Was aber, wenn Forscher Bilder und Genanalysen sogar kombinieren? Auf seiner Reise macht Theis einen kurzen Zwischenstopp, verweist auf eine Studie, die im Januar im Fachblatt Nature Medicine erschienen ist. Darin berichtete der Bonner Mediziner und Physiker Peter Krawitz mit Kollegen aus Deutschland, Israel und den USA von der Möglichkeit, mithilfe von Bildanalysen die Diagnose seltener Erkrankungen zu beschleunigen. Im Durchschnitt erkrankt einer von 2000 Menschen an solch einem Leiden, die meisten davon sind genetisch bedingt. Krawitz und Kollegen prüften nun in der Studie, wie gut das Computerprogramm Deep Gestalt das Foto eines Gesichts einem von 216 unterschiedlichen Syndromen zuordnen kann.

Als Ergebnis der Analyse warf die Software eine Liste der zehn wahrscheinlichsten Diagnosen aus. Und in 90 Prozent der Fälle lag der tatsächliche Gendefekt unter diesen Top Ten, wie sich im Abgleich herausstellte. In etwa 65 Prozent der Fälle traf sogar die auf Platz eins geführte zu. "Dies ist nicht nur als Forschungsergebnis interessant", sagt Krawitz, der das Institut für Genomische Statistik und Bioinformatik am Universitätsklinikum Bonn leitet. Denn die Auswertung von Erbgutanalysen dauert heute noch sehr lange. Rund 30 000 Sequenzvarianten finden sich natürlicherweise in dem Teil des menschlichen Erbguts, der zur Herstellung von Proteinen abgelesen wird. Daraus müssen Humangenetiker jene Varianten herausfiltern, die für den Patienten aufgrund seiner Symptome relevant sein könnten. "Das sind gern mal 100 Varianten, die man einzeln prüfen und auswerten muss", sagt der Mediziner. Deep Gestalt könne bei der Interpretation helfen und so die Analyse beschleunigen. Gemeinsam könnten Humangenetiker und Kinderärzte dann die Diagnose der Patienten finden.

Zumal es gar nicht so einfach ist, Abweichungen im Gesicht eines Menschen allgemeinverständlich zu beschreiben. Unter mandelförmigen Augen werden sich die meisten von uns noch Ähnliches vorstellen. Wenn Mediziner aber typische Auffälligkeiten einer seltenen Erkrankung beschreiben sollen, gehen selbst erfahrenen Ärzten schnell die Worte aus. "Mithilfe der Bildanalyse können wir Vergleiche vornehmen, auch ohne passendes Vokabular", sagt Krawitz. Eben weil die Algorithmen keine Worte brauchen.

Der Internist ist sich sicher: Vor dem Computer sitzt immer noch ein menschliches Gehirn

Ähnlich wie bei den Genaktivitätsanalysen von Fabian Theis helfen also auch hier Computerprogramme, Muster in Daten zu finden und Vergleiche anzustellen, die in Worten schwer fassbar sind. "So eine Software ist ungemein hilfreich", sagt Jürgen Schäfer, Leiter des Zentrums für unerkannte und seltene Erkrankungen des Universitätsklinikums Gießen-Marburg. Seit Jahren bietet der Internist Seminare nach Vorbild des exzentrischen Serienmediziners Dr. House an. Und längst bringt er seinen Studenten darin auch bei, wie sie mithilfe von intelligenten Suchprogrammen auf die Diagnose einer seltenen Erkrankung stoßen können. "Ohne die Nutzung von Big Data könnten wir unsere unerkannten Patientenfälle nicht lösen", sagt Schäfer. Schließlich ginge es um Diagnosen, die weltweit vielleicht erst einmal gestellt wurden. Wie plausibel die Datenanalysen sind, muss dann allerdings der Arzt entscheiden. "Wie unser IT-Experte immer betont: Das Gehirn sitzt vor dem Computer", sagt der Internist.

Dafür sollten die Mediziner allerdings verstehen, wie das Computerprogramm zu seinen Ergebnissen kommt. Theis etwa wüsste gern, anhand welcher Merkmale Deep Gestalt die Gesichter der kleinen Patienten unterscheidet und einordnet. Der Bioinformatiker redet vom Problem der Blackbox, womit Theis nicht den schwarzen Kasten im Labor seines Kollegen Heiko Lickert meint, sondern ein grundlegendes Problem der künstlichen Intelligenz: Programme lernen, Muster zu erkennen und miteinander in Bezug zu setzen. Aber welche Muster sind das eigentlich?

In diese Blackbox möchten Theis und Kollegen mehr Licht bringen. Erneut deutet der Bioinformatiker auf Netzhautbilder in seinem Laptop, darauf sind helle Punkte zu sehen. In seiner Studie zur diabetischen Augenerkrankung nämlich sah er sich genau an, an welchen Punkten der Netzhautbilder sich seine Software orientierte: Die für das Leiden typischen Erweiterungen der Blutgefäße, die Aneurysmen, waren dafür ausschlaggebend gewesen. "So wissen wir ein wenig mehr, wie die Programme lernen", sagt er. Theis gehört damit einer rasant wachsenden Gruppe von Forschern an, die künstliche Intelligenz nachvollziehbar machen wollen.

Der Bioinformatiker weiß, wie relevant diese Frage gerade in der Medizin ist. Schließlich wollen sich Ärzte sicher sein, dass die Software verlässliche Ergebnisse generiert. Manchmal entpuppen sich die lernenden Programme aber als erstaunlich fragil: Bereits kleinste Veränderungen können sie durcheinanderbringen. Studien anderer Wissenschaftler ergaben zum Beispiel, dass eine lernfähige Software nicht mehr in der Lage war, Verkehrsschilder zu erkennen, wenn die Forscher die Anzahl der Pixel der Bilder nur leicht veränderten. Etwas, was dem menschlichen Auge gar nicht aufgefallen wäre. "Manche Forschergruppen täuschen ihre Software inzwischen mit Absicht, um sie robuster gegen solche Fehler zu machen", sagt Theis.

Für einen Moment lehnt sich der Bioinformatiker in seinem Stuhl zurück, als müsse er sich von seinem Parcours durch die digitale Welt erholen. "Was heißt Verständnis heute eigentlich?", fragt er schließlich. Ihm gefällt ein Gedanke, den ein Kollege kürzlich geäußert hat: Vielleicht verstehen wir ein Computerprogramm, wenn wir vorhersagen können, wie es unter jeglicher Art von Störung reagiert, etwa bei Veränderung der Anzahl der Pixel auf einem Bild. Was das bedeutet? Dass wir noch mehr Daten brauchen, damit die Programme mehr und besser lernen können. Und um gesund und krank besser voneinander zu unterscheiden, sind vor allem qualitativ hochwertige, einheitlich erfasste Daten nötig.

Wo solche Daten unter anderem zu finden sind, möchte Fabian Theis gern zeigen. Unweit seines Büros stehen in einer großen grauen Halle 13 weiße Tanks, jeder von ihnen ist 2,5 Meter hoch, gefüllt wiegt jeder einzelne von ihnen 7,5 Tonnen. Darin lagern bei minus 180 Grad Celsius jeweils eine Millionen Bioproben, winzige Röhrchen mit Blut und Urin von zwei Dritteln der Teilnehmer der Nako-Gesundheitsstudie, einer deutschlandweiten Erhebung, die alle wichtigen Gesundheitsdaten von 200 000 Menschen seit dem Jahr 2014 erfasst. "So sieht Big Data aus", sagt Theis und reckt den Hals, um die Tanks in ihrer vollen Größe zu erfassen. Warum manche Teilnehmer im Verlauf der Jahre erkranken, andere aber gesund bleiben, soll die Analyse der Gesundheitsdaten und Proben erklären.

Die Bioproben der Nako werden anonym gespeichert, die Sorge um die Privatsphäre der Patienten ist groß. Ein sensibles Thema, mit dem auch Theis ständig umgehen muss. Natürlich müsse die Arbeit mit Patientendaten sehr sicher sein, sagt er. So kann er zum Beispiel die Bilder aus der aktuellen Netzhautstudie nur an der Augenklinik analysieren, nicht etwa an den Rechnern seines Instituts. "Die Vorgaben sind hier sehr streng", berichtet Theis. Noch streiten auch Medizinethiker, Ärzte und Juristen darüber, wer künftig die Hoheit über Patientendaten innehaben sollte. Die kranken Menschen selbst oder die behandelnden Ärzte.

Werden die Ärzte bald überflüssig? Im Gegenteil, sagt die Medizinethikerin

Allerdings fließen die Patienteninformationen aus Praxis und Klinik noch an keiner Stelle zusammen. "Jedes Krankenhaus ist wie ein eigenes Königreich, mit seinem eigenen Abrechnungssystem", sagt Theis. All diese Informationen in eine einheitliche Fachsprache zu übersetzen und zu digitalisieren, werde noch enorm viel Zeit kosten. Was aber, wenn Theis und Kollegen in ihren Studien ein für Patienten relevantes Ergebnis finden? Wie finden die Erkenntnisse dann den Weg in die Klinik? Auch das ist noch nicht klar geregelt. "Die Grenzen zwischen Forscher und Arzt verschwimmen, wir haben vor allem aus der Molekularbiologie stetig eine enorme Zunahme an Wissen, von der die Patienten profitieren können", sagt Eva Winkler, Onkologin und Medizinethikerin am Nationalen Centrum für Tumorerkrankungen der Universitätsklinik Heidelberg.

Weder Theis noch Winkler glauben, dass die intelligenten Programme den Arzt überflüssig machen: "Im Gegenteil, wir müssen unseren Patienten heute viel mehr erklären als früher", sagt die Medizinethikerin. Warum der Patient mit derselben Erkrankung im Nachbarbett eine andere Therapie bekommt, welche Behandlung für den einzelnen Menschen welchen Nutzen bringen kann. Dafür sollte der Arzt seinen Patienten gut kennen und sich viel Zeit nehmen dürfen. Schließlich sollten auch Patienten den Nutzen der enormen Datenmengen begreifen, die Forscher wie Fabian Theis analysieren - und manchmal auch in die Luft werfen.