KI-Strategie Selbst ist der Rechner

Ebola-Virus unter dem Elektronenmikroskop: Maschinenlernende Systeme könnten künftig Ausbrüche von Seuchen wie dieser verhindern.

(Foto: Frederick Murphy/dpa)

Die Bundesregierung will sehr viel Geld in die Entwicklung künstlicher Intelligenz investieren. Doch sie ignoriert dabei das wichtigste Feld: Maschinenlernen, das für die Biomedizin unverzichtbar ist.

Von Kathrin Zinkant

Als Forschungsministerin Anja Karliczek vergangene Woche in Potsdam vor die Presse trat, war ihre Aufregung fast zu spüren. Die KI-Strategie der Bundesregierung soll die deutsche Forschung zur künstlichen Intelligenz reichlich spät, aber doch noch an die Weltspitze befördern. Eine Ansage, unterfüttert mit Geld und großen Worten. In der deutschen Forschungspolitik ist so etwas eher selten.

Für viele Wissenschaftler wird die Lektüre des 47-Seiten-Strategiepapiers dennoch wenig erfreulich gewesen sein. Trotz sechs Milliarden Euro Förderung und einer ausnehmend positiven Darstellung der vorhandenen KI-Forschung "Made in Germany" distanziert sich die Bundesregierung nämlich von dem Versuch, auf dem größten und sich am stärksten entwickelnden Feld der künstlichen Intelligenz noch den Anschluss zu suchen: dem Maschinenlernen und insbesondere seiner fortgeschrittenen Formen, dem Deep und dem Reinforcement Learning. Das hat nicht nur Folgen für die deutsche KI-Forschung an sich. Sondern zugleich für alle Wissenschaften, in denen große Mengen an Daten weder von Menschen, noch automatisiert ausgewertet werden können. Ganz besonders gilt das für die moderne Biotechnologie und biomedizinische Forschung, die schon jetzt nicht mehr ohne Maschinenlernen auskommen.

Sich selbst anpassende Algorithmen des Maschinenlernens und die künstlichen neuronalen Netze des Deep Learning sind einem breiteren Publikum als Systeme vertraut, die menschliche Fähigkeiten nachstellen und teilweise schon besser beherrschen als das Vorbild. So lernte die Software AlphaGo Zero das Brettspiel Go binnen drei Tagen allein anhand der Spielregeln und erwies sich hernach sogar als unschlagbar für Systeme, die noch gegen Menschen gespielt und gewonnen hatten. Sprach- und Gesichtserkennung, Übersetzungssoftware folgen dem Prinzip, das bereits vorhandene Können des Menschen durch Maschinenlernen auf ein neues, sonst unerreichbares Niveau zu heben. Doch es gibt auch Probleme, die nicht einmal im Ansatz von Menschen gelöst werden können. Dazu gehört, aus den mittlerweile schon monströsen - und stetig weiter wachsenden - Datenmengen aus Genetik, aber auch Zellbiologie, Physiologie und Mikrobiologie verlässliche Erkenntnisse zu gewinnen.

Künftig könnten Computer automatisch Seuchen-Ausbrüche weltweit vorhersagen

Der Mathematiker und Biologe Eric Lander vom Broad Institute in Cambridge, Massachusetts, beschrieb die Bedeutung des Maschinenlernens für die Biologie bereits unfreiwillig, nachdem 2001 das menschliche Erbgut entziffert worden war: "Genom. Habe das Buch gekauft. Ist schwer zu lesen." Was eine Untertreibung war, denn man kannte nun zwar den Text der menschlichen DNA. Was die Abfolge der Buchstaben A, C, G und T zu sagen hat, welchen Subtext es im Genome möglicherweise gibt, blieb in sehr weiten Teilen jedoch rätselhaft. Das ist auch 17 Jahre später noch so. Dabei hatten Rechner durchaus schon eine Rolle im Humangenomprojekt gespielt. Kein einzelner Mensch könnte es schließlich schaffen, die Puzzleteile eines knapp 3,3Milliarden Basenpaaren langen Erbguts zueinanderzubringen. Dafür brauchte es automatisierte Prozesse.

Allerdings machten die Rechenmaschinen damals noch, was Forscher ihnen beigebracht hatten, sie folgten menschengemachten Regeln, eingeschrieben in Programme. Gerade mit Blick auf das Genom, das im Fall des Menschen nicht einfach nur 20 000 Gene repräsentiert, sondern seine Wirkung über ein fürs menschliche Gehirn nicht fassbares Netzwerk von Molekülen, Interaktionen und Regulationsmechanismen entfaltet, war eigentlich schon damals klar: Ohne künstliche Intelligenz, die von sich aus Muster erkennt und diese nutzt, um eigene Regeln zu formulieren, können das menschliche Erbgut und überhaupt die Biologie als Ganzes wohl niemals besser verstanden werden. Noch deutlicher ist das Problem geworden, seit neue Sequenzierungsmethoden nicht mehr nur einzelne, sondern Tausende von menschlichen Genomen zur Analyse bereitstellen.

Und so haben sich solche Systeme nach den ersten Durchbrüchen des Maschinenlernens vor sechs Jahren inzwischen in fast allen Bereichen der Forschung etabliert, die mit großen Mengen an Daten umgehen. Gelöst werden sollen dabei nicht nur neue, sondern auch alte Probleme, zum Beispiel die Frage, wie sich ein Eiweiß faltet, wenn es eine bekannte Zusammensetzung hat. Forscher des Broad Institute in Cambridge Massachusetts stellten gemeinsam mit israelischen Informatikern bereits 2017 einen Maschinenlern-Ansatz vor, um die Präzision der Genschere Crispr-Cas vorherzusagen. Kürzlich stellten britische Virologen in Science ein maschinenlernendes System vor, das aus genetischen und epidemiologischen Daten auf den Ursprung eines Virus schließen kann. Dadurch sollen sich künftige Ausbrüche verhindern lassen, zum Beispiel das immer wiederkehrende Auftreten von Ebola in Afrika.

Doch für solche Anwendungen wird es wohl kaum reichen, KI-Techniken zu nutzen, die anderswo entwickelt wurden. Der australische Roboterpionier Rodney Brooks schrieb 2017 in einem Essay: "Manche Leute glauben irrtümlicherweise, dass eine Version des Maschinenlernens für beliebige und für alle Probleme funktionieren wird. Doch obwohl das Maschinenlernen an Wunder grenzende Resultate erzielen kann, muss es sorgfältig individualisiert werden." Die dafür nötige Forschung findet demnach nicht nur zentralisiert in der unmittelbaren KI-Wissenschaft statt. Sondern auch überall dort, wo das maschinelle Lernen Probleme lösen soll.

Was mit einem Datensatz funktioniert, lässt Rechner am nächsten scheitern

Was ohne das nötige Know-How passieren kann, haben Experten aus den USA und Großbritannien erst vor wenigen Wochen in einem Paper auf dem Preprint-Server biRxiv dargelegt. So können manche Systeme für die Daten, mit denen sie gelernt haben, zwar präzise Vorhersagen treffen. Sie scheitern aber an neuen vergleichbaren Datensätzen, weil sie anhand der falschen Merkmale gelernt hatten. Bekannt sind solche Probleme vor allem aus der Bilderkennung, zum Beispiel, wenn anstelle von Objekten oder Personen das Copyright zur Unterscheidung herangezogen wird. Auftreten können sie aber auch in anderen Systemen. Auf diese und andere Hürden vorbereitet zu sein, hieße selbst zu forschen. Selbst wenn man spät dran ist.