bedeckt München 24°

Verzerrte Algorithmen:Die blinden Flecken der künstlichen Intelligenzen

Nieren

Die Google-Tochter Deepmind brüstet sich in einer Studie, dass ihre KI bei Patienten mit Nierenproblemen Ärzten überlegen sei.

(Foto: iStockphoto)
  • Googles künstliche Intelligenz Deepmind hat schon professionelle Schachspieler und Gamer besiegt. Das nächste Ziel im Verdrängungskampf: die Ärzteschaft.
  • Laut einer aktuellen Studie erkennt der Google-Algorithmus drohendes Nierenversagen bis zu zwei Tage früher als Mediziner.
  • Wissenschaftlich ist die Behauptung kaum haltbar. Vorhergesagt hat das System bisher keinen einzigen Fall von Nierenversagen.
  • Die Daten, mit denen der Algorithmus trainiert wurde, waren zudem alles andere als repräsentativ.

Nach Lkw-Fahrern, Supermarktkassierern und Lagerarbeitern könnte ein weiterer Berufsstand zum Opfer der Automatisierung werden: die Ärzteschaft. Die Verdrängungsgefahr geht von der britischen Firma Deepmind aus, einer Google-Tochter. Jenem Unternehmen also, das mittels künstlicher Intelligenz Go-, Schach- und inzwischen auch Computerspieler zur Verzweiflung bringt. Gegen die Deepmind-Algorithmen sind selbst die fähigsten menschlichen Kontrahenten chancenlos.

Weil sich damit aber noch kein Geld verdienen lässt, versucht Deepmind seine KIs vor allem im Gesundheitssektor zu vermarkten. Nach Experimenten bei Augenerkrankungen und verschiedenen Krebsarten, wurde Anfang August der nächste Durchbruch verkündet. Bis zu 48 Stunden früher als bisher könne ein neues KI-System ein Nierenversagen bei Patienten vorhersagen, so eine Studie, die in Nature veröffentlicht wurde. Viele Medien übernahmen die Meldung. Und das, obwohl sich an dem Papier viele Probleme zeigen, die es in Sachen KI momentan gibt.

Medizinische Vorhersagen mit historischen Daten

Zunächst einmal wurde hier überhaupt nichts vorhergesagt, vor allem nicht an echten Menschen. Man gab einem neuronalen Netzwerk lediglich historische Daten zu Nierenproblemen und für jeden untersuchten Patienten eine Vielzahl von Datenpunkten und ließ die Software daran arbeiten, ein Muster zwischen beidem zu erkennen. Zweitens sind die Ergebnisse alles andere als eindeutig. Die Vorhersagen treffen nur in etwas mehr als der Hälfte der Fälle zu. Je früher die Vorhersage gemacht wird, desto unsicherer ist sie auch. Außerdem generierte das System für jeden richtigen Treffer zwei falsch-positive.

Die Deepmind-Forscher haben außerdem versäumt, darzulegen, wie das KI-System überhaupt zu seinen Einschätzungen kommt. Wir haben es also einmal mehr mit einem Phänomen zu tun, das der Harvard-Jurist Jonathan Zittrain jüngst im New Yorker "intellectual debt" genannt hat. Danach laden wir uns intellektuelle Lasten auf, indem wir erst die Antworten geben und die Erklärungen dafür nachliefern. Korrelationen statt Kausalitäten - im Bereich der KI-Forschung ist das mittlerweile ein üblicher Weg, Wissenschaft zu betreiben. Das Prinzip der Falsifikation, das jeder Studierende im ersten Semester kennenlernt, ist durch das Gieren nach schlagzeilenträchtigen Forschungsdurchbrüchen - und den damit einhergehenden Börsengewinnen - außer Kraft gesetzt.

Kommen wir zur vielleicht gravierendsten Schwäche der Studie: Die Daten, mit denen die Software trainiert wurde, bezog Deepmind zu großen Teilen von Krankenhäusern, die dem amerikanischen Kriegsveteranenministerium unterstellt sind. Das hatte zur Folge, dass nur sechs Prozent der Patienten weiblich waren. Man kann also keineswegs annehmen, dass die statistischen Muster auch auf die Gesamtbevölkerung übertragbar wären.

Die KI erkennt Gesichter weißer Männer am besten

Auch das ist ein in der KI-Forschung häufiges Problem. Muster erkennt die Software nur in jenen Daten, die man ihr vorlegt. Wenn man also mit Daten männlicher oder weißer Patienten arbeitet, marginalisiert man große Bevölkerungsteile. Diese normative Verzerrung durch nicht repräsentative Trainingsdaten ist mittlerweile nicht mehr nur auf Gesichtserkennungssysteme beschränkt, die eben besonders gut weiße, männliche Personen erkennen. Laut einer ausgerechnet von Facebook durchgeführten Studie tun sich Bilderkennungsalgorithmen mit Personen aus einkommensschwachen Haushalten und mit Objekten aus ihrer Lebenswelt schwerer als mit solchen aus reicheren Schichten.

Das hat zur Folge, dass die Aloe-Vera-Emulsion im Spender von der Software eher als Seife erkannt wird als ein schnöder Klotz Kernseife. Die Welt, die von der KI beschrieben wird, wird eine sein, die ihrer Schöpfer entspricht. Und das sind nun mal überwiegend weiße, reiche Männer.

Zeitgeist Qualen nach Zahlen

Unerwünschte Inhalte im Netz

Qualen nach Zahlen

Algorithmen gehorchen nur der Statistik. Fördern Videoempfehlungen auf Youtube deshalb die Radikalisierung der Gesellschaft?   Von Adrian Lobe