Informatik:Watson konnte Diagnosen stellen, auf die Ärzte nicht kamen

Lesezeit: 7 min

Ähnliches schaffte schon in den 1960ern Eliza, einer der ersten Chatbots, entwickelt von dem Informatiker Joseph Weizenbaum vom MIT. Das schlichte Programm regte Studenten an, ernsthafte Gespräche mit ihm zu führen, dabei täuschte die Software ihre Intelligenz durch unverbindliche Sätze wie "Da bin ich anderer Meinung" vor, oder wiederholte einfach die Eingaben der Nutzer leicht verändert in Frageform. "Auf gewisse Art und Weise war Eliza schon dazu in der Lage, den Turing-Test zu bestehen, denn es dauerte lange, bis Menschen begriffen, was dahintersteckte", sagt Bauckhage. "Wenn wir Menschen uns unterhalten, schreiben wir uns gegenseitig automatisch Intelligenz zu, weil sich der andere so verhält, wie wir es erwarten."

Das Bestehen des Turing-Tests ist somit weder ein Hinweis darauf, wozu KI in der Lage ist, noch darauf, wo ihre Mängel liegen. Erhebliche Leistungen bringt die KI zum Beispiel bei der Extrahierung von Wissen aus großen Datenmengen. Das IBM-System Watson etwa kann medizinische Patientendaten und Studien auswerten und Diagnosen sowie Therapie-Vorschläge erstellen. Auch wenn die Ergebnisse nicht perfekt sind - Watson konnte bereits Krankheiten identifizieren, die Ärzte nicht erkannt hatten. In Tokio diagnostizierte das System zum Beispiel bei einer 60-jährigen kranken Frau eine seltene Leukämie, deren Symptome die Ärzte vor ein Rätsel gestellt hatten. Watson ist ein mächtiges Tool, was aber nicht heißt, dass Watson schlauer ist als ein Mensch.

Es gibt eben eine ganze Reihe von Fragen, mit denen KI-Programme überhaupt nicht zurechtkommen, während sie für Menschen leicht zu beantworten sind. Ein Beispiel ist die Vermischung von unbestimmten Zeitsequenzen und Sachwissen: Maria besitzt einen Kanarienvogel namens Paul. Hat Paul Vorfahren, die 1750 am Leben waren? Bisher wurde kein System implementiert, das solche Fragen beantworten konnte. Ein weiteres Beispiel: Angenommen, jemand besitzt zwei identische Bücher, eines mit weißem Cover, eines mit schwarzem. Würde man aus dem weißen eine Seite herausreißen, würde die Seite auch aus dem schwarzen Buch fallen? Würde eine Seite in das schwarze Buch hineinwachsen? Oder nichts von all dem? Weil die Fragen so absurd sind, hat die KI keine Datenbasis, aus dem sie eine Antwort beziehen könnte. Sie ist auf Informationen angewiesen, die sie in Datenbanken oder dem Internet findet.

Auch die Sprachverarbeitung bereitet der KI noch große Schwierigkeiten. Das zeigen zum Beispiel Diktierprogramme. "Aufgabe ist es, das Gesprochene fehlerfrei in Zeichen und Wörter zu überführen, aber bei der tatsächlichen Verwendung muss das Programm zwischen Diktier- und Meta-Eingaben unterscheiden, also Kommandos verstehen wie 'neue Zeile' oder 'schreib die letzten drei Wörter kursiv'", erläutert Reinhard Karger, Computerlinguist und Sprecher des Deutsches Forschungszentrums für Künstliche Intelligenz (DFKI) in Saarbrücken. Dies gelingt heute noch nicht intuitiv. Es funktioniert nur, wenn vorher spezielle Befehle gelernt wurden. Auch können solche Systeme keine Satzzeichen automatisch ergänzen. Zudem, so Karger, würde jedes System heute beim Turing-Test in gesprochener Sprache versagen. Es fehle an einer adäquaten Satzmelodie mit Variationen in Lautstärke, Betonung und Fokus. Da gäbe es noch viel zu tun.

82,44 Prozent

der Fragen in einem Leseverständnistest der University of Stanford konnte Anfang dieses Jahres ein KI-System des chinesischen IT-Konzerns Alibaba beantworten. Einen Tag später erreichte eine Microsoft-KI sogar 82,65 Punkte. Sie waren damit beide besser als alle menschlichen Probanden bislang, unter ihnen erreicht der beste Teilnehmer nur 82,30 Prozent. Das sogenannte Stanford Question Answering Dataset enthält 100 000 Fragen und Antworten, die auf Wikipedia-Artikeln beruhen.

Es ist folglich nicht leicht, Testverfahren zu entwickeln, die solche Mängel aufdecken. Ein bereits existierender Test, der dies ansatzweise versucht, ist die sogenannte Winograd Schema Challenge, entwickelt an der Universität Toronto. Dort wird sozusagen der gesunde Menschenverstand des Rechners geprüft. Forscher geben den KI-Systemen Sätze vor, die mindestens ein Pronomen mit mehreren Bezügen aufweisen. Die KI muss herausfinden, welcher davon sinnvoll ist.

Ein typisches Beispiel geht so: Ein Kunde betritt eine Bank und sticht auf den Kassierer ein. Er wird in die Notaufnahme gebracht. Wer wird in die Notaufnahme gebracht? Menschen wissen, wer gemeint ist, aber für Rechner ist es schwierig. Dafür brauchen sie ein breites Basiswissen. Sie müssen begreifen, dass Stiche mit Verletzungen verbunden ist und dass eine Notaufnahme verletzte Menschen behandelt. Das Problem bei dem Winograd-Test ist, dass solche Fragen konstruiert sind und somit nur mit großem Aufwand auf umfassende Themengebiete skaliert werden können.

Zur SZ-Startseite

Lesen Sie mehr zum Thema