Künstliche Intelligenz im Test Ohne gesunden Menschenverstand

Wie viele Menschen leben in China? Wer hat dich erschaffen? Mit solchen Fragen überprüft der Turing-Test, ob Computer es mit der Intelligenz des Menschen aufnehmen können. Gerade bei den ganz banalen Fragen fliegen die Maschinen noch auf - zum Beispiel weil sie sich verplappern.

Von Michael Moorstedt

Die Frage, ob Computer einen Intelligenzgrad erreichen, der es mit den Menschen aufnehmen kann, ist schon lange keine Frage der Science Fiction oder der Philosophie mehr. Der Forschungszweig der Künstlichen Intelligenz (KI) arbeitet hart am Aufschluss der Maschinen. Und der Loebner-Preis ist ein Wanderpokal für diese Disziplin.

Computerprogramme stellen sich hier dem sogenannten Turing-Test. Im Jahr 1950 postulierte der britische Mathematiker Alan Turing, dass man die Intelligenz einer Maschine messen könne, indem man ihr kommunikatives Verhalten in Konkurrenz zu dem eines Menschen setzt.

Das Experiment geht folgendermaßen: Eine Gruppe Juroren unterhält sich über einen Chat mit unterschiedlichen Paaren hinter einem Sichtschutz. Jedes dieser Paare besteht aus einem Computerprogramm, sogenannten Chat-Bots, und einem Menschen. Die Schiedsrichter müssen herausfinden: Welcher Gesprächspartner ist Mensch? Und welcher Maschine? Sobald die Antworten der Software nicht mehr von denen eines Menschen unterschieden werden können, so Turing, könne man "von denkenden Maschinen sprechen, ohne Widerspruch erwarten zu müssen".

"Wie heißt die Hauptstadt von Litauen?"

Turings Prophezeiung, dass ein Computer dem Test bis zum Jahr 2000 standhält, hat sich - und das ist vielleicht sogar eine gute Nachricht für die Menschen - nicht bewahrheitet. 23 Mal fand der Loebner Preis seit 1991 statt und bislang konnte keines der Programme die Richter von sich überzeugen.

An einem Samstag um drei Uhr Ortszeit hatten die Chat-Bots im nordirischen Londonderry in diesem Herbst wieder einmal die Gelegenheit, sich zu beweisen. Restriktionen gibt es in den Gesprächen nicht, Smalltalk ist genauso erlaubt wie ein scharfes Verhör. Interessant war vor allem, mit welcher Strategie die Richter die Programme ihrer Maschinenhaftigkeit überführen wollten.

Der erste schlüpft in die Rolle eines archaischen Schulmeisters: "Wie heißt die Hauptstadt von Litauen?" - "Wer ist der amtierende Präsident des Landes?" - "Wie viele Menschen leben in China?" Ein zweiter Richter fragt nach Kindern, dem Lieblingsgetränk und dem Spitznamen der Stadt. Ein Dritter probiert es mit Logikrätseln. Eine Richterin geht an die Substanz und frage: "Wer hat dich erschaffen?" Eines der Programme fällt darauf rein und antwortet, dass es in der Programmiersprache AIML geschrieben wurde.

Die Fragen sagen viel darüber aus, welches Potenzial die Richter den Maschinen zutrauen. Und deswegen auch darüber, wie sich die Beziehungen zwischen Mensch und Software verändern. Was bedeutet es zum Beispiel, wenn die Frage nach der chinesischen Bevölkerung mit der richtigen Zahl beantwortet wird, so wie es in der dritte Runde geschah? Suchmaschinen wie Google oder Wolfram Alpha können darauf antworten, aber welcher durchschnittliche Nordire hat dieses Wissen parat? Eine bis auf die letzte Stelle korrekte Antwort wirkt heutzutage maschinenhaft. Auch, weil sich die Menschen an die Präsenz von teilautonomen Software-Agenten wie Apples Siri oder das Google-Äquivalent Google Now gewöhnt haben.

Menschen sind boshaft, Computer servil

Das war freilich nicht immer so. In den Achtzigerjahren beschrieb die amerikanische Technik-Soziologin Sherry Turkle in ihrem Buch "The Second Self: Computers and the Human Spirit" die menschliche Tendenz, das Verhalten von Maschinen analog zu dem von Menschen zu bewerten. Sie sprach vom ELIZA-Effekt, nach dem gleichnamigen, aus nur wenigen hundert Zeilen Code bestehenden Programm, das der MIT-Informatiker Joseph Weizenbaum im Jahr 1966 entwickelte.

ELIZA imitierte einen gutmütigen Psychotherapeuten, indem es die Aussagen eines menschlichen Gesprächspartners in Fragen umwandelte, Schlüsselwörter des Benutzers wie "Familie" oder "es geht mir nicht gut" identifizierte und an diesen zurückspielte. So wurde das Programm von den Probanden tatsächlich als mitfühlend und emotional wahrgenommen, selbst wenn sie wussten, dass sie es mit einem Computer zu tun hatten. Einige Versuchspersonen baten sogar, mit der Maschine alleine gelassen zu werden. Zu persönlich sei der Austausch, als dass sie die Anwesenheit eines Beobachters ertragen könnten.

Knapp 60 Jahre, nachdem Turing sein Gesetz formulierte, regt sich jedoch Kritik an seinem Test. Computerwissenschaftler wie der Kanadier Hector Levesque bezweifeln, dass ein Gespräch als Gradmesser für Intelligenz taugt, weil man dabei viel zu leicht betrügen könne. So streuen Maschinen willkürliche Schreibfehler in ihre Antworten. Fehler liegen in der Natur des Menschen, deshalb ist die Fähigkeit, eine perfekte Rechtschreibung bei 2000 Anschlägen pro Minute hinzulegen zu Recht verdächtig. Eine andere Strategie der Programme oder besser ihrer Entwickler besteht in einer gewissen Rotzigkeit. Menschen sind boshaft, der Computer eher servil. Wenn man also eine mit Unflätigkeiten gespickte Antwort erhält, steckt dahinter wohl ein Mensch.

Wird es zu banal, bekommt der Computer Probleme

Laut Levesque hat sich die Gemeinde der KI-Forscher verrannt. Anstatt immer neue Trends zu verfolgen, sei es Big Data, Googles "Virtual Brain" oder die eben erst angekündigte Deep-Learning Software von Facebook, solle man lieber die Subtilität menschlichen Wissens analysieren. Deshalb schlägt Levesque eine neue Art von Test vor, der von einer durchschnittlich intelligenten Person leicht zu lösen ist, aber eine Maschine, die ihr "Wissen" nur Datenbankabfragen verdankt, ziemlich fordert.

Levesque entwirft ein sogenanntes Winograd-Schema, er spielt mit linguistischen Tricks. Eine seiner Aufgaben geht folgendermaßen: "Der große Ball bricht durch den Tisch, weil er aus Styropor ist?" Frage: "Was ist aus Styropor? Der Ball oder der Tisch?" Solche Fragen sind für Computer deshalb so schwer zu beantworten, weil es zur Beantwortung erstens "gesunden Menschenverstand" braucht und weil sie Dinge betreffen, die viel zu banal sind, als dass sie in den Quellen - egal ob Enzyklopädie oder Internetseite - erwähnt würden, aus denen die Programme ihr Wissen ziehen. Und so kommen die meisten Computer, die sich künstlicher Intelligenz rühmen, in Schwierigkeiten, wenn ein Begriff oder ein Sachverhalt nicht zuvor explizit in der Datenbank verarbeitet wurde.

Aus dem gleichen Grund leistete sich IBMs Wissensungetüm Watson 2011 bei der ersten Runde der Quizsendung Jeopardy einen peinlichen Ausrutscher. Weil die Maschine, die aus 90 einzelnen Servern zusammengesetzt ist, über massive 16 Terabyte RAM verfügt, von der Bibel bis zur Wikipedia mit jeder erdenklichen Quelle gefüttert wurde und doch gerade darauf gedrillt war, subtile Andeutungen menschlicher Sprache zu verstehen, von simplen Tatsache verwirrt war. Nämlich, dass man im alltäglichen Gebrauch den Kontinent Amerika mit dem Staat Amerika gleichsetzen kann. Auf eine Frage über Flughäfen in der Kategorie US-amerikanische Städte antwortete Watson mit: Toronto.