Siri und Co.: Berechnende Alltagshelfer

Humor, wie Nerds ihn lieben: "Hallo Computer", sagt der Professor in der Szene aus einer Episode der Science-Fiction-Serie "Star Trek". Keine Reaktion. "Hallo Compuuuter!" Man reicht ihm die Maus. Und der Mann spricht hinein wie in ein Mikrofon: "Hallo Computer!" Natürlich tut sich auch jetzt nichts, denn den Wissenschaftler aus der Zukunft hat es in die 1980er-Jahre verschlagen, und da waren ein farbiger Bildschirm und eine Maus schon das höchste der Gefühle.

Wäre der Zeitreisende 30 Jahre später gekommen, die Chancen wären nicht schlecht gewesen, zumindest eine Reaktion zu bekommen. Vor kurzem hat der Internet-Versandhändler Amazon ein zylinderförmiges Gerät namens Echo vorgestellt. Mit seinen hochempfindlichen Mikrofonen lauscht es ständig, ob irgendjemand das Codewort sagt. Um dann im Internet etwas zu suchen, Termine und Erinnerungen zu verwalten, das TV-Programm vorzulesen, die neuesten Schlagzeilen. Oder die Lieblingsmusik abzuspielen. Dass Amazon dafür ein eigenes Gerät gebaut hat, das nichts anderes tut, ist neu. Eigentlich gibt es die digitalen Assistenten aber schon einige Jahre - am populärsten ist Apples Siri.

Das Vorbild digitaler Assistenten sind solche aus Fleisch und Blut

Im Amazon-Werbevideo lautet das Codewort "Alexa", und dass das wie Siri und Microsofts Cortana weiblich klingt, ist kein Zufall. Denn das Vorbild der digitalen Assistenten sind solche aus Fleisch und Blut, und die sind überwiegend weiblich. Das mit dem Vorbild darf man wörtlich verstehen: "Wir haben echte persönliche Assistenten gefragt, wie sie ihren Vorgesetzten am besten helfen können", sagt Christian Maier. Er ist bei Microsoft Deutschland Produktmanager für die Suchmaschine Bing und damit auch für Cortana zuständig. Die war bisher nur auf Englisch verfügbar. Nun muss sie lernen, mit der anderen Grammatik zurechtkommen, muss deutsche Vorlieben pauken und die Besonderheiten der teutonischen Phonologie.

In der Tat ist es bereits schwer genug, die Spracheingaben der Nutzer korrekt zu erfassen. "Zum Beispiel klingen SMS und SMF sehr ähnlich", sagt Maier, "man braucht daher viele Sprachbeispiele, um die feinen Unterschiede herauszubekommen." Denn auch wenn sie sich intelligent geben, wenn sie auf Wunsch sogar Witze erzählen ("Rheinische Gottheit mit einem Buchstaben? - J") oder pseudophilosophische Weisheiten von sich geben - es ist nur eine Mischung aus digitaler Spracherkennung und künstlicher Intelligenz, die mit einiger Mühe zu erraten versucht, was ein Mensch wirklich will.

Beide, die Spracherkennung wie die künstliche Intelligenz, sind über die Jahre ein gutes Stück vorangekommen. Gute Navigationssysteme im Auto erkennen mittlerweile Sätze wie: "Navigiere nach Jägerstraße 63b in Berlin" und müssen nicht erst umständlich in verschiedenen Arbeitsschritten mit den richtigen Angaben gefüttert werden. Doch gemessen an den Erwartungen von früher müsste man eigentlich schon viel weiter sein.

Spracherkennung ist im Grunde noch immer ein statistisches Verfahren, das auf der Erkennung von Mustern basiert. Zunächst einmal müssen überhaupt einzelne Wörter identifiziert werden - Menschen neigen ja dazu, alles aneinanderzureihen. Und dann versuchen die Systeme wieder, aufgrund von Wahrscheinlichkeiten herauszufinden, was eine Folge von Wörtern bedeuten könnte.

Dabei macht es die Masse: Riesige Datenbanken mit Sprachdaten und Rechenzentren, die solche Daten blitzschnell auswerten können. Das erklärt, warum ein Handy immer online sein muss, wenn die Spracherkennung funktionieren soll. Die Rechen- und Speicherkapazität des Gerätes wäre viel zu gering. Die Ziele dagegen sind hoch gesteckt. Die digitalen Helferlein sollen nicht mehr bloß auf Anfragen reagieren, sondern vorausahnen, was der Mensch will.

Komfort gegen Daten

"Cortana lernt, welche Tagesabläufe ein Nutzer hat, wann er zur Arbeit pendelt, sie kennt den Terminkalender, weiß, wie der Verkehr ist", sagt Christian Maier, "und sie merkt sich die Vorlieben der Nutzer." Wer beispielsweise gerne italienisch isst, dem könnte sie in einer fremden Stadt von sich aus einen guten Italiener empfehlen. Und sie könnte raten, etwas eher zur Arbeit zu fahren, wenn der Verkehr dichter ist.

Doch all das erfordert, dass die Assistentin auch die dazu nötigen Daten bekommt. Cortana ist so eingestellt, dass sie immer nachfragt: Soll ich mir das merken? Andere Systeme wie Google Now haben da weniger Skrupel. Wer den Dienst nutzt, muss damit leben, dass jeder mit Zugriff auf das Google-Konto auch sehen kann, wann man wo war, welche Termine man hatte. Das ist noch lange nicht alles. Kombiniert mit einem Armband wie Microsofts erfolgreichem "Band" zeichnen die allwissenden Assistentinnen auf Wunsch auch auf, wie gut man schläft, ob man sich tagsüber genug bewegt. Und mischt sich ein, wenn man sich nicht an die gesteckten Ziele hält.

Die Frage wird also sein, wie viel von seiner Privatsphäre man den wie freundlich auch immer sich gebenden, aber letztlich nur berechnenden Maschinen anvertrauen will. Bis dahin bleibt noch viel Zeit, in der die digitalen Assistenten dazu lernen können. Damit sie zum Beispiel die Frage "Wann geht die nächste S-Bahn zum Flughafen?" mit einer Uhrzeit beantworten und nicht mit der völlig nutzlosen Eingabe genau dieser Frage in eine Suchmaschine.