Spracherkennung:"Ich rate unbedingt, damit zu spielen"

Smartphone-Trends 2013

"Siri, was steht an?" Meist sind es simple Fragen, die virtuelle Assistenten ebenso simpel beantworten.

(Foto: Sven Hoppe/dpa)

"Ergibt logisch" statt "Ägyptologie": Wie können Siri und Co. von ihren Nutzern lernen? Fragen an den Computerlinguisten Jonas Kuhn.

Interview von Eva Wolfangel

Sprachsteuerung wird alltäglich - trotzdem verstehen Maschinen vieles falsch oder zwingen Nutzer zu seltsamen Aussagen. Computerlinguist Jonas Kuhn von der Uni Stuttgart erklärt die häufigsten Fehler und rät davon ab, sich an die Maschinen anzupassen. Sonst lernen sie es nie.

SZ: Heute sind sprachgesteuerte Geräte fast schon Alltag - aber immer wieder geschehen Missverständnisse. Ist die Technologie reif für den Markt?

Kuhn: Im Vergleich zu vor fünf oder zehn Jahren ist die Qualität schon dramatisch gestiegen. Aber jetzt benutzen wir diese Systeme nicht mehr nur zum Spaß sondern um Dinge im Netz zu suchen oder Geräte zu steuern. Und deshalb fallen jetzt auch die Fehler mehr auf.

Was fällt den Geräten besonders schwer? Unterschiedliche Dialekte?

Das sogar weniger. Früher musste man als Nutzer die Spracherkennung mühsam auf die eigene Stimme trainieren, heute gibt es kaum noch Beschwerden, dass Dialekte nicht gut verstanden werden. Das halte ich für weitgehend gelöst. Aber wir dürfen nicht vergessen: Sprachverstehen an sich ist eine unwahrscheinlich schwierige Aufgabe. Je nach Kontext können Lautfolgen verschiedene Bedeutungen haben. Und Maschinen können den Kontext nicht wirklich verstehen; also ist es für sie oft schwierig einzuordnen, worum es genau geht.

Manchmal liegen sie ganz daneben oder machen aus einem Wort zwei andere, die gemeinsam ähnlich klingen.

Ich habe neulich Siri gefragt: "Wann findet in Frankfurt die Musikmesse statt?" Siri hat die letzten beiden Wörter zusammengezogen und "Messestadt" daraus gemacht. Diese Systeme überprüfen stets im Hintergrund, welche Wörter zusammenpassen, worum es gehen könnte. Zu Frankfurt passt offenbar Messestadt so genau, dass es diese Konstruktion naheliegend fand. In diesem Fall hätte nur eine andere Formulierung geholfen, in der "Messe" und "statt" nicht nacheinander kommen. Wo genau ein Problem liegt, ist natürlich oft nicht intuitiv nachvollziehbar. Aber Umformulieren ist die beste Strategie.

Tun die Maschinen sich schwer, wenn wir nuscheln oder Wörter zusammenziehen, so dass sie die Lücken dazwischen nicht identifizieren können?

Zunächst müssen die Geräte ja Folgen von Lauten erkennen und diese auf Wörter abbilden. Dafür gibt es im Hintergrund Wörterbücher. Diese dürfen aber nicht zu riesig sein, nicht nur, weil dann alles langsamer wird, sondern vor allem auch, weil sie sonst womöglich den Normalfall nicht mehr finden. Gestern habe ich Siri gefragt: "Wo in Deutschland kann man Luft- und Raumfahrt-Technik studieren?" Das hat sie richtig verstanden. Die gleiche Frage mit Ägyptologie ging schief.

Statt "Ägyptologie" hat sie "ergibt logisch" verstanden. Ägyptologie steht nicht im Wörterbuch. Das ist im Normalbetrieb sinnvoll: Wenn in einem Satz "ergibt logisch" vorkommt, würde es die Nutzer verwirren, wenn da die Ägyptologie vom Himmel fällt. Lücken zwischen Wörtern gibt es übrigens in flüssiger Sprache nie, deshalb müssen die Systeme überall mit Wortgrenzen rechnen.

"Und die in Bremen?"

Wie ist das mit besonders langen Sätzen oder Folgesätzen?

Wenn sich Menschen unterhalten, teilen sie komplizierte Fragen gern auf, aber bei Anschlussfragen verhalten sich die Systeme noch sehr unnatürlich. Wenn ich beispielsweise frage: "Wie viele Studenten hat die Uni Hamburg?", bekomme ich eine klare Antwort. Ergänze ich dann: "Und die in Bremen?", versteht Siri das nicht. Dann bekomme ich einfach allgemeine Informationen über Bremen.

Dazu kommt, dass Assistenten auf dem Smartphone auch immer noch die passende App finden müssen, was auch wieder mit dem Kontext zusammenhängt. Meine Frage "Wer spielt Harry Potter?" wurde richtig beantwortet. Auf die Folgefrage "Wie heißt die Tante von Harry Potter?" hingegen sagte Siri: "Ich kann Harry Potter nicht in deinen Kontakten finden." Offenbar linkt das Stichwort "Tante" automatisch zum Adressbuch.

Ein Bekannter ist zu Hause zum kleinen Diktator geworden: Nur wenn er im Befehlston und in unvollständigen Sätzen spricht, hört seine via Alexa gesteuerte Hausautomatisierung auf ihn. Müssen wir uns vielleicht anpassen an die Maschinen anstatt andersherum?

Das ist nicht ratsam. Schließlich lernen die Maschinen ständig hinzu. Die Sprachdaten von heute sind gleichzeitig die Trainingsdaten für morgen. Sie wollen ja nicht, dass die Sprachtechnologie lernt, dass Menschen in unvollständigen Sätzen sprechen und stets Befehlston an den Tag legen.

Werden die Systeme jemals typisch deutsche Schachtelsätze verstehen?

Dafür braucht es Schachtelsätze-Trainingsdaten. Ich rate unbedingt, damit zu spielen und das immer wieder auszuprobieren.

Was die Maschinen zum Leidwesen vieler nicht verstehen ist, wenn man sich verspricht und sich korrigiert. Gibt es da eine Lösung?

Von der Sprachmelodie hört man, wenn jemand etwas korrigiert: Er macht mitten im Satz eine Pause und betont dann das Wort, mit dem er den Fehler überschreibt, stark. Es ist nicht einfach, aber das kann man technisch abbilden.

Manche Nutzer klagen, dass sich Alexa & Co. verwirren lassen, wenn mehrere Menschen reden oder jemand dazwischenquasselt. Können die Systeme lernen, Sprecher zu unterscheiden? Könnte man Alexa beibringen, bestimmte Themen nur von einem Sprecher anzunehmen - beispielsweise: Über das Fernsehprogramm entscheiden die Eltern, nicht die Kinder?

Das ist technologisch knackig, aber machbar. Das wäre dann so ähnlich wie Gesichtserkennung: Menschen an ihrer Art zu sprechen zu erkennen. Dann sind auch automatische Gesprächsprotokolle denkbar - die Frage ist, ob wir das wollen. Man muss sich darauf verlassen, dass die Unternehmen damit keinen Unsinn machen.

Apropos Spione: Alexa, Siri und Co. hören ja immer zu, falls sie gerufen werden. Warum sprechen sie manchmal auch los ohne das entsprechende Kommando?

Sie hören Laute, die vielleicht etwas anderes bedeuten, aber klingen wie "o.k. Google". Gestern Abend bei der Tagesschau hat Siri auf einmal auch mitgeredet. Die Systeme sind so programmiert, dass sie eher sensibel reagieren - weil es frustrierend ist für den Nutzer, wenn es nicht klappt. Vermutlich hat etwas im Fernsehen geklungen wie "hey, Siri". Oh, jetzt übrigens will sie auch wieder mitreden.

Zur SZ-Startseite

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: