Silicon Future – Hör gut zu

Silicon Future:Hör gut zu

20. September 2021, 19:01 Uhr

Lesezeit: 3 min

Siri, Alexa und Co. erraten immer besser, was Menschen ihnen sagen. Das heißt aber nicht, dass die Sprachassistenten auch kapieren, was das bedeuten soll.

Von Helmut Martin-Jung

Neulich in der Bahn. Die alte Dame hat es nicht so mit dem Tippen auf ihrem iPad. Aber sie hat da einen Trick: Siri. Was sie in Kurznachrichtendienste und E-Mails eingeben will, sagt sie der digitalen Assistentin vor. Das funktioniert zwar auch nur so mittel, weil die FFP2-Maske die Stimme dämpft. Langsam aber sicher kommt sie voran, mit viel Gebimmel, weil Siri jedes Mal akustisch ankündigt, wenn sie bereit zum Lauschen ist. Aber so eine Zugfahrt von München nach Berlin dauert auch lange.

Wenn schon Hochbetagte solche Systeme nutzen, sind Sprachassistenten dann in der Mitte der Gesellschaft angekommen? Eine Umfrage des Digital-Branchenverbandes Bitkom erweckt zumindest diesen Eindruck. Am häufigsten genutzt wird die Spracherkennungsfunktion, um jemanden anzurufen. Hier haben es die Siris und ihre Kolleginnen und Kollegen auch relativ leicht, denn das Vokabular, das sie beherrschen müssen, ist sehr klein - mehr als ein paar Hundert Kontakte haben wohl die wenigsten in ihrem Smartphone gespeichert.

Auch beliebt: Die Suche im Netz. Hier ist das Problem für die Anbieter ebenfalls nicht allzu schwer zu lösen. Sobald sie ein Kommando wie "Suche nach..." identifizieren, wissen sie, dass sie den Browser starten und das, was danach kommt, ins Suchfeld eintragen müssen. Das ist fast dasselbe, als würde ein Mensch das eintippen. Die Spracherkennung ist auch in den vergangenen Jahren immer besser dabei geworden, gesprochene Sprache zu verschriftlichen.

Die Helferlein wachen oft genug zum falschen Zeitpunkt auf

Doch das ist ja nur der erste Schritt. Eine Größenordnung komplizierter wird die Sache, wenn Computer auch verstehen sollen, was das Gesprochene bedeuten soll. Mit anderen Worten, was der Mensch da eigentlich sagen will. Wie wohl jeder schon mit sprachgesteuerten Systemen erfahren hat, haut das ziemlich oft nicht hin. Da kann einem die Werbung noch so oft schönmalen, wie hilfreich eine Alexa zu Hause wäre.

Das fängt schon damit an, dass die Helferlein oft genug zum falschen Zeitpunkt aufwachen. Eigentlich sollen sie ja bloß dann lauschen, wenn ihr Codewort erklingt, "Alexa" bei Amazons Echo-System, "Hey, Siri" bei Apple oder "Hey, Google" bei Google. Da redet jemand über eine Kugel, und schon meldet sich freudig blinkend der Google-Assistent. Das funktioniert übrigens auch, wenn die Stimme aus dem Fernseher kommt.

Blöd ist nur, dass in den nächsten Sekunden alles aufgenommen wird im Raum. Und denke ja keiner, das wäre wertlos für die Unternehmen. So ließe sich etwa feststellen, ob es im Haus Kinder gibt oder einen Hund, oder was gerade im Fernsehen läuft - alles Datenpunkte, die helfen, ein möglichst genaues Bild zu zeichnen, um den Zielpersonen möglichst exakt auf sie zugeschnittene Werbung zu senden.

Aber zurück zur Nutzung der Dienste. Sehr viel seltener werden sie dafür verwendet, zum Beispiel Programme zu starten, obwohl sie das können. Könnte es sein, dass nicht die Menschen die Dienste gerne verwenden, die ihnen gut weiterhelfen, sondern die, von denen sie wissen, dass sie auch zuverlässig funktionieren? Wenn es bei einem Kommando immer wieder dämliche Rückfragen gibt und man das in der Zeit, die es für den Dialog mit der Maschine bräuchte, längst eingetippt hat, lässt man es eben auch bleiben.

Dagegen scheint zu sprechen, dass die Timer-Funktion, die alle Assistenten sehr brauchbar anbieten, nur von zwei Prozent genutzt wird. Eine Erklärung wäre, die Nutzer kochen keine Eier, haben einen extra Eierkocher, oder sie mögen keinen Tee. Wer weiß das schon?

Klar ist nur so viel: Vom ewigen Traum der Spracherkennungsentwickler, mit einer Maschine regelrechte Dialoge führen zu können, so wie die bedauernswerten Piloten in Stanley Kubricks "Odyssee im Weltraum", ist die Technologie noch weit entfernt - trotz aller Rechenkapazität, die mittlerweile zur Verfügung steht. Der Grund dafür: Die Systeme müssen meist aus dem, was sie gerade hören, versuchen zu schließen, was gemeint sein könnte.

Sie beziehen zwar mittlerweile andere Faktoren mit ein, etwa ob jemand gerade mit dem Auto fährt, doch das ist immer noch nur ein kleiner Teil des riesigen Erfahrungsschatzes, den ein Mensch in seinem Supercomputer, dem Hirn, herumträgt. Vieles kommt auf den Zusammenhang an. Und den herzustellen, daran hapert es noch immer ganz gewaltig. Ob das jetzt aber ein großer Verlust ist, muss jeder für sich entscheiden.