Sprachgesteuerte Geräte:Computer, die auf Stimmen hören

Mikrofone müssen nicht mehr von der Decke hängen, um überall zu sein

Dank sprachgesteuerter Geräte sind Mikrofone inzwischen überall.

  • Die Sprachsteuerung von Computern hat große Fortschritte gemacht: Inzwischen erkennen Maschinen fast fehlerfrei, was ihnen diktiert wird.
  • Spracherkennungssoftwares wie Apples Siri oder Amazons Alexa bearbeiten Milliarden von Befehlen am Tag.
  • Firmen hoffen, durch die Spracheingabe noch mehr über ihre Nutzer zu erfahren.

Von Helmut Martin-Jung

Zugegeben, C-3PO ist manchmal schon ein ziemlicher Blechtrottel. Aber egal in welches Sonnensystem es ihn auch verschlägt, der goldglänzende Roboter aus der Star-Wars-Filmreihe kann sich wenigstens verständigen. Schließlich beherrscht er nach eigenen Angaben sechs Millionen Sprachen, auch wenn höchstens Meister Yoda weiß, wie sie wohl in ihn hineingekommen sind. Die armen Erdlinge dagegen mühen sich seit Jahrzehnten damit ab, dass ihre primitiven Computer wenigstens korrekt erkennen, was man ihnen befiehlt. Als Antwort aber kommt oft genug: "Ich habe Sie nicht verstanden."

Doch das ändert sich gerade. Echo, der sprachgesteuerte, vernetzte Lautsprecher von Amazon, ist ein Sensationserfolg. Seit 2014 auf dem Markt, lauscht er bereits in Millionen Haushalten auf sein Codewort, spielt auf Zuruf die Wunschmusik aus dem Netz ab, sagt Rezepte auf oder regelt Licht und Raumtemperatur. Google hat im Oktober in den USA ein ähnliches Gerät herausgebracht, und auch Apple, so wird gemunkelt, arbeite an so etwas. In manchen Autos lässt sich das Navigationssystem komfortabel und ohne vorgegebene Reihenfolge per Sprache programmieren.

Sprachsteuerung kann viele Interaktionen mit Geräten vereinfachen

Etwa ein Fünftel aller Suchanfragen auf Android-Handys werden in den USA bereits mündlich gestellt. Und im vergangenen Oktober meldete der Software-Konzern Microsoft gar, sein jüngstes System habe bei einem standardisierten Test genauso wenig Erkennungsfehler gemacht wie ein Mensch.

Erfüllen sich also endlich doch die lang gehegten Träume von Technik, die uns versteht? Wird Sprache, diese ureigene Fähigkeit des Menschen, Hilfsmittel wie Schalter, Tastaturen, Computermäuse und anderes ersetzen? Und was würde das dann bedeuten?

"Viele Interaktionen mit technischen Geräten könnten dadurch schon einfacher werden", sagt Elmar Nöth. Er ist Professor an der Universität Erlangen und beschäftigt sich seit vielen Jahren mit Spracherkennung. Die Menschen, glaubt er, würden diese neuen Möglichkeiten mit der Zeit auch annehmen. Vor allem eine Firma wie Amazon könnte enorm davon profitieren, vor allem wenn sie über die smarten Geräte mehr und mehr über deren Nutzer herausfindet.

Sprachsteuerung liefert einen wertvollen Datenschatz

Wie das geht? Nun, die zylinderförmigen Echo-Lautsprecher, kaum größer als zwei Dosen Pfirsiche, haben selbst viel zu wenig Rechenkraft, um die statistischen Analysen zu betreiben, auf denen Computer-Spracherkennung basiert. Alles, was nach dem Codewort eingesprochen wird, landet deshalb in Rechenzentren, etwa von Amazon, wo es dann auch bleibt, für weitere Auswertungen. Und klar ist: Dort wird nicht nur versucht zu verstehen, was der Nutzer eigentlich will.

Die Unternehmen haben auch ein hohes Interesse daran, den Kunden besser kennenzulernen. Wie viele Kinder gibt es im Haushalt, welche Nachrichten werden gehört, welche Rezepte abgefragt - all das verknüpft mit den Daten, die ohnehin schon aus den Bestellungen bekannt sind, ergibt einen äußerst wertvollen Datenschatz. "Amazon kann ein viel genaueres Profil seiner Kunden erstellen", sagt der Erlanger Forscher Nöth, "das führt letztlich zu manipulativem Werben."

Sprachsteuerung hat gewaltige Fortschritte gemacht

Hinzu kommen Gefahren, die entstehen, wenn sich Geräte wie die von Amazon und Google oder, schlimmer noch, von Spielzeugherstellern für Spracherkennung übers Internet mit der Cloud verbinden. "Die Möglichkeiten des Illegalen sind natürlich auch da", warnt Nöth. Kriminelle könnten sich einhacken, um ständig mitzulauschen. "Ein Spielzeug für 50 Euro kann keine gute Sicherheit haben", warnt der Forscher.

Für den Internetkonzern Alphabet, die Mutterfirma von Google, birgt der Trend zur Sprachsteuerung noch eine ganz andere Gefahr. Denn der Goldesel des Konzerns, Google mit seiner Suchmaschine und den anderen kostenlosen Programmen wie dem Kartendienst Maps, ernährt sich mit einer sehr einseitigen Kost: Das weitaus meiste Geld verdient Google mit den unscheinbaren Textanzeigen, die auf dem Bildschirm eingeblendet werden, wenn man etwa ein bestimmtes Produkt oder eine Information sucht.

Noch vor 15 Jahren machten Computer 30 Prozent Fehler beim Diktat

Kommt die Antwort aber per Sprache aus einem Lautsprecher, ist da kein Bildschirm, also auch keine Anzeige und damit verdient Google kein Geld. Sollte sich der Trend zur Sprachsteuerung fortsetzen, gerät das Geschäftsmodell zumindest teilweise in Gefahr. Ein Versandhändler wie Amazon dagegen kann enorm profitieren, wenn er die Kunden dazu bringt, noch mehr von sich preiszugeben und - zumindest Dinge des täglichen Bedarfs - direkt per Spracheingabe zu bestellen. Er lebt davon zu verkaufen, nicht von Werbung.

Woher aber kommen überhaupt diese neuen, ziemlich futuristisch anmutenden Fähigkeiten der Spracherkennung? Vor 15 Jahren noch machten Computer 20 bis 30 Prozent Fehler, wenn man ihnen etwas diktierte. Und das, obwohl die Software dafür mühselig mit vorgegebenen, ellenlangen Texten auf die jeweilige Stimme trainiert werden musste. Was ist seitdem so anders geworden?

Es kommen mehrere Faktoren zusammen. Den Forschern stehen inzwischen mehr und mehr aufgezeichnete Sprachdaten zur Verfügung. Allein Apples sprachgesteuerter digitaler Assistenzdienst Siri beantwortet mehr als zwei Milliarden Anfragen - pro Woche. Das ist eine ungeheure Menge an Daten, mit denen sich herumspielen und experimentieren lässt.

Die Spracherkennung hat sich deutlich verbessert

Dazu kommen künstliche neuronale Netzwerke, die in solchen großen Datenmengen Muster und Beziehungen erkennen können, also einzelne Wörter, zunehmend aber auch Zusammenhänge. Und schließlich ist da noch die dramatische Steigerung, die es bei der Rechenkapazität von Computer-Prozessoren gegeben hat. Erst sie macht es möglich, die gewaltigen Datenhaufen schnell genug zu durchwühlen.

20 Prozent

der Verbraucher nutzen sprachgesteuerte Assistenten nicht, weil sie sich dabei unwohl fühlen. Zu diesem Ergebnis kommt eine Umfrage des US-Marktforschungsinstituts Creative Strategies. Auch in der Öffentlichkeit trauen sich nur wenige, Dienste wie Apples Siri oder Googles konkurrierendes Angebot zu verwenden. Am ehesten tun sie es zu Hause (39 Prozent), vor allem aber im Auto (51 Prozent). Allerdings: Als Mobiltelefone noch relativ neu waren, gingen viele Nutzer damit auch in eine Ecke, anstatt wie heute ungeniert überall zu telefonieren.

All das hat dazu geführt, dass "Qualität und Anwendbarkeit von Spracherkennung deutlich verbessert" wurden, sagt Marcus Spies. Er ist Informatikprofessor und Inhaber des Lehrstuhls für Wissensmanagement an der Ludwig-Maximilians-Universität in München. Er hat vor Jahrzehnten an den ersten Spracherkennungssystemen mitgearbeitet. Damals musste man zwischen jedem Wort noch eine Pause machen, damit das System überhaupt erkannte, wann ein Wort endete und wann ein neues begann.

Worte erkennen können die Computer - jetzt geht es ums Verstehen

Das ist längst vorbei. Wenn die Umgebung nicht zu laut ist und der Nutzer einigermaßen deutlich spricht, erkennen heute sogar Handys nahezu fehlerfrei, was ihnen diktiert wird. Das Amazon-System Echo erkennt das Codewort - meist "Alexa", inzwischen funktioniert aber auch "Computer", ganz so wie auf dem Raumschiff Enterprise - auch dann, wenn das Gerät gerade Musik abspielt. Der interne Prozessor kennt ja die digitalen Daten, die er ausgibt und kann sie daher für seine Mikrofone neutralisieren.

Die Software entwickelt zunehmend Textverständnis

Inzwischen geht es deshalb immer weniger darum, Wörter richtig zu erkennen. Es geht darum, dass Maschinen erkennen, was der Mensch eigentlich gemeint hat. Also den Sinn, etwa einer Frage, richtig zu verstehen. Und darum, nicht bloß einzelne Sätze fehlerfrei zu analysieren, sondern größere Zusammenhänge.

Software, die maschinell Texte liest, entwickle zunehmend Textverständnis, sagt der Münchner Informatiker Spies, "das ist schon sehr viel besser als bloßes Wortverständnis". Solche kognitiven Systeme, zu denen etwa IBMs "Watson" genannte Software zählt, sieht Spies allerdings noch nicht bereit für den Einsatz im Haushalt.

Der Informatiker glaubt eher daran, dass sie im professionellen Umfeld zum Einsatz kommen werden, beispielsweise in der Medizin. Denn das System ist in der Lage, aus unstrukturierten Texten, also etwa medizinischen Forschungsaufsätzen, Informationen zu gewinnen. Ein Arzt könnte es dann etwa fragen, was bei einer seltenen Unverträglichkeit gegen ein bestimmtes Medikament zu tun sei.

Sprache muss nicht die einzige neue Eingebeform bleiben

Die Geräte für Heimanwender offenbaren dagegen noch riesige Wissenslücken. Bei vielen Fragen müssen sie passen und versuchen, sich aus der Affäre zu ziehen, mit Sätzen wie: "Ich weiß nicht, was du meinst, aber lass uns Freunde bleiben." Und die Nutzer müssen nach jetzigem Stand noch viele Schlüsselworte lernen, damit die Software das gewünschte Ergebnis liefert - ähnlich wie beim Berg Sesam aus dem Märchen, der sich auch nur mit dem korrekt gesprochenen Satz öffnet.

Es muss auch nicht sein, dass allein Spracherkennung das Verhältnis von Mensch und Maschine natürlicher macht. "Benutzeroberflächen können aus vielen technischen Entwicklungen neue Impulse erhalten", sagt Spies. Er kann sich vorstellen, dass bestimmte Kommandos an Geräte durch Gesten ausgelöst werden können. Es gebe Techniken, die mit Ultraschall arbeiteten, oder Sensoren, die Augenbewegungen erkennen - "das kann einige gesprochene Befehle ersetzen".

Zur SZ-Startseite

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: