Sprachgesteuerte Geräte Sprachsteuerung hat gewaltige Fortschritte gemacht

Hinzu kommen Gefahren, die entstehen, wenn sich Geräte wie die von Amazon und Google oder, schlimmer noch, von Spielzeugherstellern für Spracherkennung übers Internet mit der Cloud verbinden. "Die Möglichkeiten des Illegalen sind natürlich auch da", warnt Nöth. Kriminelle könnten sich einhacken, um ständig mitzulauschen. "Ein Spielzeug für 50 Euro kann keine gute Sicherheit haben", warnt der Forscher.

Für den Internetkonzern Alphabet, die Mutterfirma von Google, birgt der Trend zur Sprachsteuerung noch eine ganz andere Gefahr. Denn der Goldesel des Konzerns, Google mit seiner Suchmaschine und den anderen kostenlosen Programmen wie dem Kartendienst Maps, ernährt sich mit einer sehr einseitigen Kost: Das weitaus meiste Geld verdient Google mit den unscheinbaren Textanzeigen, die auf dem Bildschirm eingeblendet werden, wenn man etwa ein bestimmtes Produkt oder eine Information sucht.

Noch vor 15 Jahren machten Computer 30 Prozent Fehler beim Diktat

Kommt die Antwort aber per Sprache aus einem Lautsprecher, ist da kein Bildschirm, also auch keine Anzeige und damit verdient Google kein Geld. Sollte sich der Trend zur Sprachsteuerung fortsetzen, gerät das Geschäftsmodell zumindest teilweise in Gefahr. Ein Versandhändler wie Amazon dagegen kann enorm profitieren, wenn er die Kunden dazu bringt, noch mehr von sich preiszugeben und - zumindest Dinge des täglichen Bedarfs - direkt per Spracheingabe zu bestellen. Er lebt davon zu verkaufen, nicht von Werbung.

Woher aber kommen überhaupt diese neuen, ziemlich futuristisch anmutenden Fähigkeiten der Spracherkennung? Vor 15 Jahren noch machten Computer 20 bis 30 Prozent Fehler, wenn man ihnen etwas diktierte. Und das, obwohl die Software dafür mühselig mit vorgegebenen, ellenlangen Texten auf die jeweilige Stimme trainiert werden musste. Was ist seitdem so anders geworden?

Es kommen mehrere Faktoren zusammen. Den Forschern stehen inzwischen mehr und mehr aufgezeichnete Sprachdaten zur Verfügung. Allein Apples sprachgesteuerter digitaler Assistenzdienst Siri beantwortet mehr als zwei Milliarden Anfragen - pro Woche. Das ist eine ungeheure Menge an Daten, mit denen sich herumspielen und experimentieren lässt.

Die Spracherkennung hat sich deutlich verbessert

Dazu kommen künstliche neuronale Netzwerke, die in solchen großen Datenmengen Muster und Beziehungen erkennen können, also einzelne Wörter, zunehmend aber auch Zusammenhänge. Und schließlich ist da noch die dramatische Steigerung, die es bei der Rechenkapazität von Computer-Prozessoren gegeben hat. Erst sie macht es möglich, die gewaltigen Datenhaufen schnell genug zu durchwühlen.

20 Prozent

der Verbraucher nutzen sprachgesteuerte Assistenten nicht, weil sie sich dabei unwohl fühlen. Zu diesem Ergebnis kommt eine Umfrage des US-Marktforschungsinstituts Creative Strategies. Auch in der Öffentlichkeit trauen sich nur wenige, Dienste wie Apples Siri oder Googles konkurrierendes Angebot zu verwenden. Am ehesten tun sie es zu Hause (39 Prozent), vor allem aber im Auto (51 Prozent). Allerdings: Als Mobiltelefone noch relativ neu waren, gingen viele Nutzer damit auch in eine Ecke, anstatt wie heute ungeniert überall zu telefonieren.

All das hat dazu geführt, dass "Qualität und Anwendbarkeit von Spracherkennung deutlich verbessert" wurden, sagt Marcus Spies. Er ist Informatikprofessor und Inhaber des Lehrstuhls für Wissensmanagement an der Ludwig-Maximilians-Universität in München. Er hat vor Jahrzehnten an den ersten Spracherkennungssystemen mitgearbeitet. Damals musste man zwischen jedem Wort noch eine Pause machen, damit das System überhaupt erkannte, wann ein Wort endete und wann ein neues begann.