Kommunikation mit Computern Spracherkennung wird massentauglich

iPhone-Assistentin Siri war nur der Anfang: Mobiltelefone, Computer und Fernseher werden bald häufiger über akustische Eingaben bedienbar sein. Ein Blick in die Zukunft

von Helmut Martin-Jung

Die Zukunft beginnt im Wohnzimmer: Living room - Wohnzimmer - heißt es an der Tür zu einem Raum in einem typischen, in beige gehaltenen US-Bürogebäude mit seinen großen Bürofluchten, in denen sich eine Parzelle an die andere reiht. Im "Wohnzimmer" stehen ein großer Fernseher, dazu ein Laptop und zwei weitere elektronische Geräte, Kabel - ein Prototyp also.

Noch ist der Bildschirm schwarz, doch dann sagt der junge Mann, der die Vorführung hält, die zwei magischen Worte: "Dragon TV". Und der LCD-Bildschirm erwacht zum Leben. "Schalte um auf CNN!" Verzögerungsfrei stellt das Gerät den Sender ein, "Lautstärke auf 40!", "Nächster Sender" - ohne die Fernbedienung vorher suchen und die richtige Taste darauf finden zu müssen, lässt sich der Fernseher durch Sprachbefehle steuern. "Was läuft um 20 Uhr auf NBC?" Es erscheint ein elektronischer Programmführer, der das Angebot des Senders für diese Zeit zeigt. "Dragon TV, Aufnehmen" - und der digitale Videorekorder ist programmiert.

Bei Nuance Communications, dem Weltmarktführer für Spracherkennungssoftware, ist man sich sicher, dass die Welt der elektronischen Geräte vor einem größeren Wechsel der Art und Weise steht, wie man sie bedient. In der Zentrale in Burlington bei Boston, wo das Wohnzimmer aufgebaut ist, und in Filialen auf der ganzen Welt arbeiten mehr als 11.000 Mitarbeiter daran, Maschinen immer besser beizubringen, menschliche Sprache zu verstehen.

Die Algorithmen werden besser

Computerprogramme, denen man Text diktieren kann, gibt es schon seit Jahrzehnten. In der Anfangszeit musste man ihnen noch stundenlang vorlesen, um sie zu halbwegs brauchbare Erkennungsergebnissen zu bringen. Heutige Software dagegen erkennt bereits bei 80 Prozent aller Nutzer deren Spracheingaben mit einer Trefferquote von mehr als 90 Prozent - ohne jegliches Training.

Drei Entwicklungen haben dazu maßgeblich beigetragen. Zum einen steigt die Rechenkraft von Computern seit vielen Jahren exponentiell an - und Spracherkennung erfordert viel davon. Zum anderen sind die mathematischen Algorithmen immer besser geworden, die aus Sound Sinn destillieren sollen. Und schließlich ermöglichen gigantische Datensammlungen den Firmen, immer präzisere Aussagen zu treffen.

Welche Mengen an Sound-Dateien Nuance tatsächlich in seinen Rechenzentren hortet, ist Betriebsgeheimnis, außer der US-Regierung gebe es aber niemanden, der mehr solcher Daten hat. Vor allem die schnelle Verbreitung von Smartphones hat Nuance dabei geholfen. Die Daten, die kostenlose Apps wie "Dragon Dictation" in die Rechenzentren spülen, werden in anonymisierter Form eingesetzt, um eine immer größere Basis für die statistischen Erkennungsregeln zu schaffen.