Spracherkennung wird massentauglich

Die Zukunft beginnt im Wohnzimmer: Living room - Wohnzimmer - heißt es an der Tür zu einem Raum in einem typischen, in beige gehaltenen US-Bürogebäude mit seinen großen Bürofluchten, in denen sich eine Parzelle an die andere reiht. Im "Wohnzimmer" stehen ein großer Fernseher, dazu ein Laptop und zwei weitere elektronische Geräte, Kabel - ein Prototyp also.

Noch ist der Bildschirm schwarz, doch dann sagt der junge Mann, der die Vorführung hält, die zwei magischen Worte: "Dragon TV". Und der LCD-Bildschirm erwacht zum Leben. "Schalte um auf CNN!" Verzögerungsfrei stellt das Gerät den Sender ein, "Lautstärke auf 40!", "Nächster Sender" - ohne die Fernbedienung vorher suchen und die richtige Taste darauf finden zu müssen, lässt sich der Fernseher durch Sprachbefehle steuern. "Was läuft um 20 Uhr auf NBC?" Es erscheint ein elektronischer Programmführer, der das Angebot des Senders für diese Zeit zeigt. "Dragon TV, Aufnehmen" - und der digitale Videorekorder ist programmiert.

Bei Nuance Communications, dem Weltmarktführer für Spracherkennungssoftware, ist man sich sicher, dass die Welt der elektronischen Geräte vor einem größeren Wechsel der Art und Weise steht, wie man sie bedient. In der Zentrale in Burlington bei Boston, wo das Wohnzimmer aufgebaut ist, und in Filialen auf der ganzen Welt arbeiten mehr als 11.000 Mitarbeiter daran, Maschinen immer besser beizubringen, menschliche Sprache zu verstehen.

Die Algorithmen werden besser

Computerprogramme, denen man Text diktieren kann, gibt es schon seit Jahrzehnten. In der Anfangszeit musste man ihnen noch stundenlang vorlesen, um sie zu halbwegs brauchbare Erkennungsergebnissen zu bringen. Heutige Software dagegen erkennt bereits bei 80 Prozent aller Nutzer deren Spracheingaben mit einer Trefferquote von mehr als 90 Prozent - ohne jegliches Training.

Drei Entwicklungen haben dazu maßgeblich beigetragen. Zum einen steigt die Rechenkraft von Computern seit vielen Jahren exponentiell an - und Spracherkennung erfordert viel davon. Zum anderen sind die mathematischen Algorithmen immer besser geworden, die aus Sound Sinn destillieren sollen. Und schließlich ermöglichen gigantische Datensammlungen den Firmen, immer präzisere Aussagen zu treffen.

Welche Mengen an Sound-Dateien Nuance tatsächlich in seinen Rechenzentren hortet, ist Betriebsgeheimnis, außer der US-Regierung gebe es aber niemanden, der mehr solcher Daten hat. Vor allem die schnelle Verbreitung von Smartphones hat Nuance dabei geholfen. Die Daten, die kostenlose Apps wie "Dragon Dictation" in die Rechenzentren spülen, werden in anonymisierter Form eingesetzt, um eine immer größere Basis für die statistischen Erkennungsregeln zu schaffen.

Macht Sprache elektronische Geräte intelligent?

Wie gut Spracherkennung mittlerweile im Alltagsleben funktioniert, ist vielen erst aufgefallen, seit Apples charmante Sprach-Assistenzfunktion Siri im iPhone 4s Premiere feierte. Der Dienst, hinter dem auch Technik von Nuance steckt, erledigt Aufgaben wie "Mach mir einen Termin mit Hans morgen um 15 Uhr". "Sprache eröffnet die Möglichkeit, elektronische Geräte intelligent zu machen", sagt Richard Mack, Kommunikationschef von Nuance. "Die Art wie wir mit Geräten umgehen, wird sich dramatisch ändern", ergänzt Vlad Sejnoha, der Technikchef von Nuance, "darauf haben wir seit Jahrzehnten hingearbeitet."

Persönliche Assistenten wie Siri seien dabei "erst der Anfang". Handys im Standby-Modus könnten sich in einigen Jahren durch ein Reizwort aufwecken und für eine kurze Auskunft nutzen lassen. "Und es werden Leute kommen und fragen, wie kann man ganze Geräte um diese neuen Fähigkeiten herum bauen?"

Es wäre einen Tick zu weit gegriffen, würde man Autos heute schon als solche Geräte bezeichnen. Tatsache ist aber, dass deren kommunikative Fähigkeiten mehr und mehr in den Vordergrund rücken. Nahezu alle Fahrzeughersteller befassen sich deshalb auch mit Sprachtechnologie, und die meisten tun dies in Kooperation mit Nuance. Fords System Sync zum Beispiel, das mit dem B-Max im Herbst auch nach Deutschland kommen wird, ist zumindest in den USA ein wichtiges Verkaufsargument geworden.

So wie Siri Termine vereinbart und SMS verschickt, kann Sync Sprachbefehle zum Programmieren des eingebauten Navigationsgerätes verarbeiten. Oder es greift auf den Speicher angeschlossener Smartphones zu, um auf Befehl Musik abzuspielen. Dabei ist man nicht mehr wie früher an starre Befehlsstrukturen gebunden.

10.000 Befehlswörter

Das System versucht vielmehr selbst, aus gesprochenen Sätzen das tatsächlich Gemeinte herauszufiltern. Sync kennt rund 10.000 Befehlswörter, von denen viele redundant sind. Situationen wie im Märchen, als dem Helden nicht mehr einfällt, mit welchem exakten Befehl der Berg sich wieder öffnet, sollen damit vermieden werden - sonst ist es mit der Akzeptanz der neuen Helfer schnell wieder vorbei.

Spracherkennung ist eben schwierig", räumt Vlad Sejnoha ein, "es geht ja schließlich um etwas zutiefst Menschliches." Dazu gehört, dass Sprachtechnologie in immer mehr Umgebungen eingesetzt wird, und das Auto und das Wohnzimmer gehören definitiv zu den schwierigeren. Weil die Erkennung darauf basiert, aufgezeichnete Audio-Signale in Abschnitte zu zerlegen, die dann weiter analysiert werden, ist die Qualität des Ausgangssignals entscheidend.

"Wenn sie eine Party feiern, sollten sie nicht unbedingt versuchen, den Fernseher mit Sprache zu steuern", sagt Sejnoha. Ein Grund, weshalb man bei Nuance wie bei der Konkurrenz auch an anderen Möglichkeiten der Steuerung wie etwa Gesten arbeitet.