9. Oktober 2011, 12:36 Sprachsteuerung am Computer So funktioniert Siri

"Vergiss deinen Regenmantel nicht!" antwortet die Sprachsteuerung Siri von Apple auf die Frage nach dem Wetter. Intelligente Sprachsteuerung verändert das Bild vom dummen Computer.

Von Helmut Martin-Jung

Zugegeben: Die Stimme klingt noch immer ein bisschen so, wie man sich Computer landläufig vorstellt: Super zum Knacken riesiger Zahlenkolonnen, aber ungeeignet für alles, was mit dem richtigen Leben zu tun hat. Blechtrottel eben. Doch die enormen Leistungssteigerungen, die es im Bereich der Computerchips gegeben hat, und das Internet machen mittlerweile Anwendungen massentauglich, die früher höchstens Supercomputer bewältigen konnten.

Apples iPhone 4S

Das neue, alte iPhone

Der Dienst Siri etwa, der in Apples neuem iPhone 4s in einer noch vorläufigen Version zum Einsatz kommt und dem die etwas maschinell klingende Stimme gehört, könnte mit einigen anderen neuen Entwicklungen dazu beitragen, das allgemeine Bild vom stupiden Zahlenfresser nachhaltig zu verändern.

"Vergiss deinen Regenmantel nicht" - Antworten wie diese gibt Siri auf Fragen, wie man sie sowohl in der Formulierung wie in der Aussprache auch seinem Partner stellen könnte: "Wie wird denn das Wetter morgen?" Weil Siri auf einen Riesenfundus an Daten aus dem Internet zurückgreift, liefert der Dienst natürlich auch gleich noch eine Wetterkarte samt Temperaturprognosen mit.

Doch er kann noch mehr. Mit ihm lassen sich sprachgesteuert auch Kurznachrichten oder E-Mails versenden. Siri ist dabei intelligent genug, Zusammenhänge zu verstehen. Er fragt gar nicht erst nach, ob man das Wetter in Honolulu oder München wissen will, sondern guckt von sich aus nach dem Standort des Handys.

Ähnlich ist auch der Ansatz beim System Sync, das der Autobauer Ford nächsten Jahr in seinem Mittelklasse-Wagen Focus anbieten wird. Anstatt sich Befehle merken zu müssen und unnatürlich abgehackt zu sprechen, kann man (fast) so reden, wie einem der Schnabel gewachsen ist. Nur im Falle allzu dialektgefärbter Aussprache müssen die Systeme auch heute noch meistens kapitulieren.

Es ist für die Systeme ohnehin schwierig genug, den Redefluss, wie er sich im natürlichen Sprechen ergibt, überhaupt erst einmal in die Abschnitte zu unterteilen, die einzelne Wörter sein könnten. Bei den beiden beispielhaft beschriebenen Systemen macht das die Cloud - ein übers Internet angesteuerter Verbund von Rechnern. Erst deren geballte, parallel arbeitende Rechenkraft macht es möglich, schon kurz nach der Eingabe zu Hypothesen darüber zu kommen, was der Sprecher gesagt haben könnte.

Es ist nämlich eine Mischung aus Wahrscheinlichkeitsrechnung und Datenbank-Abfragen, die dabei zum Einsatz kommt. Wirklich verstehen kann der Computer Sprache nicht. Sprachmuster, die das System erkennt, werden mit denen bereits gespeicherter Muster verglichen.

Deshalb funktionieren Spracherkennungssysteme, die sich auf ein begrenztes Vokabular beziehen, schon sehr gut. So gibt es beispielsweise ein solches System für Röntgenärzte, die damit mit den Händen auf den Bildern herumdeuten und gleichzeitig den Befund diktieren können.