Spracherkennung.:Blablabla vs. biep biep biep

Lesezeit: 3 min

Tausende Programmierer lassen sich jährlich auf einer großen Konferenz erklären, was der Konzern als Nächstes plant. (Foto: David Paul Morris/Bloomberg)

"Wird es morgen nach 17 Uhr wärmer als 21 Grad in der Nähe der Golden Gate Bridge?" Computer verstehen Menschen, wenn die sich etwas anpassen.

Von Hakan Tanriverdi, New York

"Talk talk talk talk talk talk talk. That's what everybody and they mama wanna do." So beginnt der Song W.E.R.K. Pt. II der US-Rapperin Lizzo. Google hat sich dazu entschieden, den Song während der Entwickler-Konferenz I/O früh am Anfang zu spielen. Denn der Song enthält eine Botschaft, an die Google glaubt: Die ganze Welt will sprechen. Sie will nicht tippen, keine SMS schreiben und diese vor dem Abschicken von der verfluchten Autokorrektur erst noch mit Fehlern spicken lassen.

Jede fünfte Anfrage auf Smartphones erfolge schon jetzt über die Stimme, sagt Google-Boss Sundar Pichai. Wie sähe eine Welt aus, in der es ein System gibt, in dem sich die Stimme sprichwörtlich entfalten kann? Das ist die Welt, an der Google arbeitet. Also hat der Konzern reagiert und ein Produkt veröffentlicht, das sich Google Home nennt. Es ist ein Lautsprecher in Zylinderform, eine Art geköpftes Ei mit integrierten Mikrofonen. Es ist gedacht als Schaltzentrale für Nutzer, um eine Vielzahl an Produkten zu steuern: Essen oder Taxis bestellen, Musik abspielen, Terminkalender pflegen, Filme schauen, Nachrichten schreiben, im Internet suchen.

Nutzer, die Googles Streaming-Sticks besitzen, können dem Ei befehlen, Musik nur in einem bestimmten Zimmer zu spielen. All das soll über Sprachbefehle geregelt werden - baut also auf einem System auf, das unter dem Namen Google Now bereits seit vier Jahren existiert. Dieses System wird Home nutzen.

Das Gerät ist always on, also allgegenwärtig, hört im Hintergrund mit und reagiert, wenn Sätze mit "Ok Google" eingeleitet werden. Ein Datum für den Verkaufsstart wurde nicht genannt. Google wird sich in den kommenden Monaten mit Entwicklern treffen und entscheiden, welche Apps mit Home interagieren werden. Es geht also beispielsweise darum, welcher Dienstleister ein Taxi bestellt.

Mit dem Home-Assistenten steigt Google in einen Markt ein, den sowohl andere Tech-Größen für sich beanspruchen als auch Start-ups, die sich ausschließlich auf dieses Thema konzentrieren. Menschen sollen mit Maschinen reden. Apple setzt auf Siri, Facebook auf Chatbots. Amazon hat bereits vor anderthalb Jahren ein Gerät namens Echo auf den Markt gebracht. Das Gerät verkauft sich laut Amazon so gut, dass es Lieferengpässe gibt. Analysten schätzen, dass drei Millionen Echo-Geräte verkauft wurden.

Die Entwicklung rund um künstliche Intelligenz befinde sich an einem "bahnbrechenden" Punkt, heißt es im Firmenblog von Google. Maschinen könnten mittlerweile problemlos komplexere menschliche Interaktionen auf Bildern erkennen, zum Beispiel, ob Menschen sich umarmen. Google investiert große Teile des Geldes in Forschung, um gesprochene Sprache besser zu verstehen. Möglich wird das über maschinelles Lernen mit Hilfe von neuronalen Netzwerken. Das ist ein mehrschichtiges Trainingssystem für Computer, die Billionen Datenpunkten analysieren. Google hat nun ebenfalls bekanntgegeben, einen Chip hergestellt zu haben, der für maschinelles Lernen optimiert ist.

So kapiert's auch der Rechner: "Wird es hier morgen nach 17 Uhr wärmer als 21 Grad?"

Auch im Bereich Sprache sind die Fortschritte in den vergangenen Jahren riesig gewesen, aber eben nicht so vergleichbar atemberaubend. Das ändert sich, wenn auch vergleichsweise langsam. Wenn Menschen längere Textpassagen transkribieren, liegt die Fehlerquote bei vier Prozent. Übernimmt eine Maschine diese Aufgabe, steigt die Fehlerquote auf acht Prozent. Aber, und das ist der bahnbrechende Moment, an den Google glaubt: "Vor zehn Jahren war die Fehlerquote wahrscheinlich eher bei 80 Prozent", sagt der Microsoft-Forscher Yuedong Huang.

In der vergangenen Woche präsentierte sich das vier Jahre im Geheimen arbeitende Start-up Viv zum ersten Mal der Öffentlichkeit. Gegründet wurde es vom Siri-Erfinder Dag Kittlaus. Die Spracherkennung bei Viv ist derart fortgeschritten, dass die Software auch wirr klingende Anfragen beantwortet: "Regnete es in Seattle vor drei Donnerstagen" oder "Wird es morgen nach 17 Uhr wärmer als 21 Grad in der Nähe der Golden Gate Bridge" zum Beispiel. So spricht zwar kein Mensch im Alltag, aber die Sätze zeigen beispielhaft, wie Computer Sprache verstehen können. Ein Algorithmus, der den Textaufbau dieser Sätze versteht, wird auch Kinokarten reservieren können.

© SZ vom 20.05.2016 - Rechte am Artikel können Sie hier erwerben.
Zur SZ-Startseite
Jetzt entdecken

Gutscheine: