Entwicklerkonferenz I/O – Googles Plan: Nonstop mithören

Entwicklerkonferenz I/O:Googles Plan: Nonstop mithören

19. Mai 2016, 6:07 Uhr

Lesezeit: 3 min

"Talk talk talk talk talk talk talk. That's what everybody and they mama wanna do." So beginnt der Song W.E.R.K. Pt. II der US-Rapperin Lizzo. Google hat sich dazu entschieden, den Song während der Entwickler-Konferenz I/O früh am Anfang zu spielen. Denn der Song enthält eine Botschaft, an die Google glaubt. Die ganze Welt will sprechen. Sie will nicht tippen, keine SMS schreiben und diese vor dem Abschicken von der Autokorrektur erst noch mit Fehlern spicken lassen.

Der Song der Rapperin geht aber weiter. "Whomp whomp whomp. Remote please, mute!" Whomp ist der Sound aus der Zeichentrick-Serie Peanuts. Das Brabbeln der Lehrerin, unverständliches Geräusch aus der Ferne, uninteressant. Das will niemand hören, das muss man stumm stellen.

20 Prozent aller Suchanfragen über Smartphones kommen per Sprachbefehl

Das wiederum dürfte der Teil des Songs sein, gegen den Google wettet. Google-Chef Sundar Pichai hat dafür recht schnell eine Antwort parat, wie sie für einen Daten-Konzern typisch ist: Zahlen. Jede fünfte Anfrage auf Smartphones erfolge schon jetzt über die Stimme. Wie sähe eine Welt aus, in der es ein System gibt, in dem sich die Stimme sprichtwörtlich entfalten kann? Das ist die Welt, an der Google arbeitet.

Also hat der Konzern reagiert - und ein Produkt veröffentlicht, das sich Google Home nennt: Ein Lautsprecher in Zylinderform, eine Art geköpftes Ei mit integrierten Mikrofonen. Es ist gedacht als Schaltzentrale für Nutzer, um eine Vielzahl an Produkten zu steuern: Essen oder Taxis bestellen, Musik abspielen, Terminkalender pflegen, Filme schauen, Nachrichten in der neuen App Allo schreiben, im Internet suchen.

Nutzer, die die Streaming-Sticks von Chromecast besitzen, können Google Home anordnen, Musik nur in einem bestimmten Zimmer zu spielen. All das soll über Sprachbefehle geregelt werden - baut also auf einem System auf, das unter dem Namen Google Now bereits seit vier Jahren existiert. Dieses System wird Home nutzen.

Das Gerät ist always on, also allgegenwärtig, hört im Hintergrund mit und reagiert erst dann, wenn Sätze mit "Ok Google" eingeleitet werden. Ein konkretes Datum für den Verkaufsstart wurde nicht genannt. Google wird sich in den kommenden Monaten mit Entwicklern treffen und entscheiden, welche Apps mit Home interagieren werden. Sprich: Wenn ein Taxi bestellt wird, kommt dann auch wirklich ein Taxi oder kommt ein Uber?

Mit dem Home-Assistenten steigt Google in einen Markt ein, den sowohl andere Tech-Größen für sich beanspruchen als auch Start-ups, die sich ausschließlich auf dieses Thema konzentrieren. Menschen sollen mit Maschinen reden. Apple setzt auf Siri und Facebook auf Chatbots. Amazon hat bereits vor anderthalb Jahren ein Gerät namens Echo auf den Markt gebracht. Das Gerät verkauft sich so gut, dass es Lieferengpässe gibt. Analysten schätzen, dass drei Millionen Echo-Geräte verkauft wurden.

Im Firmenblog von Google heißt es, dass sich die Entwicklung rund um künstliche Intelligenz an einem "bahnbrechenden" Punkt befinde. Maschinen können mittlerweile problemlos komplexere menschliche Interaktionen auf Bildern erkennen, zum Beispiel, ob Menschen sich umarmen.

Google investiert große Teile des Geldes in Forschung, um gesprochene Sprache besser zu verstehen. Möglich wird das über maschinelles Lernen mit Hilfe von neuronalen Netzwerken. Das ist ein mehrschichtiges Trainings-System für Computer, die Billionen Datenpunkten analysieren ( mehr dazu hier). Die Firma hat am Mittwoch ebenfalls bekanntgegeben, einen Chip hergestellt zu haben, der auf maschinelles Lernen hin optimiert ist.

Riesige Fortschritte, aber nicht vergleichbar atemberaubend

Auch im Bereich Sprache sind die Fortschritte in den vergangenen Jahren riesig gewesen, aber eben nicht so vergleichbar atemberaubend, dass sie mit breiter Brust verkündet wurden. Das ändert sich, wenn auch vergleichsweise langsam.

Wenn Menschen längere Textpassagen transkribieren, liegt die Fehlerquote bei vier Prozent. Übernimmt eine Maschine diese Aufgabe, steigt die Fehlerquote auf acht Prozent. Aber, und das ist der bahnbrechende Moment, an den Google glaubt: "Vor zehn Jahren war die Fehlerquote wahrscheinlich eher bei 80 Prozent", wie der Microsoft-Forscher Yuedong Huang im Interview mit dem Magazin Wired erzählte.

In der vergangenen Woche präsentierte sich das vier Jahre im Geheimen arbeitende Startup Viv zum ersten Mal der Öffentlichkeit ( hier im Video). Gegründet wurde es vom Siri-Erfinder Dag Kittlaus. Die Spracherkennung bei Viv ist derart fortgeschritten, dass die Software auch wirr klingende Anfragen beantwortet: "Regnete es in Seattle vor drei Donnerstagen" oder "Wird es morgen nach 17 Uhr wärmer als 21 Grad in der Nähe der Golden Gate Bridge" zum Beispiel.

So spricht zwar kein Mensch, aber so kann man gut demonstrieren, wie Algorithmen Sprache verstehen. Ein Algorithmus, der den Textaufbau dieser Art versteht, wird auch Kinokarten reservieren können.

Für's Erste begnügt sich auch Google-Chef Sundar Pichai während der Konferenz damit, keine Prognosen abzugeben, sondern über seine Hoffnungen zu reden. "Wir stellen es uns so vor, dass sich jeder Nutzer sein persönliches Google zusammenstellt."

Die Zeitung New York Times testete Geräte von Google, Apple, Microsoft und Amazon. Google schnitt am besten ab.