Grundkurs Mensch

Im Internet steht der Mensch immer unter Beobachtung. Eine Binse? Sicher, aber hier soll es ausnahmsweise mal nicht um die zahllosen Werbenetzwerke, Tracking-Programme und all die anderen Online-Spione gehen, die den Nutzer auf Schritt und Klick verfolgen. In Zukunft wird auch die Software künstlicher Intelligenz (KI) genau hinschauen, was wir machen.

Ein Google-Forschungsteam will einem neuen Programm beibringen, die Menschen zu verstehen. Wie bei KI gewohnt, geschieht das, indem man der Software erst einmal massenweise Daten zum Analysieren gibt. Das Quellmaterial findet sich in dem schier unerschöpflichen Bildreservoir namens Youtube. Es besteht aus mehr als 50 000 Videoschnipseln - jedes nicht länger als drei Sekunden -, die Menschen bei allerhand Handlungen zeigen.

Google nennt das "atomic visual actions", unser Alltagsdasein wird also auf die kleinstmögliche Ebene heruntergebrochen. Der Datensatz ist online einsehbar und zunächst wirkt er sehr banal. Man sieht Leute beim Kochen, beim Klettern und Küssen, beim Schwimmen, Spielen und Joggen. Das Ziel sei es, so die Forscher, der KI "soziale Intelligenz" beizubringen. Durch Beobachten lernt das Programm etwas darüber, was Menschen tun und welche Ziele sie damit verfolgen.

Lektion 1: Nach dem Kochen kommt das Essen. Lektion 2: Auf die Umarmung folgt der Kuss

Um es anders zu sagen: In den Laboren der Tech-Konzerne wird der KI Vorstellungskraft verliehen. Denn wenn man weiß, was die Handlung einer Person bedeutet, kann man daraus auch schließen, was sie als Nächstes tun könnte. Noch ist die simple Tatsache, dass nach dem Kochen logischerweise das Essen folgt und nach einer Umarmung möglicherweise ein Kuss, für ein Computerprogramm unheimlich schwer zu begreifen. Sollte sich das einst ändern, hätte man nicht weniger als eine Software, die die Zukunft vorhersagen kann, so haben es zahlreiche Tech-Blogs begeistert umschrieben.

Google ist mit seinem Ansinnen nicht allein. Auch bei Facebook ist man von der Vorstellung einer prophetischen KI fasziniert. Eine am Massachusetts Institute of Technology (MIT) entwickelte KI generiert bereits aus einzelnen Fotos kurze Videos, die zeigen, was in der Szene weiter passieren könnte. Ein Zug im Bahnhof? Er wird gleich abfahren. Eine Strandidylle? Der Computer weiß, dass hier Brandung zu sehen sein muss. Noch sind die künstlich erstellten Visionen der Zukunft grobkörnig und kaum mehr als eine Sekunde lang. Doch was wird passieren, wenn man den Programmen nur genügend Ausgangsmaterial zur Verfügung stellt? Die bei Google verwendeten Videoschnipsel summieren sich auf etwas mehr als 40 Stunden, am MIT hat man der Software immerhin knapp zwei Jahre Lehrfilmchen gezeigt. Viel weniger, als selbst ein Kleinkind schon über die Welt erfahren hat.

Konkrete Anwendungsbeispiele gibt es zuhauf. Wenn eine solche Software etwa in einem selbstfahrenden Auto verbaut ist, kann sie auf unvorhersehbare Situationen im Straßenverkehr nicht nur reagieren, sondern deren Ergebnis anhand des Erlernten antizipieren. Und so auch rechtzeitig die Bremse betätigen.

Vorerst viel wahrscheinlicher ist aber ein ganz anderer Einsatzzweck für ein Programm mit Verständnis für menschliches Handeln. Nämlich mal wieder das zielgenaue Ausspielen von Werbung. Man könnte passende Anzeigen zum Beispiel genau dann auf den Schirm bringen, wenn der Protagonist beim Familienvideoabend eine Cola trinkt oder eine Pizza isst.