Im Paradies der gefälschten Bilder

In der Fakultät für Informatik der Universität Leeds geht es zu wie in Frankensteins Laboratorium. Man will hier mithilfe von Maschinen künstliches Leben erschaffen. Auf dem Experimentiertisch liegen aber keine Monster, sondern Schauspieler, genauer: deren Serienrollen. Das erste Versuchsobjekt ist Matt LeBlanc, besser bekannt als Joey aus "Friends". Im ersten Schritt schaute die Software die ersten drei Staffeln "Friends" am Stück, knapp 24 Stunden reine Laufzeit, dann analysierte sie Tausende Seiten Skript. Danach geht alles automatisch. Der Computer digitalisiert die Gesichtszüge und unterdrückt die Konservengelächter-Tonspur, um den Klang der Stimme zu isolieren. So schafft er Bilder, die nie von einer Kamera aufgenommen wurden. Es entsteht ein unabhängig vom lebenden Subjekt agierender künstlicher Avatar.

Der digitale Joey steht für eine größere Entwicklung, für eine Demokratisierung und Automatisierung der gefälschten Bilder. Scheinbar reale Aufnahmen entspringen schon längst nicht mehr nur den Special-Effects-Schmieden in Hollywood, und ihre Urheber brauchen auch keine jahrelange Photoshop-Ausbildung mehr. In Zukunft wird das die Software vollautomatisch erledigen.

Noch weiter als die Wissenschaftler aus Leeds ist ein deutsch-amerikanisches Forscherteam. Dank einer Software namens Face 2 Face überträgt es in Echtzeit Mundbewegungen und Mimik von einem Menschen auf den anderen. Alles, was es dazu braucht, ist eine handelsübliche Webcam, ein Schauspieler, dessen Gesichtszüge aufgenommen werden, und ein Youtube-Video, in dem die Zielperson zu sehen ist. Zu Demonstrationszwecken unterzogen die Forscher Wladimir Putin und Donald Trump der digitalen Maskerade. Die Manipulation ist nicht zu bemerken. Die Mächtigen dieser Welt ziehen absurde Grimassen. Menschen werden zu Marionetten.

Der Softwarekonzern Adobe will eine Audioversion seines Photoshop-Programms erarbeiten. Eine Vorlage von 20 Minuten Sprachaufnahme soll im "Project Vo Co" ausreichen, jedem Menschen ein beliebiges Wort in den Mund zu legen. Auf die Spitze treibt es ein Forschungsprojekt der Universität Michigan zusammen mit dem Max-Planck-Institut für Informatik in Saarbrücken. Der lapidare Titel "Generative Adversarial Text to Image Synthesis" bedeutet nichts anderes, als dass das System dazu in der Lage ist, aus bloßen Beschreibungen realistische Bilder zu erzeugen. Den Satz "Eine Gruppe Menschen auf Skiern steht im Schnee" verwandelt die Software in ein Bergpanorama vor strahlend blauem Himmel. Für unechte Bilder braucht es also nicht einmal mehr echte Vorlagen. Der Rechner erträumt sich seine eigene Realität.

Die meisten dieser Entwicklungen sind immer leistungsfähigeren neuronalen Netzwerken zu verdanken. Angesichts der Diskussion um Fake News und Filterblasen bekommt der wissenschaftliche Durchbruch aber unvermeidbar eine negative Tendenz. Wenn schon hanebüchene, mit Rechtschreibfehlern durchsetzte Überschriften auf obskuren Webseiten genügen, um erschreckend viele Internetnutzer hinters Licht zu führen, wie viele werden es dann erst sein, wenn diese Art von Bild- und Tonmanipulationen frei erhältlich ist?