12. Juni 2019, 18:11 Uhr Deepfakes Zuckerbergs böser Zwilling bleibt auf Instagram

Ein Deepfake-Video von Mark Zuckerberg sorgt auf Instagram für Aufregung

Das Video, das Teil einer Kunstaktion ist, soll den Umgang des Facebook-Konzern mit manipulierten Videos thematisieren.

Die Technik für die Video-Bearbeitung, mit der sich Menschen Worte in den Mund legen lassen, entwickelt sich rasant weiter.

Von Johannes Kuhn

Wenige Sekunden nur benötigt Mark Zuckerberg für seine düstere Video-Botschaft auf Instagram: "Stellt Euch das kurz vor: Ein Mann, mit vollständiger Kontrolle über die gestohlenen Daten von Milliarden Menschen, all ihre Geheimnisse, ihr Leben, ihre Zukunft. Ich verdanke das alles Spectre. Spectre hat mir gezeigt: Wer die Daten kontrolliert, kontrolliert die Zukunft."

Mit "Spectre" ist keine Geheimorganisation und auch nicht die bekannte Sicherheitslücke gemeint, sondern eine Kunstaktion, die auf dem Dokumentarfilm-Festival Doc/Fest in Sheffield zu sehen war. Nun sorgt sie als Instagram-Upload im Netz für Gesprächsstoff. Denn besagte Worte hat der Facebook-Chef nie selbst gesprochen, und doch kommen sie aus seinem Mund.

Mit Medienkunst gegen die Dystopie

Die beiden Medienkünstler Bill Posters und David Howe haben für "Spectre" mit Hilfe der israelischen Firma Canny AI eine Reihe von sogenannten "Deepfakes" erstellt. Durch die Manipulation von Mundwinkeln und Audio lassen sie Prominente seltsame Dinge sagen. "Ich fühle mich vom Glück verwöhnt, weil ich es wirklich liebe, Menschen online zu manipulieren, um Geld zu machen", erzählt da zum Beispiel eine täuschend echte Kim Kardashian.

"Wir wollen die digitale Beeinflussungsindustrie unterlaufen, damit endlich eine Diskussion beginnt", erklärt der in Großbritannien lebende Künstler Posters im Gespräch mit SZ.de die Idee hinter dem Projekt. Die Aussagen der Deepfake-Avatare symbolisierten "alternative Wahrheiten, die diese Akteure an anderer Stelle - oder in einem anderen Leben - einmal diskutieren könnten."

Das falsche Zuckerberg-Video erfährt gerade in den USA große Aufmerksamkeit. Dabei wirkt die Aufnahme nicht einmal besonders realistisch: Wie bei vielen Deepfakes der ersten Generation bewegt sich der Mund nicht vollständig im Einklang mit den Silben, auch die Audiospur klingt nicht sehr authentisch. Doch der Instagram-Upload rückt die Frage in den Mittelpunkt, wie Facebook grundsätzlich mit manipulierten Videos umgeht.

Der Konzern hatte sich vor zwei Wochen geweigert, ein verfälschtes Video aus dem Netz zu nehmen. Zu sehen war damals eine Rede der mächtigen demokratischen US-Politikerin Nancy Pelosi. Weil aber die Bildspur etwas verlangsamt ablief, wirkte Pelosi betrunken. Das Video erhielt Millionen Aufrufe, auch einflussreiche Figuren aus dem Trump-Kosmos wie New Yorks ehemaliger Bürgermeister Rudy Giuliani hatten das Video verbreitet.

Während Youtube die Aufnahme löschte, beließen Facebook und Twitter das Video online. Facebook gab ihm nur das Label "falsch" und begründete die Zurückhaltung so: "Wir haben keine Regel, wonach eine Information, die du auf Facebook postest, wahr sein muss." Aus dem Lager der Demokraten kassierte der Konzern dafür heftige Kritik.

Was heißt "Manipulation" im Videoschnitt?

Wie es aussieht, bleibt Facebook bei dieser Linie, auch wenn der Chef selbst betroffen ist. Eine Instagram-Sprecherin erklärte, eine Löschung sei nicht vorgesehen. Wenn Faktenprüfer das Video als falsch markierten, verschwände es aus den Empfehlungen. Allerdings hat der TV-Sender CBS, dessen Material die Grundlage des Zuckerberg-Deepfakes bildet, bereits Urheberrechtsansprüche angemeldet.

Medienberichten zufolge diskutiert der Facebook-Konzern intern bereits länger darüber, ob er neue Regeln für manipulierte Videos erlassen soll. Das Problem: Eine eindeutige Definition von "Manipulation" ist schwer zu finden, da Videos in der Regel immer bearbeitet werden. Auch Satire manipuliert zum Beispiel oft Videos, doch sollen deshalb Comedy-Clips von Facebook verbannt werden?

Die Deepfake-Technik ist seit 2017 ein größeres Thema. Eine Kombination aus maschinellem Lernen, Bilderkennung und ausreichendem Videomaterial ermöglicht es, Gesichter von Menschen in Videos einzubauen oder ihnen Aussagen in den Mund zu legen (eine Art Vorstufe der Technik verwenden Apps wie Snapchat oder FaceApp für ihre Gesichtsfilter). Selbst das US-Verteidigungsministerium beschäftigt sich inzwischen mit der Deepfake-Erkennung, Forscher fordern eindeutige Echtheits-Merkmale wie Video-Wasserzeichen.

Angesichts des schnellen Fortschritts im Maschinenlernen scheint es nur eine Frage der Zeit, bis Deepfakes im Mainstream landen. Kritiker befürchten, dass frisierte Videos eine neue Ära der Rufschädigung und der politischen Manipulation einleiten könnten.

Pornos statt Politik

Auch Heimanwender können schon auf eine rudimentäre Version der Technik zurückgreifen. Die wurde bisher jedoch weniger zur politischen Manipulation, als in der Pornografie eingesetzt. So montierten Internet-Nutzer Gesichter prominenter Frauen in Hardcore-Filme. Medienberichten zufolge wurde die gleiche Technik auch schon eingesetzt, um Ex-Partnerinnen von männlichen Nutzern bloßzustellen.

In den Laboren entwickelt sich die Technik jedoch bereits recht schnell weiter. Erst vor wenigen Tagen hatten Forscher von Adobe, den Universitäten Stanford und Princeton sowie des Max-Plancks-Institut für Informatik einen neuen Software-Prototypen vorgestellt. Dieser soll die Manipulation von Videos stark vereinfachen: Nutzer müssen nur noch das Text-Transkript verändern, um einem Sprecher Worte in den Mund zu legen.

Als eine Testgruppe die Videos später begutachtete, hielten immerhin 60 Prozent die Videos für echt. Der Prototyp funktioniert allerdings nur bei Aufnahmen, die einzig den Kopf eines Menschen zeigen. Die Software benötigt zudem mindestens 40 Minuten Rohmaterial, um effektiv arbeiten zu können.

Deutlich weiter ist die Manipulation von Audio-Aufnahmen. Adobe hat mit der Software VoCo bereits ein "Photoshop für Stimmaufnahmen" entwickelt. Und Facebook präsentierte jüngst, wie das eigene Maschinenlern-System täuschend echte Hörproben des Microsoft-Gründer Bill Gates anfertigte. Gates war deswegen ausgewählt worden, weil von ihm zahlreiche Stunden Audiomaterial vorlagen, anhand derer das System lernen konnte.

Gedacht ist solche Audio-Software eigentlich dafür, realistische Voice-Assistenten zu bauen oder Menschen mit Sprachbehinderung eine natürlichere Stimme zu geben. Die für "Deepfakes" verwendete Videotechnik wiederum erleichtert Filmemachern die Nachbearbeitung von Szenen. Ob zu den Nebenwirkungen gehören wird, dass die Menschheit ihren Ohren und Augen nicht mehr trauen kann, dürfte sich bereits in naher Zukunft herausstellen.