Sora: OpenAI erzeugt täuschend echte KI-Videos

Vor einem Jahr verschlang Will Smith Spaghetti und Menschen lachten. Dass künstliche Intelligenz Texteingaben in bewegte Bilder verwandelt, war damals beeindruckend, doch das Ergebnis erinnerte an einen Horror-Comic. Der Schauspieler ist deutlich zu erkennen, aber offensichtlich nicht real. In den kurzen Clips wirkt das Gesicht verzerrt, fast monströs, unförmige Nudeln wuchern aus der Nase und verschwinden in den Ohren.

Elf Monate später lacht niemand mehr. Am Donnerstagabend hat Open AI gezeigt, wozu KI mittlerweile in der Lage ist. Auf den Textroboter ChatGPT folgt jetzt der Videogenerator Sora. Das Modell erzeugt bis zu einminütige Videos, die nichts mehr mit Spaghetti-Smith zu tun haben. Wer nicht ganz genau hinsieht, kann die computergenerierten Clips mit authentischen Aufnahmen verwechseln.

Da läuft eine Frau durch das nächtliche Tokio, der nasse Asphalt reflektiert die neonfarbene Lichter der Stadt, in den Gläsern ihrer schwarzen Sonnenbrille spiegeln sich die Straßen. Drei Golden-Retriever-Welpen spielen im Schnee, Kristalle und Flocken fliegen in Zeitlupe durch die Luft, jedes Haar des Fells bewegt sich mit. Eine Drohne kreist über der zerklüfteten Steilküste Kaliforniens, im goldenen Licht des Sonnenuntergangs rollen die Wellen majestätisch gegen die Felsen und zerbersten in weißem Schaum.

Die SZ-Redaktion hat diesen Artikel mit einem Inhalt von X Corp. angereichert

Um Ihre Daten zu schützen, wurde er nicht ohne Ihre Zustimmung geladen.

Ich bin damit einverstanden, dass mir Inhalte von X Corp. angezeigt werden. Damit werden personenbezogene Daten an den Betreiber des Portals zur Nutzungsanalyse übermittelt. Mehr Informationen und eine Widerrufsmöglichkeit finden Sie untersz.de/datenschutz.

Es sind anmutige, fast schon cineastische Videos - mit einem entscheidenden Makel: Kein einziges Pixel ist real. Sora kombiniert dafür die Technologien von ChatGPT und dem Bildgenerator Dall-E. Das Modell setzt Videoschnipsel so zusammen, als handle es sich um Wörter. Aus dem Trainingsmaterial hat Sora abgeleitet, wie sich Licht und Schatten zueinander verhalten, was scheinbar reale Bewegungen und Texturen ausmacht, und welche physikalischen Gesetze es zu beachten gilt.

Mit der Lupe findet man Fehler

Keiner der Dutzenden Clips, die Open AI auf seiner Homepage zeigt, ist perfekt. Wenn man weiß, dass man ein synthetisches Video sieht, findet man schnell Fehler. Die Frau läuft etwas zu schwebend, die Menschen im Hintergrund erinnern an Charaktere aus einem Computerspiel. Der zerstäubende Schnee ändert in der Luft die Richtung, die Wellen gleiten eher über die Felsen hinweg, als sich daran zu brechen.

Zudem kann man davon ausgehen, dass Open AI besonders gelungene und beeindruckende Beispiele ausgewählt hat. Sora ist nicht allgemein zugänglich, momentan können nur einige ausgewählte Sicherheitsforscher und Künstlerinnen damit herumspielen. Unklar bleibt auch, mit welchem Material das Modell trainiert wurde, und wie lange es dauert, ein Video zu erzeugen.

Trotzdem wäre es falsch, sich ausschließlich auf die Schwächen von Sora zu fokussieren. Die Technologie wird nie wieder so schlecht sein wie heute. Sora ist das japanische Wort für Himmel und soll "das grenzenlose kreative Potenzial" verdeutlichen, sagen seine Schöpfer. Dafür braucht es keine blühende Fantasie. KI-Entwicklung verläuft selten linear, aber wenn man sich in Erinnerung ruft, wie lächerlich Will Smith aussah, dann kann man sich lebhaft ausmalen, was in einem Jahr möglich sein könnte.

Sora wird missbraucht werden

Das ist faszinierend und erschreckend zugleich. Wer visuelle Geschichten erzählen will, wird Werkzeuge wie Sora lieben, der Kreativität könnten bald keine technischen Grenzen mehr gesetzt sein. Doch die Risiken sind genauso offensichtlich und drastisch. Zum einen könnten KI-Videogeneratoren viele der Menschen arbeitslos machen, mit deren Arbeit sie trainiert wurden: Motion-Designer, Illustratorinnen, Werbefilmerinnen, Drohnenpiloten, Kameraleute. Sora wird keinen Oscar gewinnen, aber auch mittelmäßige, uninspirierte Videos sind für manche Einsatzzwecke gut genug - und sie kosten einen Bruchteil.

Zum anderen wird Sora genauso missbraucht werden wie jede andere Technologie zuvor. Erst am Mittwoch kam heraus, dass chinesische, russische und iranische Hacker versucht hatten, Werkzeuge von Open AI und Microsoft für kriminelle Zwecke einzusetzen. Das Gleiche steht Sora bevor. In neun Monaten wählen die USA einen neuen Präsidenten, soziale Medien werden mit Lügen und Propaganda geflutet werden - womöglich auch mit synthetischen Videos.

Glaubt man Open AI, bemüht sich das Unternehmen, die Gefahren der Technologie zu minimieren. Bestimmte Texteingaben sollen automatisch blockiert werden, etwa Darstellungen von Gewalt und Sexualität oder mögliche Urheberrechtsverletzungen. Beim Bildgenerator Dall-E klappt das nur unzuverlässig, viele Schutzmechanismen lassen sich mit etwas Geschick aushebeln. Auch die sexualisierten KI-Fakes von Taylor Swift, die Ende Januar viral gingen, hätte es theoretisch gar nicht geben dürfen.

Die Forscherinnen und Forscher von Open AI entschuldigen sich jedenfalls schon mal vorsorglich. Trotz aller Vorsichtsmaßnahmen könne man "nicht alle Möglichkeiten vorhersagen, wie Menschen unsere Technologie missbrauchen werden", heißt es in der Ankündigung. Eine Frage wird man sich in Zukunft wohl häufiger stellen müssen: Ist das echt?