Sora von Open AI:Das nächste große Ding nach ChatGPT

Sora von Open AI: Eine Frau läuft durch das nächtliche Tokio, in den Gläsern ihrer schwarzen Sonnenbrille spiegeln sich die Straßen - mit Texteingaben wie diesen erschafft künstliche Intelligenz Videos.

Eine Frau läuft durch das nächtliche Tokio, in den Gläsern ihrer schwarzen Sonnenbrille spiegeln sich die Straßen - mit Texteingaben wie diesen erschafft künstliche Intelligenz Videos.

(Foto: openai.com/sora)

Cineastische Kamerafahrten und tollende Hundewelpen: Sora verwandelt beliebige Texteingaben in Bewegtbild. Der Videogenerator von Open AI beeindruckt und beängstigt.

Von Simon Hurtz, Berlin

Vor einem Jahr verschlang Will Smith Spaghetti und Menschen lachten. Dass künstliche Intelligenz Texteingaben in bewegte Bilder verwandelt, war damals beeindruckend, doch das Ergebnis erinnerte an einen Horror-Comic. Der Schauspieler ist deutlich zu erkennen, aber offensichtlich nicht real. In den kurzen Clips wirkt das Gesicht verzerrt, fast monströs, unförmige Nudeln wuchern aus der Nase und verschwinden in den Ohren.

Elf Monate später lacht niemand mehr. Am Donnerstagabend hat Open AI gezeigt, wozu KI mittlerweile in der Lage ist. Auf den Textroboter ChatGPT folgt jetzt der Videogenerator Sora. Das Modell erzeugt bis zu einminütige Videos, die nichts mehr mit Spaghetti-Smith zu tun haben. Wer nicht ganz genau hinsieht, kann die computergenerierten Clips mit authentischen Aufnahmen verwechseln.

Da läuft eine Frau durch das nächtliche Tokio, der nasse Asphalt reflektiert die neonfarbene Lichter der Stadt, in den Gläsern ihrer schwarzen Sonnenbrille spiegeln sich die Straßen. Drei Golden-Retriever-Welpen spielen im Schnee, Kristalle und Flocken fliegen in Zeitlupe durch die Luft, jedes Haar des Fells bewegt sich mit. Eine Drohne kreist über der zerklüfteten Steilküste Kaliforniens, im goldenen Licht des Sonnenuntergangs rollen die Wellen majestätisch gegen die Felsen und zerbersten in weißem Schaum.

Es sind anmutige, fast schon cineastische Videos - mit einem entscheidenden Makel: Kein einziges Pixel ist real. Sora kombiniert dafür die Technologien von ChatGPT und dem Bildgenerator Dall-E. Das Modell setzt Videoschnipsel so zusammen, als handle es sich um Wörter. Aus dem Trainingsmaterial hat Sora abgeleitet, wie sich Licht und Schatten zueinander verhalten, was scheinbar reale Bewegungen und Texturen ausmacht, und welche physikalischen Gesetze es zu beachten gilt.

Mit der Lupe findet man Fehler

Keiner der Dutzenden Clips, die Open AI auf seiner Homepage zeigt, ist perfekt. Wenn man weiß, dass man ein synthetisches Video sieht, findet man schnell Fehler. Die Frau läuft etwas zu schwebend, die Menschen im Hintergrund erinnern an Charaktere aus einem Computerspiel. Der zerstäubende Schnee ändert in der Luft die Richtung, die Wellen gleiten eher über die Felsen hinweg, als sich daran zu brechen.

Zudem kann man davon ausgehen, dass Open AI besonders gelungene und beeindruckende Beispiele ausgewählt hat. Sora ist nicht allgemein zugänglich, momentan können nur einige ausgewählte Sicherheitsforscher und Künstlerinnen damit herumspielen. Unklar bleibt auch, mit welchem Material das Modell trainiert wurde, und wie lange es dauert, ein Video zu erzeugen.

Trotzdem wäre es falsch, sich ausschließlich auf die Schwächen von Sora zu fokussieren. Die Technologie wird nie wieder so schlecht sein wie heute. Sora ist das japanische Wort für Himmel und soll "das grenzenlose kreative Potenzial" verdeutlichen, sagen seine Schöpfer. Dafür braucht es keine blühende Fantasie. KI-Entwicklung verläuft selten linear, aber wenn man sich in Erinnerung ruft, wie lächerlich Will Smith aussah, dann kann man sich lebhaft ausmalen, was in einem Jahr möglich sein könnte.

Sora wird missbraucht werden

Das ist faszinierend und erschreckend zugleich. Wer visuelle Geschichten erzählen will, wird Werkzeuge wie Sora lieben, der Kreativität könnten bald keine technischen Grenzen mehr gesetzt sein. Doch die Risiken sind genauso offensichtlich und drastisch. Zum einen könnten KI-Videogeneratoren viele der Menschen arbeitslos machen, mit deren Arbeit sie trainiert wurden: Motion-Designer, Illustratorinnen, Werbefilmerinnen, Drohnenpiloten, Kameraleute. Sora wird keinen Oscar gewinnen, aber auch mittelmäßige, uninspirierte Videos sind für manche Einsatzzwecke gut genug - und sie kosten einen Bruchteil.

Zum anderen wird Sora genauso missbraucht werden wie jede andere Technologie zuvor. Erst am Mittwoch kam heraus, dass chinesische, russische und iranische Hacker versucht hatten, Werkzeuge von Open AI und Microsoft für kriminelle Zwecke einzusetzen. Das Gleiche steht Sora bevor. In neun Monaten wählen die USA einen neuen Präsidenten, soziale Medien werden mit Lügen und Propaganda geflutet werden - womöglich auch mit synthetischen Videos.

Glaubt man Open AI, bemüht sich das Unternehmen, die Gefahren der Technologie zu minimieren. Bestimmte Texteingaben sollen automatisch blockiert werden, etwa Darstellungen von Gewalt und Sexualität oder mögliche Urheberrechtsverletzungen. Beim Bildgenerator Dall-E klappt das nur unzuverlässig, viele Schutzmechanismen lassen sich mit etwas Geschick aushebeln. Auch die sexualisierten KI-Fakes von Taylor Swift, die Ende Januar viral gingen, hätte es theoretisch gar nicht geben dürfen.

Die Forscherinnen und Forscher von Open AI entschuldigen sich jedenfalls schon mal vorsorglich. Trotz aller Vorsichtsmaßnahmen könne man "nicht alle Möglichkeiten vorhersagen, wie Menschen unsere Technologie missbrauchen werden", heißt es in der Ankündigung. Eine Frage wird man sich in Zukunft wohl häufiger stellen müssen: Ist das echt?

Zur SZ-Startseite
Bundeswirtschaftsminister Robert Habeck

SZ PlusKonjunktur
:Bundesregierung muss Wirtschaftsprognose deutlich nach unten korrigieren

Die Wirtschaft stagniert. Statt 1,3 soll sie 2024 nur noch um 0,2 Prozent wachsen. Robert Habeck nennt das "wirklich dramatisch schlecht". Ökonomen mahnen: Die Lage ist ernst.

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: