Der US-Konzern Alphabet will mit dem am Mittwoch veröffentlichten KI-Sprachmodell Gemini die Konkurrenz von Open AI und Microsoft überflügeln. Das neue KI-System kommt in drei Varianten, von denen allerdings ab sofort nur zwei verfügbar sind. Gemini Pro, das trotz des Namens kostenfrei nutzbar ist, findet sich jetzt schon als Basis in Googles Chatbot Bard und soll nach und nach in alle Google-Produkte integriert werden. Allerdings müssen sich Nutzer aus der EU noch eine Weile gedulden.

Während Prompts an Googles Chatbot in Googles Rechenzentren verarbeitet werden, soll Gemini Nano lokal auf Android-Telefonen laufen. Derzeit klappt das aber erst auf einem einzigen Telefonmodell, Googles Pixel 8 Pro, in dem Googles Chip Tensor 3 verbaut ist. Gemini Nano soll auf den Telefonen immer mehr Funktionen verbessern, derzeit wird es aber zunächst nur in der Autoreply-Funktion bei Whatsapp und bei der Zusammenfassung von Aufnahmen mit Googles Sprachmemo-App Rekorder eingesetzt.

Gemini Ultra wiederum soll so gut sein, dass es mit der neuesten Version von Chat GPT - 4 Turbo - mithalten kann. In Tests soll Gemini Ultra durch die Bank besser abgeschnitten haben als die KI von Open AI, wenn auch nicht viel besser. Bis Verbraucher das Modell selbst testen können, müssen sie sich noch bis mindestens Januar gedulden, Google zufolge laufen für das Modell noch letzte Sicherheitstests.

Nicht in der EU, erst ab Januar, nur auf dem neuesten Pixel - das sind recht viele Einschränkungen für das Bohei, das Google bei der Einführung des neuen Produkts veranstaltet hat. Der Konzern ist sich offenbar sicher, dass sein KI-Modell trotz dieser Einschränkungen ein großer Wurf ist. Das Zauberwort in diesem Zusammenhang ist "Multimodalität". Das heißt konkret, dass Gemini mit vielen verschiedenen Inputs arbeiten kann. Dazu gehören Text, Audio, Bilder, Programmiersprachen und Video. Anders als bei bisherigen KI-Modellen wurden bei Gemini nicht eine Bilderkennung und eine Texterkennung zusammengebastelt, sondern Gemini wurde direkt mit verschiedenen Inputs trainiert. Das soll dafür sorgen, dass die KI intuitiver mit den verschiedenen Quellen hantieren kann und so komplexere Anfragen möglich sind.

Die gemalte Gitarre spielt auf einmal 80s-Rock

Besonders beeindruckend erscheint in kleinen Beispielvideos die Interaktion mit Bildern und Videos. So wurde dem Modell etwa eine Physikhausaufgabe vorgelegt, die das Modell korrigierte und direkt erklären konnte, an welcher Stelle der Textaufgabe der Schüler auf welche Weise falsch abgebogen war. Zudem kann Gemini direkt neue Textaufgaben generieren, um zu testen, ob der Schüler den Fehler noch einmal machen würde. Physik und Mathematiklehrer auf der ganzen Welt könnten sich so eine Menge Arbeit sparen, haben aber auch nicht ganz zu Unrecht Angst um ihre Jobs.

Ganz neu ist diese Fähigkeit von KI nicht. Auch Chat-GPT 4.0 kann die Gemini gestellte Physikaufgabe problemlos korrigieren. Neu ist allerdings, dass Google diesen Service bereits in der kostenfreien Version in Bard anbieten will. Wer Chat-GPT 4.0 inklusive Bildanalyse und -generierung nutzen will, muss derzeit 20 Dollar im Monat bezahlen.

Gemini kann aber offenbar auch auf Live-Video reagieren. In einem kurzen Clip malt ein Google-Mitarbeiter eine Gitarre, die Gemini direkt in Musik übersetzt. Als ein Verstärker dazu gemalt wird, erklingt sofort eine E-Gitarre. Etwas später spielt der Mitarbeiter Schere, Stein Papier mit der KI. Das mag eine belanglose Spielerei sein, ist aber im Vergleich zu bisher verfügbaren Plattformen ein Fortschritt.

Auch für Wissenschaftler könnte sich ein Blick auf Gemini lohnen. So könne das Modell unzählige wissenschaftliche Aufsätze nach für Forscher relevante Passagen durchforsten, alte Aufsätze mit neuen Daten ergänzen, sogar alte Tabellen mit neuen Daten erweitern. Arbeit für die Assistenten vorher Tage gebraucht hätten, kann so theoretisch in wenigen Minuten erledigt werden.

Natürlich ist wie immer bei großspurigen Ankündigungen Vorsicht angebracht. Zwar haben in den vergangenen 24 Stunden viele US-Youtuber eigene Versuche mit Gemini unternommen und sind großenteils voll des Lobs über die neuen Möglichkeiten, dennoch sind bisher die meisten beeindruckenden Demos von Google selbst. Von den Fähigkeiten Geminis selbst überzeugen konnte sich die SZ bislang nicht. Trotz dieser Einschränkung ist eines vergleichsweise sicher: Nach Googles verpatztem KI-Start mit dem fehleranfälligen Chatbot Bard, hat das Unternehmen mit seinem aktuellen Modell eine echte Alternative zu Chat-GPT geschaffen.

Auch die Börse reagierte positiv. Der Kurs notiert aktuell über zwei Prozent höher als vor der Ankündigung Googles. Dabei ist immer noch ungeklärt, wie stark Chatbot-KI Googles erfolgreichstes Geschäftsmodell - Werbung in Websuchen - bedroht.