Künstliche Intelligenz: Was Googles neue Super-KI Gemini kann

Der US-Konzern Alphabet will mit dem am Mittwoch veröffentlichten KI-Sprachmodell Gemini die Konkurrenz von Open AI und Microsoft überflügeln. Das neue KI-System kommt in drei Varianten, von denen ab sofort allerdings nur zwei verfügbar sind. Gemini Pro, das trotz seines Namens kostenfrei nutzbar ist, findet sich jetzt schon als Basis in Googles Chatbot Bard und soll nach und nach in alle Google-Produkte integriert werden. Allerdings müssen sich Nutzer aus der EU noch eine Weile gedulden.

Während die Anweisungen des Nutzers an Googles neuen Chatbot in Googles Rechenzentren verarbeitet werden, soll Gemini Nano lokal auf Android-Telefonen laufen. Derzeit klappt das aber erst auf einem einzigen Telefonmodell, Googles Pixel 8 Pro, denn in dem ist Googles Spezial-Chip Tensor 3 verbaut. Gemini Nano soll auf den Telefonen immer mehr Funktionen verbessern, derzeit wird es aber zunächst nur in der Autoreply-Funktion bei Whatsapp und bei der Zusammenfassung von Aufnahmen mit Googles Sprachmemo-App Rekorder eingesetzt.

Gemini Ultra wiederum soll so gut sein, dass es mit der neuesten Version von Chat GPT - 4 Turbo - mithalten kann. Chat GPT ist der wohl bekannteste KI-Chatbot. Er stammt vom Unternehmen Open AI, in das Googles Konkurrent Microsoft viel Geld investiert hat. In Tests soll Gemini Ultra durch die Bank besser abgeschnitten haben als die KI von Open AI. Bis Verbraucher das Modell selbst testen können, müssen sie sich noch bis mindestens Januar gedulden, Google zufolge laufen für das Modell noch letzte Sicherheitstests.

Nicht in der EU, erst ab Januar, nur auf dem neuesten Pixel - das sind recht viele Einschränkungen für das Bohei, das Google bei der Einführung des neuen Produkts veranstaltet hat. Der Konzern ist sich offenbar sicher, dass sein KI-Modell trotz dieser Einschränkungen ein großer Wurf ist. Das Zauberwort in diesem Zusammenhang lautet "Multimodalität". Das heißt konkret, dass Gemini mit vielen verschiedenen Eingaben arbeiten kann - wie Text, Ton, Bilder, Programmiersprachen und Video. Anders als in bisherigen KI-Modellen wurden für Gemini nicht eine Bilderkennung und eine Texterkennung zusammengebastelt. Gemini wurde direkt mit verschiedenen EIngabeformen trainiert. So soll die KI leichter mit den verschiedenen Quellen hantieren und komplexere Anfragen bewältigen können.

Die gemalte Gitarre spielt auf einmal 80s-Rock

Besonders beeindruckend erscheint in Googles Beispielvideos die Interaktion mit Bildern und Videos. So wurde dem Modell etwa eine Physik-Hausaufgabe vorgelegt, die es korrigierte, und dann auch erklären konnte, an welcher Stelle der Textaufgabe der Schüler auf welche Weise falsch abgebogen war. Zudem kann Gemini direkt neue Textaufgaben generieren, um zu testen, ob der Schüler den Fehler noch einmal machen würde. Physik und Mathematiklehrer auf der ganzen Welt könnten sich so eine Menge Arbeit sparen.

Ganz neu ist diese Fähigkeit von KI nicht. Auch Chat-GPT 4.0 kann die Gemini gestellte Physikaufgabe problemlos korrigieren. Neu ist allerdings, dass Google diesen Service bereits in der kostenfreien Version in Bard anbieten will. Wer Chat-GPT 4.0 inklusive Bildanalyse und -generierung nutzen will, muss derzeit 20 Dollar im Monat bezahlen.

Gemini kann aber Googles Präsentation zufolge auch auf Live-Video reagieren. In einem kurzen Clip malt ein Google-Mitarbeiter eine Gitarre, die Gemini direkt in Musik übersetzt. Als ein Verstärker dazu gemalt wird, erklingt sofort eine E-Gitarre. Etwas später spielt der Mitarbeiter Schere, Stein Papier mit der KI. Das mag eine belanglose Spielerei sein, ist aber im Vergleich zu bisher verfügbaren Plattformen ein Fortschritt.

Auch für Wissenschaftler könnte sich ein Blick auf Gemini lohnen. So könne das Modell unzählige wissenschaftliche Aufsätze nach für Forscher relevanten Passagen durchforsten, alte Aufsätze mit neuen Daten ergänzen, sogar alte Tabellen mit neuen Daten erweitern. Arbeit, für die Assistenten vorher Tage gebraucht hätten, könnte so theoretisch in wenigen Minuten erledigt werden.

Natürlich ist wie immer bei solche großspurigen Ankündigungen Vorsicht angebracht. Zwar haben nach der Vorstellung viele Youtuber eigene Versuche mit Gemini unternommen und sind nun größtenteils voll des Lobes, dennoch sind bisher die meisten beeindruckenden Demos von Google selbst. Von den Fähigkeiten Geminis selbst überzeugen konnte sich die SZ wegen der genannten Beschränkungen bislang nicht. Dennoch ist eines sicher: Nach Googles verpatztem KI-Start mit dem fehleranfälligen Chatbot Bard hat das Unternehmen mit seinem aktuellen Modell eine zumindest vergleichbare Alternative zu Chat-GPT geschaffen.

Die Börse reagierte positiv. Der Kurs notiert aktuell über zwei Prozent höher als vor der Ankündigung Googles. Dabei ist immer noch ungeklärt, wie stark die Chatbot-KI Googles erfolgreichstes Geschäftsmodell bedroht: ganz altmodisch Werbung über die Ergebnisse seiner Suchmaschine zu schalten.