KI: Warum hinter Sprachmodellen wie GPT-3 mehrköpfige Monster stecken

Wie soll dieser Text nur beginnen? Wo anfangen bei einem so komplexen Thema wie der maschinellen Erfassung der menschlichen Sprache? Wie praktisch, dass künstliche Intelligenz (KI) einem diese Grübelei abnimmt: Eine Software des Start-ups Topic aus San Francisco schlägt Texteinstiege für beliebige Themen vor. Gibt man "Computerlingustik" - worum es im Folgenden gehen soll - ein, so erscheint in Windeseile dieser Text:

Dank der Arbeit des ersten Computerlinguisten Claude Shannon in den 1940ern und 1950ern müssen Linguisten nicht mehr raten, welche Wörter eine Person in der alltäglichen Kommunikation benutzt. Sie können anspruchsvolle Computertechnik benutzen, um selbst die komplexesten geschriebenen Texte zu verstehen, von antiken Manuskripten bis zu technischen Bedienungsanleitungen von heute.

Ob Linguisten ohne Computer einst wirklich im Dunkeln tappten, ist mehr als fraglich, doch insgesamt ein halbwegs passabler Einstieg. Claude Shannon gilt tatsächlich als einer der Pioniere der Computerlinguistik. Durch seine mathematischen Vorarbeiten ermöglichte er spätere Durchbrüche im Natural Language Processing (NLP), dem automatisierten Verarbeiten natürlicher Sprache - also von Menschen gesprochener und geschriebener Sprache im Gegensatz zu konstruierter, formaler Sprache wie einer Programmiersprache. Seither versuchen NLP-Forscher zu berechnen, wie wahrscheinlich welches Wort auf ein anderes folgt. Dabei dominieren inzwischen künstliche neuronale Netze; das sind Modelle aus dem Bereich des maschinellen Lernens, die der Struktur von Nervensystemen grob nachempfunden sind.

In ihren Netzwerken erkennt die Software Zusammenhänge, die dem Menschen verborgen bleiben

Kürzlich sorgte die Computerlinguistik mal wieder für Aufsehen. Das US-amerikanische Softwareunternehmen Open AI stellte die dritte Generation seines Generative Pre-Trained Transformer (GPT-3) vor: Ein Textgenerator, der Gedichte im Stile Oscar Wildes und Dramen in der Sprache Shakespeares verfasst. Der Griffbilder von Gitarrenakkorden versteht. Der Webseiten nach Wunsch programmiert und Texte beinahe fehlerlos in etliche Sprachen übersetzt. Der mit Menschen über das Wetter palavert oder über Klimapolitik diskutiert. Und der den obigen Texteinstieg verfasst hat.

Denn die Software des Start-ups Topic basiert auf GPT-3. Die Entwicklerfirma Open AI verkauft den Zugang zu seinem Sprachmodell über eine Programmierschnittstelle; zu ihren Kunden gehören neben Topic auch Spielehersteller oder Chatbot-Anbieter. Als Open-Source-Projekt gestartet, ist von der Offenheit nur noch der Name geblieben: Open AI ist längst ein kommerzielles Unternehmen; der Quellcode von GPT-3 ist unter Verschluss. Open-Source-Software gehört hingegen im Prinzip allen, jeder kann sie benutzen und verändern.

Lovot
:Ein Roboter zum Liebhaben

Er reagiert auf Berührungen, erfasst Befinden und Persönlichkeit von Menschen und verhält sich danach: Über Lovot,den Anti-Einsamkeits-Roboter, der sich während der Pandemie zum Verkaufsschlager entwickelt.

Die öffentliche Aufregung um GPT-3 lässt sich denn auch zu einem Teil durch geschickte PR-Arbeit der Firma erklären: Open AI hatte bereits die Vorgängerversion GPT-2 zunächst unter Verschluss gehalten, aus "Sorge vor Missbrauch", wie es hieß - und so die Spekulationen um die KI zusätzlich angeheizt. Das Unwissen über die genaue Modellarchitektur befördert düstere Dystopien und haltlose Träumereien gleichermaßen. Die New York Times nannte GPT-3 "gruselig, demütigend und mehr als ein bisschen angsteinflößend". Jörg Bienert, Vorsitzender des KI-Bundesverbands, sprach im Handelsblatt von "einer kleine Revolution". Und in den sozialen Medien wird die KI bereits als einer der großen Durchbrüche der Technologiegeschichte gefeiert, von der ersten "allgemeinen künstlichen Intelligenz" ist die Rede. Gehen da einige Technik-Gläubige einer gewieften PR-Maschinerie auf den Leim? Ist der ganze Rummel um GPT-3 übertrieben?

Nicht ganz. Tatsächlich perfektioniert das Sprachmodell mit seinen 175 Milliarden Parametern - also lernbaren mathematischen Variablen - eine Idee, die die NLP-Forschung umgekrempelt hat: Aufmerksamkeit. Google-Forscher hatten im Jahr 2017 einen Fachartikel mit dem programmatischen Titel "Attention Is All You Need" auf der renommierten KI-Fachkonferenz NIPS vorgestellt - es ist einer der am häufigsten zitierten wissenschaftlichen Artikel der vergangenen Jahre. Die Informatiker schlagen darin ein Sprachmodell vor, das einzig auf dem "Attention Mechanism" basiert. Mit diesem Aufmerksamkeitsmechanismus lernen Modelle, ihre Aufmerksamkeit auf Kombinationen wichtiger "Tokens" zu richten, das sind Satzbestandteile wie Wörter oder Satzzeichen.

Beim Satz "Sie isst eine gelbe Banane" kann das Programm zum Beispiel der Kombination von "isst" und "Banane" ein hohes Gewicht verleihen - der Sinn des Satzes steckt überwiegend in dieser Wortverknüpfung. Die Google-Forscher belassen es aber nicht dabei: In ihrem Netz ermöglichen mehrere solcher Aufmerksamkeitsfunktionen, dass ganz unterschiedliche Dinge erlernt werden können; neben der inhaltlichen Bedeutung etwa auch grammatikalische Strukturen wie Konjugationsregeln. "Multi-Head Attention" heißt diese Idee, also mehrköpfige Aufmerksamkeit, weil diese Funktionen in manchen Visualisierungen wie mehrköpfige Monster aussehen.

Sie machen Modelle wie GPT-3 sehr flexibel und erlauben es den Netzen, viele Verbindungen zwischen teils weit entfernten "Tokens" zu lernen. Das Modell erschafft in den tieferen Schichten des Netzes eine unvorstellbar hochdimensionale mathematische Repräsentation von Sprache. In dieser Welt entdeckt es dann Zusammenhänge, darunter auch solche, die Menschen mitunter verborgen bleiben. Das ist der Grund, wieso GPT-3 selbst komplexe Texte vervollständigen kann und dabei auch noch einen bestimmten sprachlichen Stil trifft.

Das Revolutionäre an der Idee des Google-Teams steckt indes im zweiten Teil der Überschrift ihres Artikels: "All You Need". Die Entwickler lassen sämtliche Netz-Konstruktionen, die in den vergangenen Jahrzehnten im NLP verwendet wurden, einfach weg. Keine Recurrent Neural Nets (RNNs), keine Convolutional Neural Nets (CNNs) - Aufmerksamkeit ist alles, was man braucht. Besonders RNNs waren in der Sprachmodellierung zuvor sehr beliebt. Diese Form von künstlichen neuronalen Netzen verarbeitet Sprache sequenziell, also Wort für Wort. Einige dieser Netze merken sich mithilfe einer Art Kurzzeitgedächtnis die Wörter und verknüpfen sie miteinander. Ende der 1990er-Jahre hatten Jürgen Schmidhuber und Sepp Hochreiter in München die Idee dieses Long Short Term Memory (LSTM) entwickelt.

Das Programm hat gelernt, was man typischerweise sagt, aber nicht, was es bedeutet

Der 2017 vorgestellte Google-Ansatz verarbeitet im Gegensatz dazu viele Wörter parallel, also quasi alles auf einmal statt in kleinen Häppchen - das mehrköpfige Monster ist gewissermaßen besonders gefräßig und bricht mit dem Paradigma, dass Sprache sequenziell erlernt werden muss. Möglich wurde das durch bessere Grafikprozessoren (GPUs), die im Gegensatz zu klassischen Prozessoren (CPUs) sehr viele Berechnungen gleichzeitig durchführen können. Diese Parallelisierung spart enorm viel Rechenzeit, andernfalls bräuchten die Modelle Wochen, um zu einem Ergebnis zu kommen.

Die Google-Entwickler nannten das System "Transformer", weil es durch den sogenannten Encoder erst die Repräsentation der Texte lernt, mit denen es gefüttert wurde, um schließlich mithilfe des Decoders selbst Sätze zu formulieren, zum Beispiel eine Übersetzung oder die Antwort auf eine Frage. Sprache wird also erst in eine abstrakte mathematische Struktur transformiert und dann wieder zurück ins Englische oder Deutsche verwandelt.

Auch wenn die Details der Netzstruktur unbekannt sind, steht fest: GPT-3 ist nichts anderes als ein besonders großer"Transformer" - daher das "T" im Namen. Das "P" steht für "pre-trained": Die Entwickler von Open AI hatten GPT-3 mit mehr als einer halben Billion kuratierter "Tokens" aus dem Internet und digitalen Büchern gefüttert, um die KI mit einem Vorwissen auszustatten, bevor sie sie mit konkreten Aufgaben konfrontierten. "G" heißt "generative", bedeutet also einfach, dass GPT-3 nicht nur Informationen aus Texten sammelt, sondern selbst übersetzt, schreibt oder Fragen beantwortet.

Aber hat der mehrköpfige Alleskönner auch wirklich gelernt, wie Sprache aufgebaut ist, ihre teils unlogischen Regeln verinnerlicht und ihre Struktur begriffen? "Nicht wirklich. GPT-3 hat gelernt, wie man sich typischerweise ausdrückt", sagt Hinrich Schütze, Professor für Computerlinguistik an der Ludwig-Maximilians-Universität München. Aus riesigen Datenmengen lerne GPT-3 zwar, welche Worte gut zusammenpassen, doch nicht zwangsläufig deren Bedeutung. Dazu braucht es Wissen, das über den bloßen Text hinausgeht. Schütze gibt ein Beispiel: GPT-3 könne anhand der Statistiken eines Fußballspiels zwar eine unterhaltsame Sportreportage schreiben, aber für zusammenfassende Sätze wie "Deutschland gewinnt gegen die Ukraine" fehle dem Modell die Kenntnis der Fußballregeln, selbst wenn bekannt ist, dass Deutschland zwei und die Ukraine ein Tor geschossen hat.

Künstliche Intelligenz
:Die große Show

Wo künstliche Intelligenz draufsteht, steckt oft nur simple Software drin. Und hinter vermeintlich klugen Chatbots verbergen sich bisweilen echte Menschen.

Dazu passen die Ergebnisse mehrerer Experimente von Wissenschaftlern der New York University, die unter anderem gezeigt haben, dass GPT-3 denkt, Traubensaft sei tödlich, weil das Modell aus den Trainingsdaten falsche Schlüsse gezogen hat. Auch der von GPT-3 vorgeschlagene Anfang dieses Artikels offenbart das mangelhafte inhaltliche Verständnis der KI. Darin stellt GPT-3 Claude Shannon als Computerlinguisten vor. Auch wenn Shannon viel Vorarbeit für diesen Bereich geleistet hat, als Computerlinguist würden ihn Historiker sicherlich nicht bezeichnen. Schon allein deshalb, weil es diese Disziplin zu seiner Zeit noch nicht gab. Shannon war Mathematiker und Elektrotechniker. Vermutlich wurde Shannon in den Trainingsdaten der Computerlinguistik zugeordnet oder immer wieder in ihrem Kontext erwähnt - GPT-3 schloss daraus, dass es sich bei ihm um einen Computerlinguisten handeln muss.

Das Wissen des Systems steht von Anfang an fest. Es wächst nicht mehr

GPT-3 hat ein riesiges Gedächtnis, aber sein logisches Denkvermögen ist beschränkt - genauso wie seine Lernfähigkeit. "Es hat wahnsinnig viel Vorwissen, aber für eine neue Aufgabe lernt es nichts dazu", sagt Schütze. Es müsse mit dem Wissen auskommen, das es am Anfang erworben hat. Diese Eigenschaft ist mit dafür verantwortlich, dass GPT-3 zwar von der Übersetzung bis zur Programmierung von Websites beinahe alles kann, was andere Modelle auch können, aber eben auch in keinem Bereich am besten ist. So gebe es spezielle Systeme, die im Dialog mit Menschen besser seien, schrieb KI-Forscher und Turing-Preisträger Yann LeCun kürzlich auf Facebook.

Insgesamt, so LeCun, sei GPT-3 ein durchaus beachtliches Sprachmodell, aber eben auch nicht mehr - und schon gar keine allgemeine künstliche Intelligenz. "Intelligente Maschinen zu entwickeln, indem man Sprachmodelle hochskaliert, ist, wie wenn man Flugzeuge baut, die möglichst hoch fliegen können, um zum Mond zu kommen", schrieb LeCun. Dabei stelle man zwar Höhenrekorde auf, eine Mondfahrt erfordere jedoch keine Flugzeuge, sondern Raketen - einen gänzlich anderen Ansatz.