Wie Computer sprechen lernen

Erst klingt der Dialog über Liebe ganz alltäglich. Doch dann sagt "Hal" in dem Youtube-Video des Informatikers Alif Jakir: "Ich glaube, dass man absolut jeden lieben kann, egal wer er ist."

Spätestens jetzt wirkt das Gespräch unnatürlich, obwohl die künstlich generierten Gesichter echt aussehen. Denn auch das Gespräch ist synthetisch, erzeugt von einer speziellen Art künstlicher Intelligenz (KI), einem so genannten "Sprachmodell". Es heißt "GPT-3" und hat im letzten Jahr die Welt verblüfft. Der australische Sprachphilosoph David Chalmers wollte in der mit Eloquenz gepaarten Vielseitigkeit von GPT-3 sogar Anzeichen einer menschenähnlichen Intelligenz erkennen.

GPT-3, entwickelt von der kalifornischen Firma OpenAI, war damals das rechenstärkste Sprachmodell. Es produziert selbstständig Texte, die sich lesen, wie von Menschen verfasst. Wortgewandt behandelt die KI beliebige Themen, beantwortet Fragen, schreibt Geschichten, Dialoge oder Gedichte, übersetzt oder wandelt Alltagssprache in Programmiercode.

Technologie
:KI ist wie ein Vierjähriger

Künstliche Intelligenz, puh, da raucht schnell der Kopf. Aber auf dem SZ-Gipfel erklären zwei Fachleute sehr anschaulich, was die Technologie kann und was nicht.

"Menschen werden immer natürlicher mit Computern sprechen"

Das Sprachmodell zeigte, dass KI ein recht breites Wissen über die Welt lernen und ausdrücken kann. Ein Qualitätssprung, der mittlerweile einen Wettlauf um noch rechenstärkere Sprachmodelle ausgelöst hat, an dem sich große amerikanische Techfirmen wie Google oder der Chiphersteller Nvidia beteiligen. Im Sommer trat China, das sich als zweite KI-Macht neben den USA positionieren will, mit seinem Sprachmodell "Wu Dao 2.0" in das Rennen ein. Im Dezember veröffentlichte schließlich auch die britische Google-Tochter DeepMind ihr Sprachmodell "Retro". Es soll dank einer externen Text-Datenbank, die wie ein Spickzettel verwendet wird, im Vorteil sein.

Im nächsten Jahr will auch Deutschland in den Wettlauf einsteigen. Ab Januar 2022 fördert das Bundeswirtschaftsministerium das Projekt OpenGPT-X, das ein europäisches Sprachmodell bauen soll. Beteiligt sind neben dem KI-Bundesverband acht weitere Partner, darunter KI-Firmen wie Aleph Alpha aus Heidelberg, das Deutsche Forschungszentrum für Künstliche Intelligenz, sowie mögliche Anwender.

"Sprachmodelle sind eine entscheidende Entwicklung", sagt Jörg Bienert vom KI-Bundesverband, ein Netzwerk aus deutschen KI-Unternehmen und -Experten. Sie seien die Basis für eine ganze Reihe von Anwendungen wie Chatbots oder automatisches Auswerten von Dokumenten.

"Menschen werden immer natürlicher mit Computern sprechen", ergänzt Jessica Heesen, Medienethikerin an der Universität Tübingen. Ein Dialog zwischen Mensch und Smartphone könnte sich dann so anhören: "Finde bitte das Dokument, das ich für den Vortrag am Samstag erstellt habe." Das Handy fragt nach: "Meinst du das mit der Umsatzgrafik drin?" Sprachmodelle könnten zur Benutzeroberfläche des Netzes werden. "Wer Computer sprechfähig macht, wird eine große Vormachtstellung auf dem Markt haben", meint Heesen.

Bienert sieht das als Herausforderung für den alten Kontinent. "Europa läuft Gefahr, von amerikanischen Produkten abhängig zu werden, wie bei Suchmaschinen", warnt er. US-Firmen würden dann die Daten europäischer Nutzer erhalten und mit diesen ihre Sprachmodelle weiter verbessern. Ein sich selbst verstärkender Kreislauf setzte ein, der zu übermächtigen Monopolen führte, fürchtet Bienert.

Deshalb soll OpenGPT-X eigene, europäische Akzente setzen - und nach Deutsch auch die anderen Sprachen des Kontinents lernen, betont Projektleiter Nicolas Flores-Herr vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme in Sankt Augustin. Darüber hinaus wolle das Projekt "europäische Werte umsetzen" und das Sprachmodell für die heimische Industrie attraktiv machen.

"Es geht uns nicht nur um höher, schneller, weiter", sagt Flores-Herr. Allerdings ist Größe ein wichtiger Faktor. Ein Sprachmodell ist eine gigantische Statistik darüber, wie Wörter in Beziehung zueinander stehen. "Wolken", zum Beispiel, wird häufig im Kontext mit "regnen" auftreten. Die Software lernt solche Beziehungen anhand von Milliarden Seiten realen Textes aus Webseiten und Büchern.

Technisch erfolgt das Lernen mit sogenannten neuronalen Netzen. Ähnlich wie im Gehirn tauschen darin künstliche Neuronen über Synapsen Signale untereinander aus. Beim Lernen justieren die einzelnen Synapsen, wie stark sie das Signal eines Neurons an ein anderes übertragen.

Im letzten Jahr besaß GPT-3 die meisten künstlichen Synapsen, 175 Milliarden. Dieses Jahr verzehnfachte Wu Dao 2.0 diese Zahl auf 1,75 Billionen. OpenAI arbeitet bereits am nächsten Sprung: GPT-4 soll hundert Billionen Synapsen erhalten, ähnlich viele wie im menschlichen Gehirn.

Je mehr künstliche Synapsen ein Sprachmodell besitzt und je mehr Text es beim Training verarbeitet hat, desto besser kann es raten, wie es ein Satzfragment ergänzen muss. Bei "Wolken ziehen auf, es wird bald ..." wäre "regnen" eine gute Wahl. In winterlichem Kontext jedoch wäre "schneien" passender. Auf diese Weise reiht die KI Wort an Wort, sodass auch längere Texte entstehen.

Der WDR will testen, ob KI Inhaltsangaben für die Mediathek schreiben kann

Die riesigen neuronalen Netze fressen viel Rechenkraft. Microsoft baute eigens für das Training von GPT-3 den nach eigenen Angaben fünftstärksten Superrechner der Welt. Im Gegenzug darf die Firma ihren Kunden Zugriff auf das Sprachmodell anbieten. Auch OpenGPT-X kann Superrechner nutzen, etwa am Forschungszentrum Jülich. Damit sollen Modelle trainiert und für konkrete industrielle Anwendungen optimiert werden. Als Nutzer ist etwa der WDR am Projekt beteiligt.

"Wir wollen ausprobieren, was wir mit OpenGPT-X machen können", sagt Dirk Maroni, Leiter der Abteilung Informationsmanagement bei dem Sender. Auch er sieht in den Sprachmodellen einen Qualitätssprung in der KI. Zwar können auch andere Algorithmen gut lesbare Sport- oder Wetterberichte erzeugen. "Ein großes Sprachmodell aber könnte solche Texte lebendiger machen, etwa indem es die spezielle Atmosphäre eines Lokalderbys miteinbezieht." Sprachmodelle seien auch stilistisch flexibel und könnten beispielsweise Texte in Leichter Sprache verfassen.

Maronis Team will testen, wie gut OpenGPT-X lange Texte versteht, etwa Transkripte von Podcasts oder Wortbeiträge. Das Sprachmodell könnte knappe Inhaltsangaben für die Mediathek erstellen. Eine Konkurrenz für die Journalisten des Hauses sieht er nicht, eher eine Unterstützung ihrer Arbeit. "Die Journalisten werden sich mehr auf das Inhaltliche und Kreative konzentrieren können", glaubt Maroni. Ein europäisches Sprachmodell findet Maroni wichtig. Durch sein Training mit deutschen, französischen oder italienischen Texten würde es europäische Wertvorstellungen aufsaugen.

Sprachmodelle reflektieren allerdings auch Vorurteile, die in einer Gesellschaft kursieren. So assoziierten frühe Texte von GPT-3 Berufe mit höherem Bildungsniveau eher mit Männern als mit Frauen. Die mögliche Diskriminierung von Gruppen mache Sprachmodelle zu "riskanten Anwendungen von KI", warnt Jessica Heesen. Die Qualität der Texte für das Training sei entscheidend. "Die Daten liegen nicht einfach vor", sagt die Medienethikerin. Sie müssten sorgfältig von Menschen erhoben und ausgewählt werden. Beim Training der KI flössen somit deren eigene Wertvorstellungen mit ein. "Mit solchen Dingen muss man umgehen lernen", sagt Heesen.

Der europäische Sprachcomputer soll gendergerecht und inklusiv texten

Das ist den Machern von OpenGPT-X bewusst. "Wir werden versuchen, das Thema Diskriminierung von vornherein in den Griff zu bekommen", sagt Flores-Herr. Ein Forschungsprojekt werde sich der gendergerechten und inklusiven Sprache von OpenGPT-X widmen, erklärt der Forscher. Das Team werde Trainingsdaten filtern und umarbeiten, - "veredeln", wie Flores-Herr sagt. So soll die Sprachsoftware, anders als GPT-3, die Vorurteile erst gar nicht erlernen.

Um genügend Text in allen 24 Sprachen der EU zu erlangen, "werden wir uns strecken müssen", befürchtet Flores-Herr. Wikipedia-Artikel reichten längst nicht aus. Eine gute Datenquelle sei das European Language Grid, ein EU-finanziertes Projekt, das Sprachtechnologien und Datensätze sammelt. "Damit sollten wir in wenigen Jahren ein mehrsprachiges Modell haben", sagt der Forscher.

Für konkrete Anwendungen könnten dann zusätzliche Daten der Anwender genutzt werden. "Zum Beispiel Wissensnetze", sagt Flores-Herr, also ein Netz, das die Beziehungen zwischen Begriffen darstellt. "So könnte das Fachwissen eines Anwenders, etwa einer Bank, in das Modell einfließen", sagt Flores-Herr. Da solche Daten wertvolles Wissen direkt in das Sprachmodell speisen, könnte OpenGPT-X die Konkurrenz in einigen Nischen übertrumpfen.

Flores-Herr hofft, dass Interessenten bald Schlange stehen werden, um OpenGPT-X zu nutzen. "Wir zielen nicht nur auf Industrie und Forschung, sondern auch auf den Mittelstand ab", sagt der Forscher. Das neue Sprachmodell werde für alle offen sein, im Sinne einer europäischen Infrastruktur.