Bei all der Technik, die angeblich Menschen voneinander entfernt, weil sie sich gegenüber im Restaurant sitzen, aber doch nur auf ihr Handy starren; so könnte doch auch Technik dazu führen, dass Menschen sich in Zukunft besser verstehen als je zuvor. Schon lange träumen Menschen von einem geheimen Helferlein im Ohr, der das gesprochene Wort des Gegenübers fehlerfrei in Echtzeit übersetzt – ein Babelfisch, wie er in Douglas Adams’ Bestseller-Reihe „Per Anhalter durch die Galaxis“ vorkommt. Wie wäre es nur, könnte man damit eines Tages per Anhalter durch die Galaxis reisen? Na gut, oder wenigstens mit allen Menschen auf dem Planeten sprechen, die man sonst, weil eine gemeinsame Sprache fehlt, bislang nicht verstanden hat.
Forscherinnen und Forscher sind diesem Ziel nun einen mächtigen Schritt näher gekommen, wie sie in einer aktuellen Studie im Fachmagazin Nature beschreiben. Der Traum, mit Kopfhörern im Ohr und aktiver Übersetzungsapp auf dem Handy eine Unterhaltung zu führen, rückt näher an die Gegenwart. Ein Team um KI-Forscherin Marta Costa-jussà, angestellt beim Tech-Giganten Meta, stellt in der aktuellen Studie ein KI-Modell vor, das gesprochenen Text offenbar besser als je zuvor übersetzt und wieder als Sprache ausgibt. Das in der Studie beschriebene Modell mit dem Namen SeamlessM4T übertreffe die Leistung bestehender Systeme, schreiben die Autoren.
„Obwohl es konventionelle Sprache-zu-Sprache-Übersetzungssysteme gibt, (...) sind skalierbare und leistungsstarke einheitliche Systeme noch wenig erforscht“, schreiben die Autoren. SeamlessM4T kann Sprache in bis zu 101 Sprachen erkennen und in 36 Sprachen übersetzen. Die Genauigkeit geben die Autoren mit bis zu 23 Prozent höher an als vergleichbare Systeme. Außerdem soll es deutlich widerstandsfähiger gegen Hintergrundgeräusche und Sprechervariationen bei Sprach-zu-Text-Aufgaben sein.
Die meisten bestehenden maschinellen Lernübersetzungssysteme orientieren sich an einem Text. So muss gesprochenes Wort erkannt, in Text transkribiert, übersetzt und wieder zurück in Sprache gewandelt werden. Doch ist „Sprache kein gesprochener Text“, schreiben die Autoren. Sie bestehe vielmehr aus Komponenten wie Rhythmus, Betonung, Intonation und, ganz wichtig, Emotion. All das soll das neue Modell besser umsetzen.
Weiterhin „gesunden Menschenverstand“ nutzen
Und tatsächlich: „Mit Seamless gelingen wichtige Schritte für die automatische multimodale Übersetzung, die nicht nur besser, sondern auch ‚natürlicher‘ klingt“, sagt Barbara Plank, Professorin für AI und Computerlinguistik am Centrum für Informations- und Sprachverarbeitung der LMU München, die nicht an der Studie beteiligt war. „Trotzdem bleibt noch immer eine große Asymmetrie zwischen Sprachvielfalt und verfügbaren Daten“, so Plank. Es gibt nun mal noch immer deutlich mehr geschriebenen Text, mithilfe dessen KI-Systeme trainieren können, als aufgenommene Sprache. Gerade die kleinen, nicht standardisierten Sprachen seien weiterhin für KI-Systeme eine Herausforderung, man denke nur an Dialekte wie Schwäbisch oder Bairisch, so Plank.
Und doch, die Menschheit ist auf dem Weg in Richtung Babelfisch im Ohr. Barbara Plank aber mahnt, weiterhin den „gesunden Menschenverstand“ zu nutzen. Mit den immer besseren KI-Systemen müsse die Menschheit eben auch lernen, wann man sich auf automatische Übersetzung verlassen könne, und wann nicht. „Ein vertrauenswürdiger Umgang Mensch-Maschine ist so wichtig“, sagt Plank. Der Mensch müsse erkennen, wann die Maschine Fehler macht. Aber auch umgekehrt: KI-Systeme müssen lernen, wann sie selbst oder der Mensch einen Fehler machen. „Genau diese Kooperation zwischen KI und Mensch sind Thematiken, die in Zukunft umso wichtiger werden“, sagt Plank.
Die Autoren kündigen an, die Technik öffentlich und für nicht kommerzielle Zwecke zugänglich zu machen, um weitere Forschung zu integrativen Sprachübersetzungstechnologien zu unterstützen. Details dazu aber nennen sie nicht; eine Anfrage der SZ blieb bis Redaktionsschluss unbeantwortet.