Trauen Sie nicht diesem Roboter!

Wer im Netz die beiden Textfelder von "Google Translate" aufruft, um eine von 57 Sprachen in Sekundenschnelle in eine andere übersetzen zu lassen, muss nach wie vor nichts bezahlen. Software-Firmen aber, die den Service in eigene Produkte einbauen wollen, werden seit Ende August zur Kasse gebeten.

Google Translate: Vier Chancen hat Google Translate bekommen, in vier Gattungen und aus drei Sprachen. Die Resultate stellen nicht etwa eine maliziöse Blütenlese dar, sondern verdanken sich einem völlig unbedachten Schuss ins Blaue. — Vier Chancen hat Google Translate bekommen, in vier Gattungen und aus drei Sprachen. Die Resultate stellen nicht etwa eine maliziöse Blütenlese dar, sondern verdanken sich einem völlig unbedachten Schuss ins Blaue.
(Foto: Screenshot)

Die neue, automatische Maschinenintelligenz als kommerzielles Produkt - da könnte man auf die Idee kommen, die Programmierung im Hintergund, an der Google seit dem Start 2006 mit Hochdruck weiterarbeitet, sei inzwischen ausgereift. Gibt es entscheidende Fortschritte, ist der Durchbruch zur digitalen Weltverständigung nun schon zum Greifen nah?

Google Translate" arbeitet nicht, wie ältere Ansätze, mit Algorithmen, die meist eher schlecht als recht grammatische Regeln zu erkennen und in der Zielsprache Entsprechendes nachzubilden suchten. Heraus kamen meist Gebilde wie "Der Schnaps ist gut, aber das Fleisch ist verdorben", wenn man eingegeben hatte "Der Geist ist willig, aber das Fleisch ist schwach."

"Google Translate" verlässt sich lieber darauf, dass eine Wendung wie die vom schwachen Fleisch bestimmt schon mal irgendwo aufgetaucht ist, vermutlich sogar schon öfters, und behandelt sie darum als Einheit. Es unterlässt Versuche, zu "verstehen", was gesagt wurde, die gerade zu den unverständlichsten Resultaten geführt hatten, und verfährt ausschließlich statistisch.

Englisch als Drehpunkt

Da macht die Maschine es gar nicht so sehr viel anders als die heutigen Simultan-Dolmetscher, deren Geistesgegenwart schon nach drei Wörtern ahnt, worauf der Sprecher hinaus will, weil auf den immer gleichen Konferenzen immer Ähnliches geredet wird.

Diese statistische Methode setzt zweierlei voraus: ein großes Corpus, mindestens eine Million Wörter umfassend, von Texten, die bereits von einer Sprache in die andere übersetzt worden sind, verlässlich, weil von Hand verfertigt; und ein riesiges Corpus, etwa eine Milliarde Wörter stark, von Texten in jeder Sprache für sich.

Google hat dafür z. B. sämtliche je von der UNO produzierten Dokumente als Grundlage benutzt, die ja in jeder der sechs Hauptsprachen vorliegen müssen. Da kommt schon was zusammen. Vom Isländischen ins Urdu ist natürlich noch nicht so viel übertragen worden. Aber auch hier weiß das System sich zu behelfen, indem es die englische Sprache als "pivot" benutzt, als Drehpunkt, der zwischen beiden vermittelt: Erst vom Isländischen ins Englische, dann vom Englischen weiter ins Urdu.

Erhebliche Rechenkapazität

Als hilfreich erweisen sich hier vor allem erfolgreiche Werke, die in sehr viele und auch kleinere Sprachen übersetzt worden sind - vielleicht sind hier die wahren Zauberkräfte von Harry Potter am Werk.

Damit das Ganze in der gebotenen rasenden Geschwindigkeit abgeglichen werden kann, ist ferner natürlich eine erhebliche Rechenkapazität erforderlich. 57 Sprachen (nach anderen Angaben sogar schon 64), das macht 1568 Sprachpaare auf Knopfdruck: von Baskisch in Telugu, von Tagalog in Afrikaans, vom Lateinischen ins Aserbaidschanische und zurück.

Fehler, das gibt auch Google zu, seien natürlich, wie bei einer statistisch fundierten Methode nicht anders denkbar, immer möglich. Aber sie hätten den großen Vorzug, dass sie sich, anders als bei den verkehrt sinnstiftenden Anstrengungen der übersetzenden Handwerker, sofort als Unfug erkennen und rasch ausbessern ließen.

Jon Rafman Google und wie es die Welt sah — Google-Street-View: "Nine Eyes"

Google und wie es die Welt sah

Systemisches Problem

Man muss sich das Produkt also wie ein gegossenes Metallteil vorstellen, das im Wesentlichen fertig aus der Form kommt und an dem man nur noch hier und da die Gussnähte zu versäubern hat. Kann das gut gehen? Oder sind hier doch wieder nur die in ihrem Feingefühl sträflich überschätzten Roboter am Werk, die, wie Stanislaw Lem meint, es einfach nicht hinkriegen, die Spinnweben von der Decke zu fegen, ohne die darunter zum Trocknen aufgehängte Wäsche zu ruinieren? Und Sprache, so viel dürfte feststehen, ist mindestens so kompliziert wie ein Haufen Wäsche plus Spinnweben. Eine Stichprobe kann da nicht schaden.

Mit betörender Leichtigkeit öffnen sich die beiden Kästchen; ins linke tippt man den Text, und ins rechte fällt, als nur ganz wenig verzögerter Schatten, die Übertragung. Die Sprachauswahl verspricht auch Latein. Ist es eine Gemeinheit, da gleich mit Livius anzufangen? Wir testen einen schlichten Satz ohne besondere Hindernisse (Beispiel 1). Dass hier systematisch auf eine Sinnprüfungs-Instanz verzichtet wurde und folglich der Unsinn dankenswerterweise auf der Hand liege, war jedenfalls nicht zu viel behauptet.

Die gängige Abkürzung "Sex." für den Vornamen Sextus wird nicht als solche erkannt, sondern das Zahlwort vermutet und der Punkt danach fälschlich für ein Satzende gehalten. Bedenklich stimmt, dass das einfache deutsche Wort "speisen" oder "zu Abend essen" (für "cenabat") im Speicher offenbar nicht vorkam und deswegen daneben mit "supping" ins englische Register gegriffen wurde.

Halten wir uns also lieber an eine moderne Fremdsprache und eine alltägliche kommunikative Situation. Dagobert Duck, italienisch Paperone, treibt mal wieder seine widerwillige Verwandtschaft an, den Neffen Paperino und die Großneffen Qui, Quo und Qua (Beispiel 2). Hier ist nun wirklich alles verkehrt. Am ehesten verzeihen lässt sich noch, dass aus den "stracci" nun "Lumpen" werden. Das sind sie zwar; aber im Sinn von Lappen oder hier besser Waschlappen, also wenig belastbaren Menschen, während Lumpen im Deutschen ja eine moralische Qualität besitzen.

Aber dass für "Enkelkinder" nicht alternativ "Neffen" angeboten wird, lässt sich statistisch jedenfalls nicht begründen. Die zweite Person Plural ("voi", "vi") bedeutet sogar viel seltener die Höflichkeitsanrede "Sie" als das hier allein gerechtfertigte "Ihr". Kann man das sämtlich vielleicht noch als einzelne Fehlleistungen buchen, so stellt doch der widerstandslose Zerfall der Syntax unbedingt ein systemisches Problem dar. Erstaunlich auch, dass die Richtung der Hilfe sich umkehrt.

Weiterhin verdunkelt

Und Englisch, die "pivot"-Sprache? Da sollte es doch klappen. Herausgegriffen wurde der zweite Satz der Erzählung "The Curious Case of Benjamin Button" von F. Scott Fitzgerald (Beispiel 3). Das geht noch einigermaßen gut in der ersten Hälfte, wenn man auch bei "so wie ich höre" für "so I am told" auf das "so" wohl besser verzichtet hätte.

Aber dann strauchelt der Satzbau; das Englische, das Groß und Klein nicht trennt und so wenig Kommas braucht, verwirrt die Maschine. Ab "that the first cries of the young" ist nichts Erkennbares übrig geblieben. Dafür taucht überraschend ein groß geschriebener "Niemand" auf wie Odysseus aus der Höhle des Polyphem. Wo die Maschine den bloß her hat?

Nun wird man immer Enttäuschungen erleben, wenn man einer Maschine mit Ironie kommt; und Fitzgeralds Satz war nicht ganz frei von ihr. Was jedoch ohne Schwierigkeiten funktionieren sollte, ist ein einfacher Nachrichtentext, der mit seinem engen Rahmen erwartbarer sprachlicher Phänomene der statistischen Methode eigentlich entgegenkommt (Beispiel 4). Man achte hier besonders auf den "Schleifen Konflikt". Hier kennt der Computer also nicht oder doch nicht in der nötigen (häufigen) übertragenen Bedeutung: lurching, grinding, verge. Das den Satz erst sinnvoll abschließende "to make" wird schlicht unterschlagen. Die kurze Passage ist weithin verdunkelt.

Völlig unbedachter Schuss ins Blaue

Vier Chancen hat Google Translate bekommen, in vier Gattungen und aus drei Sprachen. Die Resultate stellen nicht etwa eine maliziöse Blütenlese dar, sondern verdanken sich einem völlig unbedachten Schuss ins Blaue. Und bei allen ist auf kürzeste Strecken schon der totale Quatsch herausgekommen.

Das Programm erkennt einfache alternative Wortbedeutungen nicht, es streicht und ergänzt ohne erkennbaren Grund, es verhaut und versaut jede Satzstruktur, die die Länge von einer Zeile überschreitet.

Gerade das, was auf statistischem Weg zu machen wäre, nämlich die Erkennung bevorzugter Wortgruppen und Konstruktionen, kriegt es überhaupt nicht in den Griff. Schade. Diesem Roboter sollten wir jedenfalls in unserem Haushalt die Wäsche noch nicht anvertrauen. Oder, wie er selbst es ausdrückt: "This robot, we should at least in our household has not entrust the laundry."