Geheimschrift geknackt:Das geheime Werk der Oculisten

Codeknacker haben ein rätselhaftes Buch aus dem 18. Jahrhundert entschlüsselt - 75.000 kryptische Zeichen und Buchstaben mussten sie dafür übersetzen. Es handelt sich um die Beschreibung von Initiationsriten einer deutschen Geheimgesellschaft - mit einem sehr ungewöhnlichen Faible.

Alexander Stirn

Kevin Knight lässt sich nur allzu gern ein X für ein U vormachen. Oder ein A für ein B. Wenn es so einfach ist, erleichtert es seine Arbeit ungemein. Doch die meisten Texte, mit denen es Knight zu tun bekommt, sind weitaus kniffliger. Kevin Knight ist Computerlinguist an der University of Southern California.

Geheimschrift geknackt: 75.000 kryptische Symbole, keine Leerzeichen: Jahrelang wussten Forscher nichts anzufangen mit den 105 Seiten des Codex Copiale, der angeblich nach dem Mauerfall in einem Ostberliner Archiv aufgetaucht ist.

75.000 kryptische Symbole, keine Leerzeichen: Jahrelang wussten Forscher nichts anzufangen mit den 105 Seiten des Codex Copiale, der angeblich nach dem Mauerfall in einem Ostberliner Archiv aufgetaucht ist.

(Foto: AP)

Als Sprachforscher gehört es zu seinen Aufgaben, wirren Buchstabenfolgen einen Sinn zu geben - sei es beim automatischen Übersetzen fremdsprachiger Texte, beim Erkunden toter Sprachen oder beim Entziffern altertümlicher Geheimschriften. Unter Code-Knackern hat Knight nun Berühmtheit erlangt, indem er gemeinsam mit den Sprachwissenschaftlerinnen Christiane Schaefer und Beáta Megyesi eine mehr als 200 Jahre alte Handschrift entschlüsselt hat, den "Codex Copiale".

Viel Rechenarbeit war nötig, bis die Forscher dem Text, der die Initiationsriten einer deutschen Geheimgesellschaft des 18. Jahrhunderts beschreibt, seinen Inhalt entlocken konnten. (Den entschlüsselten Text finden Sie hier.)

Zuvor war nicht einmal klar gewesen, in welcher Sprache das aufwendig verzierte Schriftwerk verfasst war. Für Kevin Knight beweist der Erfolg, wie wichtig Computer beim Entziffern und Übersetzen unbekannter Texte geworden sind. Das Beispiel des Codex Copiale zeigt aber auch, dass Maschinen - allem technischen Fortschritt zum Trotz - noch immer auf menschliche Hilfe, auf Intuition und Erfahrung angewiesen sind.

"Dass wir den Codex Copiale entschlüsseln konnten, haben wir einem phantastischen Zusammenspiel von neuer Technik und philologischer Kompetenz zu verdanken", sagt Christiane Schaefer. Als Schaefer im Jahr 1998 von Deutschland nach Schweden zog, um eine Stelle an der Universität von Uppsala anzutreten, gab ihr ein Freund eine Kopie der verschlüsselten Handschrift mit. "Für die langen schwedischen Winterabende", lautete sein Kommentar. Das Dokument, über dessen Herkunft nichts bekannt war, sollte die Forscherin viele Jahre beschäftigen.

Ganze zwei Begriffe darin sind unverschlüsselt: "Philipp 1866" und "Copiales 3" - eine Schlussbemerkung, die dem Codex seinen Namen gab. Auf den übrigen 105 Seiten drängen sich 75.000 kryptische Symbole, sauber aufgeschrieben und ohne Leerzeichen aneinandergefügt. Es sind griechische Buchstaben, lateinische Buchstaben, abstrakte Zeichen, manche unterstrichen, andere mit einem Punkt oder einem Zirkumflex ausgeschmückt.

"Ich habe immer wieder versucht, etwas damit anzufangen, bin aber nicht weitergekommen", sagt Schaefer. Bis Kevin Knight Anfang des Jahres zu einem Vortrag nach Uppsala kam. Sein Thema: Dekodieren verschlüsselter Dokumente mit computergestützten Mitteln. Knight suchte dafür einen längeren chiffrierten Text, Schaefer hatte den Codex Copiale. Man tat sich zusammen.

Nach drei Tagen war das Dokument abgetippt und in eine maschinenlesbare Form überführt. Dazu ordneten die Forscher jedem Symbol eine Zeichenkombination zu. Mit ihrer Hilfe sollte sich der Computer auf die Suche nach Mustern machen. "Wenn man einen neuen Code bekommt, sind die Möglichkeiten beinahe unendlich", sagt Kevin Knight.

Lateinische Buchstaben nur Leerzeichen

Seine erste Vermutung war, dass nur die 26 lateinischen Buchstaben im Codex Information enthalten und die restlichen 60 Symbole mögliche Codeknacker nur verwirren sollen. Tatsächlich zeigte eine simple statistische Auswertung, dass einige Buchstaben einen Anteil von bis zu zwölf Prozent des chiffrierten Textes ausmachen, während andere äußerst selten vorkommen - ganz ähnlich wie bei Sprachen. Knight folgerte daraus, dass es sich um einen Code handeln könnte, bei dem einzelne Buchstaben durch andere Teile des Alphabets ersetzt worden sind.

Genauere mathematische Analysen waren allerdings ernüchternd: Unterstützt vom Computer ermittelten die Forscher Häufigkeit, Anordnung und Abfolge der verschiedenen Buchstaben im verschlüsselten Text. Die Ergebnisse verglichen sie mit den bekannten Werten für existierende Sprachen - ein Vorgehen, das auch bei der maschinellen Übersetzung fremdsprachiger Texte angewandt wird. Doch keine der mehr als 40 getesteten Sprachen lieferte lesbare Ergebnisse. "Das Ganze dauerte ziemlich lang und war ein kompletter Fehlschlag", sagt Kevin Knight.

Es folgte ein zweiter Versuch, dieses Mal mit einer völlig anderen Hypothese: Da das Buch aus Deutschland stammt und die drei "P" im Namen seines Besitzers ("Philipp") auf einen Deutschen hindeuten, vermuteten die Linguisten Deutsch als Schlüsselsprache. Zudem hatten die statistischen Analysen gezeigt, dass im chiffrierten Text auf ein umgedrehtes "c" fast immer ein durchgestrichenes "h" folgt.

Die Forscher analysierten aktuelle deutsche Texte und entdeckten, dass dort "ch" das mit Abstand häufigste eindeutige Paar ist. Die ersten Ersetzungen waren gefunden. Mit der viel versprechenden Hypothese Deutsch ließ man den Computer die Routinearbeit machen. Der Rechner entdeckte zum Beispiel, dass unterschiedliche Symbole immer im selben Kontext anzutreffen sind - und damit vermutlich für denselben chiffrierten Buchstaben stehen. Schon bald waren durch diese beiden Tricks 50 Symbole entziffert.

Nach drei Wochen hatten wir den ersten Satz", erinnert sich Christiane Schaefer. Viele Chiffren waren aber noch immer unbekannt. Nur eine Mischung aus geschultem Auge, philologischem Wissen und Algorithmen mit deutschen Wörterbüchern führte letztlich zum Ziel.

So zeigte sich, dass die im Text verteilten lateinischen Buchstaben allesamt Leerzeichen repräsentieren und somit - anders als zunächst angenommen - keine Informationen beinhalten. Der Doppelpunkt, zunächst als "l" dekodiert, produzierte unschöne Wörter wie "Abschnitl". Erst die Analyse vieler solcher falscher Begriffe führte zu der Erkenntnis, dass das Satzzeichen für eine Verdoppelung des vorigen Konsonanten steht - ein zu früheren Zeiten üblicher Trick.

Weit verbreitet war damals auch der Nasalstrich über Vokalen, der entscheidet, ob der folgende Buchstabe zu einem "n" oder einem "m" wird. "Wer weiß, wie früher Handschriften ausgesehen haben, kann so etwas schnell erkennen", sagt Christiane Schaefer. "Für den Computer war das hingegen ein Problem."

Letztlich zeigte sich, dass das Dokument die Bräuche und Regeln einer Geheimgesellschaft mit einem Faible für Augenheilkunde beschreibt. Wer Mitglied bei den "Oculisten" werden wollte, musste sich zum Beispiel einer rituellen Augenuntersuchung unterziehen, die ihm zu neuen Einblicken verhelfen sollte. Aber auch theoretische Konzepte wie Freiheitsrechte oder das Recht, einen Monarchen zu stürzen, finden sich in dem Dokument, das auf das Jahr 1760 bis 1780 datiert wird.

Nur eine Fingerübung

Wo die Geheimgesellschaft aktiv war, geht aus dem Codex Copiale allerdings nicht hervor. Auch die verworrene Geschichte des Dokuments, das sich heute in Privatbesitz befindet, hilft den Forschern nicht weiter. Angeblich soll es nach dem Ende des Kalten Kriegs in einem Ostberliner Archiv aufgetaucht sein, was Christiane Schaefer jedoch nicht bestätigen kann. Sicher ist nur, dass im niedersächsischen Staatsarchiv Wolfenbüttel eine Handschrift liegt, die auf ähnliche Weise verfasst wurde und noch auf eine Entschlüsselung wartet.

Für Kevin Knight war das Knacken des Codex Copiale allerdings nur eine Fingerübung. Der Computerlinguist hat andere Ziele: Er will automatisch fremdsprachige Texte übersetzen - mit ähnlichen Algorithmen wie beim Codex Copiale.

"Es gibt eine enge Verbindung zwischen Übersetzungen und klassischer Kryptographie", sagt Knight. Während bei der Verschlüsselung Buchstaben ersetzt und vertauscht werden, sind es bei der Sprache Wörter oder komplette Sätze. Nichtssagende Begriffe sind dabei mindestens so häufig wie irreführende Symbole in einem Zeichencode.

Derzeit nutzen Algorithmen zur maschinellen Übersetzung noch einen völlig anderen Ansatz: Programme wie Google Translate vertrauen auf riesige Mengen bereits übersetzter Texte. Sie studieren die beiden Sprachen Satz für Satz. Sie registrieren, welche Wörter wie häufig und in welchem Zusammenhang vorkommen. Und sie schauen, wie die Phrasen jeweils übersetzt wurden.

Werden die Programme anschließend mit unbekannten Texten konfrontiert, ermitteln sie anhand dieses statistischen Wissens die wahrscheinlichste Übersetzung.

Im Fall seltener oder ausgestorbener Sprachen fehlen solche Vorlagen. Gemeinsam mit seinem Doktoranden Sujith Ravi hat Knight daher ein Programm ersonnen, das ohne existierende Übersetzungen auskommen soll.

Die Linguisten ermitteln dazu zunächst die häufigsten Begriffe in beiden Sprachen und stecken das Ergebnis in einen Algorithmus, der die wahrscheinlichste Übereinstimmung ermittelt. Anschließend betrachten sie die nächsthäufigen Begriffe und so weiter. Zudem setzen die Forscher in ihrem Programm auf Formeln, die benachbarte Wörter zufällig vertauschen und Füllwörter einfügen.

Bei einem ersten Test mit englischen und spanischen Dokumenten war das Ergebnis gar nicht so weit von den herkömmlichen Methoden der Maschinenübersetzung entfernt. Wirklich lesbar waren die dekodierten Texte dennoch nicht. Um zu erahnen, was ein Autor in seiner fremden Sprache ausdrücken wollte, half - wie schon beim Codex Copiale - vor allem eines: ein gesunder Menschenverstand.

Die Übersetzung des Dokuments finden Sie hier.

Zur SZ-Startseite
Jetzt entdecken

Gutscheine: