bedeckt München 14°
vgwortpixel

Computerphilologie:Der sprachliche Fingerabdruck

Bei der Enttarnung von Elena Ferrante spielte ein Algorithmus eine bedeutsame Rolle. Aber die Verwendung statistischer Methoden in der Literaturwissenschaft ist umstritten.

"Eigentlich waren nur drei Versionen wirklich wahrscheinlich: Entweder Elena Ferrante ist Anita Raja, deren Ehemann Domenico Starnone oder beide", sagte Claudio Gatti, der die Identität der Autorin hinter den Ferrante-Bücher enthüllt hat, im Interview (SZ vom 7. Oktober). Auf die Nachfrage per E-Mail, wie Gatti zu diesen Optionen gekommen sei, antwortet er: "Es gibt zu der Frage philologische Studien, es gab Gerüchte in den literarischen Kreisen Roms, und Professor Loreto führte eine Computerstudie zur Frage der Autorschaft durch."

Vittorio Loreto ist Physik-Professor an der römischen Universität La Sapienza. Gemeinsam mit zwei Kollegen aus der Fakultät für Mathematik und aus der Fakultät für Informatik stellte er 2005 unter dem Titel "Artificial sequences and complexity measures"ein Tool vor, mit dem bestimmte Informationen aus einer, wie es in dem Aufsatz heißt, "generischen Zeichenfolge" extrahiert werden können. Ambitioniertes Fernziel der Forschungen ist, mithilfe der Tools genetische Codes lesbar zu machen. Zum damaligen Zeitpunkt ließ es sich bereits gut auf Texte anwenden. Die Autoren präsentierten auch einen Algorithmus zur Zuschreibung von Autorschaft.

Das funktioniert auf Grundlage des Algorithmus LZ77, benannt nach den israelischen Informatikern Abraham Lempel, Jacob Ziv und dem Jahr der Entwicklung: 1977. Der Algorithmus findet in großen Zeichenfolgen untergeordnete Zeichenfolgen, die in der Gesamt-Zeichenfolge wiederholt auftreten. Er sortiert die untergeordneten Zeichenfolge zu einem sogenannten Wörterbuch und zeigt an, wie häufig die kleineren Zeichenfolgen verwendet werden. Dieses Wörterbuch ist, auch wenn das Tool auf Texte angewendet wird, nicht mit einem gewöhnlichen Wörterbuch gleichzusetzen. Denn darin finden sich auch längere Wortfolgen samt Leer- und Satzzeichen, wenn in diesen Zeichenfolgen keine kleinere Einheit bereits anderswo vorkam. Ein Wörterbucheintrag, der sich aus einer Analyse von "Moby Dick" ergibt, ist etwa die 80 Zeichen lange Einheit ",Such a funny, sporty, gamy, jesty, jesty, joky, hoky-poky lad, is the Ocean, oh! Th". Das entspricht ganz offensichtlich keinem semantischen Abschnitt.

Aus diesem Wörterbuch kann wiederum ein "artifizieller Text" geschöpft werden. Das ist ebenfalls semantisch sinnloser Text, in dem die typische Zeichenfolge des Ursprungstextes in einer kürzeren Einheit dargestellt wird. Die artifiziellen Texte sind die standardisierten Objekte des automatisierten Textvergleichs. Sie dienen als Grundlage folgender Versuchsanordnung: Von Autoren des italienischen Literaturkanons (von Dante bis Italo Svevo) werden jeweils mehrere Textauszüge in artifizielle Texte übersetzt. Diesen Texten steht eine große Vergleichsgruppe von weiteren Texten gegenüber, die in artifizielle Texte umgewandelt worden sind. Der Algorithmus soll sagen, welche Texte mit welchem Textkorpus am stärksten verwandt sind. Es wird dann geprüft, ob die Texte dem richtigen Autor zugeordnet werden. Das Ergebnis der Studien: in 86 von 87 Versuchen kann der Algorithmus den richtigen Autor zuordnen. Der eine Fall, in dem es nicht funktioniert hat, sind Verse von Machiavelli, von dem sonst nur Prosa zu finden war.

Viele Literaturwissenschaftler sind sehr skeptisch gegenüber technischen Analysen

Das gleiche Experiment führen die Wissenschaftler mit Texten aus dem englischen Literaturkanon durch. Hier sind die Ergebnisse ähnlich gut. Bei einigen Dramen, die Shakespeare zugeschrieben werden, hat die Maschine Christopher Marlowe als Autor identifiziert. Es sind dieselben Dramen, über deren Autorschaft Philologen schon länger stritten. Mit diesem Analysewerkzeug gelang es Vittorio Loreto nachzuweisen, dass sich hinter dem Pseudonym Marek van der Jagt der niederländische Autor Arnon Grünberg verbirgt. Die Wissenschaftler wagten vorsichtige Spekulationen darüber, ob sie mit ihrem Tool eine Art sprachlichen Fingerabdruck nachweisen können: "Aus den Beobachtungen könnte vielleicht darauf geschlossen werden, dass der Algorithmus LZ77 dazu in der Lage ist, Korrelationen einzufangen, die in gewisser Weise die Signatur eines Autors sind. Diese Signatur ist (natürlich nur bis zu einem gewissen Grad) stärker als das Thema eines bestimmten Textes."

Diese Forschungsergebnisse veranlassten den Journalisten Luigi Galella, Loreto zu kontaktieren. Im Jahr 2006 ließ Loreto den Algorithmus den Stil von Elena Ferrante mit dem Stil einiger anderer neapolitanischer Schriftsteller vergleichen. Die Maschine identifizierte Domenico Starnone als Autor, dessen Stil mit dem Ferrantes am stärksten verwandt ist. Starnone ist der Ehemann von Anita Raja, die von Claudio Gatti als Autorin der Ferrante-Bücher identifiziert worden ist. Zehn Jahre später bestätigen die Enthüllungen Gattis, dass der Algorithmus damals ziemlich richtig lag. Die Spur, die er dem Investigativjournalisten gelegt hat, erwies sich als heiß.

Geisteswissenschaftliche Forschungsansätze, die mit elektronischer Datenverarbeitung arbeiten, werden Digital Humanities genannt. Deren Adepten gelten in der Literaturwissenschaft immer noch als schräge Vögel, wenngleich die ersten Versuche, geisteswissenschaftliche Fragestellungen mithilfe von Computern zu beantworten, schon mehr als 50 Jahre zurückliegen. Die große Mehrheit der Literaturwissenschaftler arbeitet auf Grundlage von Close Reading und mit einem Verständnis von Hermeneutik, das große Skepsis gegenüber technischen Analysen beinhaltet.

Für die Verwendung statistischer Methoden in der Literaturwissenschaft tritt seit Jahren Franco Moretti ein, der in Stanford lehrt. Im Jahr 2000 stellte er in der New Left Review sein Konzept des Distant Reading vor. Größere kulturtheoretische Zusammenhänge können, so seine These, nur entdeckt werden, wenn die Literaturwissenschaft von ihrer Fixierung auf das Lesen von Einzeltexten abrückt. Wenn Komparatisten verstehen wollen, was Weltliteratur ist, müssen sie eine synthetisierende Perspektive einnehmen. Franco Moretti nutzt automatische Datenverarbeitungssysteme, um mithilfe der Netzwerktheorie die Plotstrukturen von Dramen und Romanen aus dem europäischen und dem chinesischen Kanon vergleichend zu analysieren.

Die Tatsache, dass bei der Enttarnung Elena Ferrantes statistische Methoden eine Schlüsselrolle spielten, könnte den Digital Humanities Auftrieb geben, auf dass sie endlich aus ihrer Nischenposition herausfinden.

© SZ vom 07.11.2016
Zur SZ-Startseite