Literatur Das Bücher-Genom

Fünf Millionen digitalisierte Bücher der Text-Datenbank Google Books haben US-Forscher für erstaunliche Analysen genutzt. Jetzt fordern sie die Gründung eines neuen Forschungsfeldes: "Culturomics".

Von Christian Weber

Als im März 2007 der Mathematiker Erez Lieberman Aiden an der Tür von Google-Forschungschef Peter Norvig im kalifornischen Mountain View klopfte, wollte er eigentlich nur ein paar Daten ergattern.

Über Bücher werden Informationen von Generation zu Generation weitergegeben. "Culturomics" untersucht die Evolution der menschlichen Kultur quantitativ, Bücher werden dafür als "Fossilien" genutzt. Obere Reihe: Autoren schreiben seit Jahrtausenden Bücher. Seit der Einführung der Druckerpresse wurden etwa 129 Millionen Bücher veröffentlicht. Zweite Reihe: Bücher aus Bibliotheken und Verlagen wurden Google zum Digitalisieren überlassen. Mehr als 15 Millionen Bücher wurden bislang eingescannt. (Die Zahl 12 an dieser Stelle der Grafik ist offenbar ein Fehler. Es wurden zwölf Prozent aller jemals veröffentlichten Bücher eingescannt. Die Redaktion). Dritte Reihe: Zu jedem Buch gibt es Informationen zum Autor sowie zu Datum und Ort der Veröffentlichung. Fünf Millionen Werke wurden für eine Computeranalyse verwendet. Untere Reihe: Die "Culturomic"-Zeitachse zeigt die Häufigkeit des Begriffs apple (Apfel) in angelsächsischen Büchern von 1800-2000.

(Foto: Science/AAAS)

Doch im folgenden Treffen legten die beiden Wissenschaftler die Grundlage für eine kleine Revolution in den Kulturwissenschaften. Aiden, damals noch Doktorand an der Harvard University, fragte, ob er nicht Zugang bekommen könne zu Google Books, dem ambitionierten Projekt des Unternehmens, alle jemals gedruckten Bücher zu scannen und zu digitalisieren.

Das Ergebnis dieser Begegnung ist in der aktuellen Ausgabe des Fachmagazins Science (online) nachzulesen. In dieser stellt ein Forscherteam um Aiden und seinen Kollegen Jean-Baptiste Michel von der psychologischen Fakultät Harvards die größte Text-Datenbank vor, die jemals existiert hat: Sie enthält den kompletten Text von derzeit knapp 5,2 Millionen Büchern mit insgesamt 500 Milliarden Wörtern. Das sind ungefähr vier Prozent aller Werke, die seit der Gutenberg-Bibel im Jahre 1450 gedruckt worden sind.

Ungefähr 72 Prozent der Texte stammen aus dem englischen Sprachraum, der Rest aus dem Französischen, Spanischen, Deutschen, Chinesischen, Russischen und Hebräischen. Und da Google insgesamt bereits 15 Millionen beziehungsweise zwölf Prozent aller Bücher mit zwei Billionen Wörtern gescannt hat, wird die Datenbank weiter wachsen, sobald die Daten entsprechend aufbereitet sind. Jeder Internet-Nutzer wird dann einen großen Teil des Gutenberg-Universums über ein simples Google-Tool durchsuchen können.

Bislang sind in diesem Korpus aus urheberrechtlichen Gründen nur quantitative Suchen möglich; man kann also herausfinden, wie häufig bestimmte Wörter oder kleinere Textblöcke zu bestimmten Zeiten in der jeweiligen Sprache auftauchen. Doch die Science-Autoren belegen mit beeindruckenden Beispielen, wie man bereits mit solch vermeintlich simplen Frequenzanalysen zu weitreichenden Einsichten in das kollektive Gedächtnis der Menschheit kommen kann.

Es enthüllt, wie sich Technologien verbreiten, wie die Dynamik des Ruhms funktioniert und wie sich Zensur und Propaganda auswirken. Selbstbewusst plädiert Aiden deshalb für die Gründung eines neuen Forschungsfeldes, das er "Culturomics" nennt - analog zur Genomik, die das menschliche Erbgut entschlüsselt. "Culturomics weitet die Grenzen der rigorosen Analyse auf eine lange Reihe neuer Phänomene in den Sozial- und Geisteswissenschaften aus", verspricht Aiden.