Süddeutsche Zeitung

Literatur:Das Bücher-Genom

Fünf Millionen digitalisierte Bücher der Text-Datenbank Google Books haben US-Forscher für erstaunliche Analysen genutzt. Jetzt fordern sie die Gründung eines neuen Forschungsfeldes: "Culturomics".

Christian Weber

Als im März 2007 der Mathematiker Erez Lieberman Aiden an der Tür von Google-Forschungschef Peter Norvig im kalifornischen Mountain View klopfte, wollte er eigentlich nur ein paar Daten ergattern.

Doch im folgenden Treffen legten die beiden Wissenschaftler die Grundlage für eine kleine Revolution in den Kulturwissenschaften. Aiden, damals noch Doktorand an der Harvard University, fragte, ob er nicht Zugang bekommen könne zu Google Books, dem ambitionierten Projekt des Unternehmens, alle jemals gedruckten Bücher zu scannen und zu digitalisieren.

Das Ergebnis dieser Begegnung ist in der aktuellen Ausgabe des Fachmagazins Science (online) nachzulesen. In dieser stellt ein Forscherteam um Aiden und seinen Kollegen Jean-Baptiste Michel von der psychologischen Fakultät Harvards die größte Text-Datenbank vor, die jemals existiert hat: Sie enthält den kompletten Text von derzeit knapp 5,2 Millionen Büchern mit insgesamt 500 Milliarden Wörtern. Das sind ungefähr vier Prozent aller Werke, die seit der Gutenberg-Bibel im Jahre 1450 gedruckt worden sind.

Ungefähr 72 Prozent der Texte stammen aus dem englischen Sprachraum, der Rest aus dem Französischen, Spanischen, Deutschen, Chinesischen, Russischen und Hebräischen. Und da Google insgesamt bereits 15 Millionen beziehungsweise zwölf Prozent aller Bücher mit zwei Billionen Wörtern gescannt hat, wird die Datenbank weiter wachsen, sobald die Daten entsprechend aufbereitet sind. Jeder Internet-Nutzer wird dann einen großen Teil des Gutenberg-Universums über ein simples Google-Tool durchsuchen können.

Bislang sind in diesem Korpus aus urheberrechtlichen Gründen nur quantitative Suchen möglich; man kann also herausfinden, wie häufig bestimmte Wörter oder kleinere Textblöcke zu bestimmten Zeiten in der jeweiligen Sprache auftauchen. Doch die Science-Autoren belegen mit beeindruckenden Beispielen, wie man bereits mit solch vermeintlich simplen Frequenzanalysen zu weitreichenden Einsichten in das kollektive Gedächtnis der Menschheit kommen kann.

Es enthüllt, wie sich Technologien verbreiten, wie die Dynamik des Ruhms funktioniert und wie sich Zensur und Propaganda auswirken. Selbstbewusst plädiert Aiden deshalb für die Gründung eines neuen Forschungsfeldes, das er "Culturomics" nennt - analog zur Genomik, die das menschliche Erbgut entschlüsselt. "Culturomics weitet die Grenzen der rigorosen Analyse auf eine lange Reihe neuer Phänomene in den Sozial- und Geisteswissenschaften aus", verspricht Aiden.

Zu den ersten Überraschungen der neuen Datenbank gehört die Entdeckung, so Co-Autor Steven Pinker, dass zumindest englische Bücher "zu einem großen Teil aus lexikalisch Dunkler Materie bestehen". Selbst wenn man die Eigennamen weglasse, ergebe sich, dass 52 Prozent der in Büchern verwendeten Wörter in keinem Nachschlagewerk verzeichnet sind. Das verwundert nicht, wenn man aus einer weiteren Analyse erfährt, dass jährlich (!) 8500 neue Wörter im englischen Sprachraum hinzukommen - allein seit 1950 wuchs der dortige Wortschatz um 70 Prozent.

Über die relative Worthäufigkeit lässt sich aber auch der Einfluss und die Bedeutung von Ideen und Menschen erfassen. Wer hätte gedacht, dass "Sigmund Freud" über Jahrzehnte hinweg häufiger im Schriftgut auftritt als etwa "Albert Einstein" und "Galileo" zusammen? Erst 2005 wurde der Begründer der Psychoanalyse erstmals von "Charles Darwin" überholt - Hinweise auf die Tiefengravur des kulturellen Gedächtnisses.

Zugleich zeigt sich, dass prominente Menschen heutzutage ihren Ruhm früher und schneller erlangen. So erreichten Berühmtheiten, die 1800 geboren wurden, die meiste Beachtung im Alter von durchschnittlich 43 Jahren. Bei Prominenten des Geburtsjahrs 1950 lag der Scheitelpunkt des Ruhms bei 29 Jahren - dafür war auch die Halbwertzeit des Ruhms deutlich kürzer. Heutige Gesellschaften vergessen insgesamt schneller.

Die Harvard-Forscher ermittelten, wie häufig Jahreszahlen von 1875 bis 2005 erschienen. Ergebnis: Die Zahl der Bezüge auf das Jahr 1880 hatte sich bis 1912 - also 32 Jahre später - lediglich halbiert. Diesen Grad der Vergessenheit hatte das Jahr 1973 bereits zehn Jahre später erreicht.

Weitere Beispiele belegen, wie Frequenzanalysen auch konkrete gesellschaftliche Entwicklungen abbilden können: So lässt sich zum Beispiel an der Karriere des Wortes "Feminismus" womöglich die Bedeutung dieser Bewegung ablesen. Wissenschaftssoziologen können an den Häufigkeitskurven von "Telefon" oder "Radio" sehen, wie schnell sich Innovationen verbreiten.

Der vorübergehende Einbruch des Wörtchens "Eiscreme" irgendwann nach 1950 deutet auf eine Änderung der Ernährungsgewohnheiten. Und historisch orientierte Epidemiologen werden mit Interesse vermerken, dass die Nennung des Wortes "Influenza" mit den tatsächlichen Grippeepidemien korreliert - vielleicht kann man auf diese Art den Gang weniger gut dokumentierter Seuchen verfolgen?

Denn das ist natürlich die Hoffnung der "Culturomics": dass man mit ihrer Hilfe auch bislang unbekannte Entwicklungen aufspürt, etwa schleichende Zensur. So fanden die Forscher zum Beispiel heraus, dass der Name des im Dritten Reich verschmähten jüdischen Malers Marc Chagall im gesamten gescannten deutschen Korpus von 1936 bis 1944 nur ein einziges Mal auftaucht, während er sich im englischsprachigen Raum zunehmend häufiger fand.

Auf ähnliche Weise suchten die Forscher nach weiteren Namen in dieser Epoche, die plötzlich aus den Büchern verschwanden. Als sie diese, rein mit mathematischen Mitteln erstellte Liste einem spezialisierten Historiker zur Prüfung übergaben, identifizierte dieser in 80 Prozent der Fälle tatsächliche Zensuropfer.

Bestens informiert mit SZ Plus – 4 Wochen kostenlos zur Probe lesen. Jetzt bestellen unter: www.sz.de/szplus-testen

URL:
www.sz.de/1.1037216
Copyright:
Süddeutsche Zeitung Digitale Medien GmbH / Süddeutsche Zeitung GmbH
Quelle:
SZ vom 17.12.2010/mcs
Jegliche Veröffentlichung und nicht-private Nutzung exklusiv über Süddeutsche Zeitung Content. Bitte senden Sie Ihre Nutzungsanfrage an syndication@sueddeutsche.de.