Netz-Depeschen:Blondinen bevorzugt

Mit dem neuen Google "ngram" kann man die Häufigkeit bestimmter Wörter und Namen in der Literatur auswerten: nicht nur in Bezug auf "Sex" und "Tod" mit überraschenden Ergebnissen.

Michael Moorstedt

Google-CEO Eric Schmidt neigt dazu, in seinen Meditationen über die nahe Zukunft des Unternehmens die Grenze zur Dystopie immer wieder lustvoll zu überschreiten. So sagte er, als er im Oktober 2010 nach der Entwicklung des Suchmachinengeschäfts befragt wurde: "Die Menschen geben uns Informationen über sich und ihre Freunde. So können wir die Qualität unserer Suche verbessern. Sie müssen gar nichts mehr eintippen. Wir wissen, wo sie sind. Wir wissen, wo sie waren. Wir können mehr oder weniger erfahren, was sie denken."

Netz-Depeschen: Marylin Monroe wurde in mehr Büchern erwähnt als der ehemalige amerikanische Präsident Jimmy Carter. Was sagt uns das über die Welt?

Marylin Monroe wurde in mehr Büchern erwähnt als der ehemalige amerikanische Präsident Jimmy Carter. Was sagt uns das über die Welt?

(Foto: AFP)

Eine charmantere Seite zeigt das Unternehmen in den Google Labs. Dort entstehen immer wieder bemerkenswerte Werkzeuge. Etwa ein interaktives, personalisiertes Musikvideo zu dem Arcade-Fire-Song "We used to wait", das mit Fotos aus der eigenen Kindheit bebildert werden kann. Oder Fast Flip, ein innovativer Nachrichten-Aggregator. Oft bekommen die Spielereien aus dem Google-Labor nicht die Aufmerksamkeit, die sie verdienen.

So wurde am vergangenen Donnerstag im Firmenblog eher beiläufig der Start von Google ngram verkündet. Seit 2004 hat die Firma mehr als 15 Millionen Bücher digitalisiert, nach eigenen Schätzungen sind dies zehn Prozent aller je veröffentlichten Bücher. Ein Drittel davon hat man nun als Basis für das Projekt unter ngrams.GoogleLabs.com durchsuchbar gemacht. 500 Milliarden Wörter, zwischen den Jahren 1500 und 2008 geschrieben auf Englisch, Russisch, Französisch, Spanisch, Chinesisch und Deutsch. Mit den gängigen Operatoren - etwa Kommata und Anführungszeichen - kann ngram die Häufigkeit der Benutzung einzelner Wörter über die Jahrhunderte auswerten und graphisch darstellen.

Quantitative Analysen sollen mit dem Tool ebenso möglich sein wie tiefer gehende Punktionen des kollektiven Gedächtnisses. CNBC testete die Datenbank mit der Frage nach der Häufigkeit der Wörter Sex und Tod in den Büchern des 20. Jahrhunderts. Während die Nutzung von Tod relativ konstant blieb, gibt es bei Sex in den letzten Jahren erstaunlicherweise einen Rückgang.

Abseits von diesen Spielereien sei aus der Datenbank auch eine Art von kulturellem Genom ablesbar, glauben zumindest die Harvard-Soziologen Jean-Baptiste Michel und Erez Lieberman Aiden, die ngram für eine Publikation im Science-Magazin genutzt haben. Sie wollen gleich ein neues Wissenschaftsfeld entdeckt haben: Durch die Culturomics (ein Hybrid aus Culture und Genomics) seien kulturelle Trends, unbekannte historische Zusammenhänge oder vergessene Wörter erkennbar. Die Evolution von Wörtern und Orthographie sei ebenso ablesbar wie die Tatsache, dass Mickey Mouse oder Marilyn Monroe wesentlich weniger oft erwähnt werden als Jimmy Carter. Dass das Wort Tiananmen-Platz nach 1989 einen sprunghaften Anstieg in englischsprachigen Büchern erfährt, während es in chinesischen Publikationen beinahe verschwindet. Oder dass gedruckte Erwähnungen Prominenter Mitte des 20.Jahrhunderts zweimal so schnell wieder verschwinden wie noch im frühen 19.Jahrhundert. "In Zukunft", schreiben Michel und Aiden in Anlehnung an Andy Warhol "wird jedermann nur noch für siebeneinhalb Minuten berühmt sein."

Zur SZ-Startseite
Jetzt entdecken

Gutscheine: