Ahnungsloses Gefummel

Sigmund Freud und Katherine Jones haben 1939 ein Sachbuch veröffentlicht, in dem die Funktionsweise der Internet-Software Mosaic Navigator erläutert wird. "Madame Bovary" ist nicht von Gustave Flaubert, sondern von Henry James. Nicht Jean Paul schrieb den "Titan", sondern Hermann Hesse. Daniel Defoes "Robinson Crusoe" gehört in die Abteilung "Hobby und Handwerk" und Stephen Kings "Christine" erschien bereits 1899, genauso wie Robert Sheltons Biographie des Rockpoeten Bob Dylan - groteske Beispiele aus Googles Buchsuche.

Google Books verortet Daniel Defoes "Robinson Crusoe" - hier im Bild "Robinson" Tom Hanks im Film "Cast Away" - in der Abteilung "Hobby und Handwerk". (Foto: Foto: dpa, Reuters)

Während Debatten darüber geführt werden, welche Bücher der Internetkonzern zu welchen Konditionen einscannen und im Internet anzeigen darf, wird eine andere Frage vernachlässigt: Die nach der Qualität der Mega-Datenbank.

"Desaster für Wissenschaftler"

Einer der wenigen, die sich damit kritisch auseinandersetzen, ist der Linguistik-Professor Geoffrey Nunberg von der University of California at Berkeley. Googles Buchsuche sei "ein Desaster für Wissenschaftler" - so der Titel eines Aufsatzes im Chronicle of Higher Education (online).

"Welche Sicherheit haben wir, dass Google die Sache richtig anpackt?", fragt er darin und kommt insgesamt zu einem vernichtenden Fazit: Für viele der Probleme sei "Googles etwas ahnungsloses Gefummel" verantwortlich, weil die Firma versucht habe, "ein Gebiet zu beherrschen, das sich als viel komplexer als gedacht herausstellte".

Nunbergs Kritik bezieht sich vor allen Dingen auf die sogenannten Metadaten, Daten also, wie man sie auf den Karteikarten in Bibliothekskatalogen findet: Autor, Herausgeber, Erscheinungsjahr, Auflage und so weiter. Eigentlich, so Nunberg, eröffne ein gigantisches Projekt wie das von Google phantastische Möglichkeiten für Wissenschaftler, zum Beispiel um genau herauszufinden, wann sich im 17. Jahrhundert der Begriff happiness anstelle von felicity durchsetzte. Es sei zwar nur normal, dass es bei Millionen von eingescannten Büchern zu dem einen oder anderen Aussetzer komme. Aber, klagt der Sprachwissenschaftler, was Google bei den Metadaten anbiete, sei "ein einziger Mischmasch". Ohne korrekte Metadaten könne aber kein Wissenschaftler vernünftig arbeiten.

Mathematische Methoden

Dass viele Werke in völlig falsche oder unsinnige Kategorien eingeordnet werden, liegt Nunberg zufolge daran, dass Google die Kategorisierung der Verlage übernommen hat. Diese dient aber bloß dazu, dass die Bücher vom Handel in die richtigen Regale einsortiert werden. Wo kein Verlag eine Einordnung liefert, versucht Google sie aus den Metadaten zu gewinnen - mit oft haarsträubenden Ergebnissen.

Eine Ausgabe von Herman Melvilles "Moby Dick" beispielsweise firmiert unter der Rubrik Computer. Google, so fasst es der amerikanische Sprachwissenschaftler zusammen, habe "einige der größten Wissenssammlungen erhalten und sie zurückgegeben in Form eines Buchladens in einem Vorstadt-Einkaufszentrum".

Die meisten Fehler rühren ganz offenbar daher, dass Google auch bei seinem Buchprojekt um jeden Preis vermeiden will, ein von Menschen überwachtes Kategoriensystem einzuführen, sondern versucht, alles mit mathematischen Methoden zu lösen - dem Erfolgsrezept also, mit dem Google schon bei der Suche im Internet die Konkurrenz abzuhängen verstand. Google ist sogar bekannt dafür, dass man lieber länger an einer Formel oder einem Algorithmus herumtüftelt, als ein Problem schnell durch ein paar menschliche Eingriffe zu lösen.

Die besondere Stellung Googles ist es vor allem, die den Linguisten Nunberg zu seiner Kritik veranlasst, befürchtet er doch nicht zu Unrecht, dass auf absehbare Zeit wohl kein anderes Unternehmen einen derartigen Fundus wird aufbauen können. Außerdem würden auch viele der Bibliotheken, die via Google ihren Bestand digitalisieren, auf die so schlampig gewonnenen Daten zurückgreifen.