Big Data Google versagt bei Grippe-Vorhersagen

Grippehäufigkeit auf der Weltkarte von "Google Flu Trends"

(Foto: Google Flu Trends)

Mit Suchanfragen Grippeepidemien vorhersagen - davon träumten Google-Techniker. Doch bei genauerem Hinsehen zeigt sich: Die Prognosen liegen oft daneben.

Von Christian Weber

Das Projekt gilt als Paradebeispiel dafür, was mit Big Data möglich ist, also der intelligenten Analyse der gewaltigen Datenmengen, die von Suchmaschinen und sozialen Netzwerken erzeugt werden. Doch jetzt zeigen sich erste Schwächen bei Google Flu Trends (GFT). So heißt der Versuch des Suchmaschinenriesen, Grippe-Epidemien frühzeitig und sogar auf regionaler Ebene vorauszusagen.

Dabei klingt der Ansatz, den Google-Wissenschaftler 2009 im Fachmagazin Nature vorgestellt haben, einfach und genial. Sie verglichen über einen fünfjährigen Zeitraum die 50 Millionen am häufigsten von US-Bürgern eingegebenen Suchbegriffe mit den realen Krankheitsdaten, wie sie von der Seuchenschutzbehörde CDC gesammelt werden. So fanden sie 45 Begriffe, die stark mit dem Auftreten einer Grippe korrelieren. So sollte es möglich sein, nahezu in Echtzeit zu registrieren, wann und wo eine Grippe ausbricht. Das wäre ein großer Vorteil gegenüber den CDC-Analysen, die mit zwei Wochen Verspätung publiziert werden.

Epidemien überschätzt

Dummerweise scheint die Rechnung bislang nicht wirklich aufzugehen, wie jetzt ein Forscherteam um David Lazer und Alessandro Vespignani von der Northeastern University in Boston in Science (Bd. 343, S.1203, 2014) berichtet. So wurde die nichtsaisonale H1N1-Pandemie des Jahres 2009 vom ursprünglichen GFT schlicht übersehen. Danach hat ein verbessertes GFT das Ausmaß der saisonalen Epidemien 2011/2012 und 2012/2013 um mehr als 50 Prozent überschätzt. Und im Zeitraum von August 2011 bis September 2013 lieferte das Analyse-Tool an 100 von 108 Wochen überhöhte Prognosen.

Da Google weder die verwendeten Suchbegriffe noch den Algorithmus offenlegt, fällt die Suche nach den Gründen für diese Fehlprognosen schwer. Die Science-Autoren vermuten eine "Big-Data-Hybris", die dazu führt, dass die Google-Forscher sich angesichts der Menge der Daten nicht ausreichend um deren Validität und Reliabilität kümmern.

Ein Einwand, der auch für andere Analysen - etwa von Facebook und Twitter - gilt. "Viele Quellen von Big Data kommen von privaten Unternehmen, die ihr Angebot ständig nach den Bedürfnissen ihres Geschäftsmodells ändern", sagt Co-Autor Ryan Kennedy. "Wir müssen besser verstehen, wie das die produzierten Daten verändert." Nur wenn man die Big-Data-Analyse mit traditionellen Methoden verbinde, entstünde eine wirklich bessere Wissenschaft.