Big Data Die Seuche von morgen

Wenn viele Menschen gleichzeitig bei der Online-Enzyklopädie Wikipedia den Artikel über Dengue-Fieber aufrufen, deutet das auf ein Problem hin. Über diese Zugriffsdaten lassen sich Epidemien prognostizieren.

Von Christian Weber

Kratzt es im Hals und schnieft die Nase, greift der kranke Mensch von heute zum Internet und schaut nach, woran er denn leiden könnte - noch bevor er einen Arzt aufsucht. Entsprechend interessant sind in den vergangenen Jahren die Datenozeane der Suchmaschinen und sozialen Netzwerke für Epidemiologen geworden. Sie hoffen, dass sie im Netz frühzeitig erste Hinweise auf die demnächst anrollenden Epidemien finden können, so dass man Präventionsmaßnahmen ergreifen kann.

Einen neuen derartigen Ansatz stellt nun ein Forscherteam um Nicholas Generous vom Los Alamos National Laboratory in New Mexico vor (PLoS Computational Biology, Bd. 10, S. e1003892, 2014): Sie nutzen die Zugriffsdaten der Online-Enzyklopädie Wikipedia, um Prognosen zu erstellen. Mit einigem Erfolg: Ihnen gelangen in acht von 14 Fällen richtige Voraussagen. So prognostizierten sie frühzeitig Grippe-Ausbrüche in den USA, Polen, Japan und Thailand, Dengue-Fieber in Brasilien und Thailand sowie Tuberkulose in China und Thailand. Dies gelang ihnen in allen bis auf einen Fall mindestens vier Wochen vor dem tatsächlichen Ausbruch, wie ihn dann die Gesundheitsbehörden mit echten medizinischen Daten erfassten.

Die Forscher sehen ihre Arbeit allerdings zunächst nur als einen Machbarkeitsnachweis, der durch weitere Studien bestätigt werden muss. So hatten bereits 2009 Google-Forscher behauptet, dass sie mit einem Algorithmus anhand der Suchmaschinen-Anfragen zuverlässig Grippewellen voraussagen könnten. Doch dann übersahen sie die große H1N1-Epidemie von 2009 völlig, andere saisonale Epidemien wurden in ihrer Größe erheblich überschätzt. Damals wurde von Fachkollegen kritisiert, dass Google weder den Algorithmus noch die für die Prognose verwendeten Suchbegriffe offengelegt hat, so dass das Verfahren weitgehend der wissenschaftlichen Diskussion entzogen war. Dies haben nun die PLoS-Autoren geändert, die auf die frei verfügbaren Wikipedia-Daten zurückgegriffen haben. Co-Autorin Sara Del Valle verspricht jedenfalls ein "globales Krankheits-Prognose-System", das sich abrufen lässt wie das Wetter von morgen.