Datenwissenschaft Die Statistik erfindet sich neu

Mehrere tausend Twitterprofile liefern die Geodaten, mit denen sich die Verkehrsströme in Europa visualisieren lassen.

(Foto: Wikimedia Commons/Eric Fischer 2.0 Generic/CC BY 2.0)

Strichlisten und Fragebögen sind von gestern. Statistiker setzen zunehmend auf Satelliten, Sensoren und soziale Medien. Auf dem Spiel steht die öffentliche Wahrheit.

Von Christian Endt

Wie wohl die Ernte dieses Jahr ausfallen wird? Wie viele Tonnen Äpfel werden es sein, auf welchen Preis wird der Weizen steigen? Wichtige Fragen - für Erzeuger, Händler, Verbraucher. Bislang wird die Antwort so ermittelt: Mitarbeiter des Statistischen Bundesamts (Destatis) suchen Landwirte, die sich freiwillig, in machen Fällen auch verpflichtend, an der Datenerhebung beteiligen. Diese gehen auf ihre Felder und schauen sich die Pflanzen an: Wie hoch sind sie gewachsen, wie viele Früchte tragen sie, sehen sie gesund aus? Mit diesen Informationen und ihrer Erfahrung kalkulieren sie die Ernte, die sie voraussichtlich am Ende der Saison einfahren werden.

Ein Experiment von Destatis zusammen mit dem Julius-Kühn-Institut - dem Bundesforschungsinstitut für Kulturpflanzen in Berlin - und weiteren Partnern zeigt, dass sich die Aufgabe auch eleganter lösen lässt - mit der Hilfe von Satelliten. Dabei untersuchen die Statistiker Äcker mit Winterweizen, Raps und Gerste in verschiedenen Bundesländern. Die optischen Sensoren des Sentinel-2-Satelliten des europäischen Copernicus-Programms liefern den Forschern Daten zum Frequenzspektrum des von den Feldern reflektierten Lichts. Auf Versuchsfeldern haben sie zuvor untersucht, wie diese Spektren mit der Ernteausbeute der Felder zusammenhängen, und ein entsprechendes Maschinenlern-Modell trainiert. Detaillierte Ergebnisse der Experimente sollen noch im Frühjahr dieses Jahres vorliegen.

Statistik

Signifikanter Unfug

Die statistische Signifikanz, gemessen mit dem sogenannten p-Wert, hat in der Wissenschaft eine geradezu götzenhafte Bedeutung erlangt. 800 Forscher beklagen Fehler und fordern ein Umdenken.   Von Patrick Illinger

Das Geschäft mit Daten wälzt die Weltwirtschaft um. Es lässt Konzerne entstehen und andere zugrunde gehen, es greift in den Alltag jedes Menschen ein. Alles und jeder wird vermessen, jederzeit. Über diese digitale Revolution ist viel geschrieben worden, auch über ihre Protagonisten wie Google, Amazon und Facebook. Hier soll es um eine andere Organisation gehen, deren Metier ebenfalls Daten sind. Ihre Mitarbeiter sitzen nicht in futuristischen Glaskästen im Silicon Valley, sondern in einem Betonblock in Wiesbaden, mit grauen Teppichböden und einem Paternoster, der unermüdlich die 13 Stockwerke hoch- und runterfährt. Die hier gesammelten Daten dienen nicht der gewinnbringenden Verbreitung von Online-Werbung, sondern dem Diskurs in der Demokratie.

Geburt und Tod, Wohnung und Urlaub, Schule und Arbeit

Das Statistische Bundesamt, 1948 gegründet, vermisst das Leben in allen Dimensionen: Geburt und Tod, Wohnung und Urlaub, Schule und Arbeit, Wirtschaft und Umwelt. Es führt etwa 390 verschiedene Statistiken, zu Bildungsabschlüssen, Hüftoperationen, Heizungen und Tiefkühlnahrung. Die Beamten schaffen damit ein gemeinsames Fundament aus Fakten, auf deren Grundlage die Gesellschaft diskutieren und entscheiden kann.

Doch dieses Fundament hält nur, wenn die Arbeit der Statistiker glaubhaft ist. Und die Glaubwürdigkeit wackelt, wenn die Beamten den Anschluss an die Zeit verlieren. Wenn sie noch mit Strichlisten und Befragungen arbeiten, während die Datenkonzerne ihre Sensoren längst in den Erdorbit geschossen und in die Hosentaschen von Milliarden Menschen geschmuggelt haben. Das Statistische Bundesamt hat dies erkannt und sich auf den Weg zu einem modernen, digitalen Datenhub gemacht. Die Behörde experimentiert mit Maschinenlernen, erkundet neuartige Datenquellen, sucht Partner in Wissenschaft und Industrie. Doch für eine gründliche Erneuerung fehlt es häufig an Know-how, an Rechenleistung, an Geld und an rechtlichen Spielräumen. Wenn die Reise scheitert, gefährdet das nicht nur das Bundesamt, sondern die Idee von einer allgemeinen, öffentlichen Wahrheit.

Dabei hängt der Erfolg ihrer Mission nicht nur an der technischen Zuverlässigkeit der neuen Methoden. "Wir brauchen für alles ein Gesetz", sagt Georg Thiel, der Präsident des Statistischen Bundesamts. Meist müssen auch die Bundesländer zustimmen. Die sind in aller Regel für die Erhebung der Daten zuständig. Da Satelliten nicht an Bundeslandgrenzen aufhören zu messen, fürchten die Landesstatistikämter bei solch neuen Methoden schnell um ihren Einfluss und damit um ihre Existenzberechtigung. Bis die Agrar-Satellitendaten etwa des Julius-Kühn-Instituts wirklich in die offiziell veröffentlichten Erntestatistiken einfließen, wird daher noch viel Zeit vergehen.

Dabei hütet der Staat einen ungeheuren Datenschatz. Vor allem wenn man ihn als Gesamtgebilde denkt, über die Grenzen von ministerialen Zuständigkeiten und föderalen Ebenen hinweg.

Für die Betriebe ist das nervige Bürokratie

Das zeigt zum Beispiel ein Projekt von Stefan Linz und seinem Team, das im Statistischen Bundesamt dafür zuständig ist, die Industriekonjunktur zu berechnen - also festzustellen, wie viele Waren in deutschen Fabriken produziert werden. Herkömmlicherweise funktioniert das über eine Befragung von repräsentativ ausgewählten Betrieben, die dann mitteilen, wie viele Schrauben, Kurbelwellen, Halbleiter und Kindershampoos sie herstellen und zu welchem Preis. Für die Betriebe ist das nervige Bürokratie, außerdem entsteht durch das Hochrechnen der Stichprobe ein Unsicherheitsfaktor.

In Zusammenarbeit mit dem Bundesamt für Güterverkehr haben sich Linz und seine Leute eine Alternative überlegt: Was hergestellt und verkauft wird, muss anschließend irgendwie zum Kunden kommen. Meistens passiert das, indem der Hersteller es auf einen Lastwagen lädt und durchs Land fährt. Seit Deutschland 2005 eine Lkw-Maut eingeführt hat, trägt jeder Laster im Führerhaus einen kleinen Sender, der die gefahrenen Strecken via Satellit an die Betreiberfirma Toll Collect funkt. Aus diesen Meldungen, so die Idee, müsste sich doch die Industrieproduktion ablesen lassen. Die Statistiker haben sich deshalb mit den Kollegen vom Güterverkehrsamt die entsprechenden Daten angesehen, eine Zeit lang gerechnet und dann die Kurve für die gesamte Lkw-Fahrleistung neben die der Industrieproduktion gelegt. Beide Linien verlaufen erstaunlich parallel, Hoch- und Tiefpunkte liegen fast genau aufeinander.