Datenwissenschaft:Die Statistik erfindet sich neu

Mit Twitter Verkehrsströme visualisieren

Mehrere tausend Twitterprofile liefern die Geodaten, mit denen sich die Verkehrsströme in Europa visualisieren lassen.

(Foto: Wikimedia Commons/Eric Fischer 2.0 Generic/CC BY 2.0)

Strichlisten und Fragebögen sind von gestern. Statistiker setzen zunehmend auf Satelliten, Sensoren und soziale Medien. Auf dem Spiel steht die öffentliche Wahrheit.

Von Christian Endt

Wie wohl die Ernte dieses Jahr ausfallen wird? Wie viele Tonnen Äpfel werden es sein, auf welchen Preis wird der Weizen steigen? Wichtige Fragen - für Erzeuger, Händler, Verbraucher. Bislang wird die Antwort so ermittelt: Mitarbeiter des Statistischen Bundesamts (Destatis) suchen Landwirte, die sich freiwillig, in machen Fällen auch verpflichtend, an der Datenerhebung beteiligen. Diese gehen auf ihre Felder und schauen sich die Pflanzen an: Wie hoch sind sie gewachsen, wie viele Früchte tragen sie, sehen sie gesund aus? Mit diesen Informationen und ihrer Erfahrung kalkulieren sie die Ernte, die sie voraussichtlich am Ende der Saison einfahren werden.

Ein Experiment von Destatis zusammen mit dem Julius-Kühn-Institut - dem Bundesforschungsinstitut für Kulturpflanzen in Berlin - und weiteren Partnern zeigt, dass sich die Aufgabe auch eleganter lösen lässt - mit der Hilfe von Satelliten. Dabei untersuchen die Statistiker Äcker mit Winterweizen, Raps und Gerste in verschiedenen Bundesländern. Die optischen Sensoren des Sentinel-2-Satelliten des europäischen Copernicus-Programms liefern den Forschern Daten zum Frequenzspektrum des von den Feldern reflektierten Lichts. Auf Versuchsfeldern haben sie zuvor untersucht, wie diese Spektren mit der Ernteausbeute der Felder zusammenhängen, und ein entsprechendes Maschinenlern-Modell trainiert. Detaillierte Ergebnisse der Experimente sollen noch im Frühjahr dieses Jahres vorliegen.

Das Geschäft mit Daten wälzt die Weltwirtschaft um. Es lässt Konzerne entstehen und andere zugrunde gehen, es greift in den Alltag jedes Menschen ein. Alles und jeder wird vermessen, jederzeit. Über diese digitale Revolution ist viel geschrieben worden, auch über ihre Protagonisten wie Google, Amazon und Facebook. Hier soll es um eine andere Organisation gehen, deren Metier ebenfalls Daten sind. Ihre Mitarbeiter sitzen nicht in futuristischen Glaskästen im Silicon Valley, sondern in einem Betonblock in Wiesbaden, mit grauen Teppichböden und einem Paternoster, der unermüdlich die 13 Stockwerke hoch- und runterfährt. Die hier gesammelten Daten dienen nicht der gewinnbringenden Verbreitung von Online-Werbung, sondern dem Diskurs in der Demokratie.

Geburt und Tod, Wohnung und Urlaub, Schule und Arbeit

Das Statistische Bundesamt, 1948 gegründet, vermisst das Leben in allen Dimensionen: Geburt und Tod, Wohnung und Urlaub, Schule und Arbeit, Wirtschaft und Umwelt. Es führt etwa 390 verschiedene Statistiken, zu Bildungsabschlüssen, Hüftoperationen, Heizungen und Tiefkühlnahrung. Die Beamten schaffen damit ein gemeinsames Fundament aus Fakten, auf deren Grundlage die Gesellschaft diskutieren und entscheiden kann.

Doch dieses Fundament hält nur, wenn die Arbeit der Statistiker glaubhaft ist. Und die Glaubwürdigkeit wackelt, wenn die Beamten den Anschluss an die Zeit verlieren. Wenn sie noch mit Strichlisten und Befragungen arbeiten, während die Datenkonzerne ihre Sensoren längst in den Erdorbit geschossen und in die Hosentaschen von Milliarden Menschen geschmuggelt haben. Das Statistische Bundesamt hat dies erkannt und sich auf den Weg zu einem modernen, digitalen Datenhub gemacht. Die Behörde experimentiert mit Maschinenlernen, erkundet neuartige Datenquellen, sucht Partner in Wissenschaft und Industrie. Doch für eine gründliche Erneuerung fehlt es häufig an Know-how, an Rechenleistung, an Geld und an rechtlichen Spielräumen. Wenn die Reise scheitert, gefährdet das nicht nur das Bundesamt, sondern die Idee von einer allgemeinen, öffentlichen Wahrheit.

Dabei hängt der Erfolg ihrer Mission nicht nur an der technischen Zuverlässigkeit der neuen Methoden. "Wir brauchen für alles ein Gesetz", sagt Georg Thiel, der Präsident des Statistischen Bundesamts. Meist müssen auch die Bundesländer zustimmen. Die sind in aller Regel für die Erhebung der Daten zuständig. Da Satelliten nicht an Bundeslandgrenzen aufhören zu messen, fürchten die Landesstatistikämter bei solch neuen Methoden schnell um ihren Einfluss und damit um ihre Existenzberechtigung. Bis die Agrar-Satellitendaten etwa des Julius-Kühn-Instituts wirklich in die offiziell veröffentlichten Erntestatistiken einfließen, wird daher noch viel Zeit vergehen.

Dabei hütet der Staat einen ungeheuren Datenschatz. Vor allem wenn man ihn als Gesamtgebilde denkt, über die Grenzen von ministerialen Zuständigkeiten und föderalen Ebenen hinweg.

Für die Betriebe ist das nervige Bürokratie

Das zeigt zum Beispiel ein Projekt von Stefan Linz und seinem Team, das im Statistischen Bundesamt dafür zuständig ist, die Industriekonjunktur zu berechnen - also festzustellen, wie viele Waren in deutschen Fabriken produziert werden. Herkömmlicherweise funktioniert das über eine Befragung von repräsentativ ausgewählten Betrieben, die dann mitteilen, wie viele Schrauben, Kurbelwellen, Halbleiter und Kindershampoos sie herstellen und zu welchem Preis. Für die Betriebe ist das nervige Bürokratie, außerdem entsteht durch das Hochrechnen der Stichprobe ein Unsicherheitsfaktor.

In Zusammenarbeit mit dem Bundesamt für Güterverkehr haben sich Linz und seine Leute eine Alternative überlegt: Was hergestellt und verkauft wird, muss anschließend irgendwie zum Kunden kommen. Meistens passiert das, indem der Hersteller es auf einen Lastwagen lädt und durchs Land fährt. Seit Deutschland 2005 eine Lkw-Maut eingeführt hat, trägt jeder Laster im Führerhaus einen kleinen Sender, der die gefahrenen Strecken via Satellit an die Betreiberfirma Toll Collect funkt. Aus diesen Meldungen, so die Idee, müsste sich doch die Industrieproduktion ablesen lassen. Die Statistiker haben sich deshalb mit den Kollegen vom Güterverkehrsamt die entsprechenden Daten angesehen, eine Zeit lang gerechnet und dann die Kurve für die gesamte Lkw-Fahrleistung neben die der Industrieproduktion gelegt. Beide Linien verlaufen erstaunlich parallel, Hoch- und Tiefpunkte liegen fast genau aufeinander.

Die Digitalisierung stellt Statistiker vor gewaltige Herausforderungen

"Die Mautdaten liegen uns 15 Tage nach Monatsende vor", sagt Linz, "das ist 23 Tage schneller als die herkömmliche Konjunkturprognose." Und Schnelligkeit ist ein Faktor im Rennen um die Glaubwürdigkeit. Denn wer mit seinen Daten viel später daherkommt als alle anderen, dem wird kaum noch jemand zuhören - selbst wenn er die präzisesten Zahlen vorlegt.

Am Beispiel der Konjunktur zeigt sich aber auch das Ausmaß der Herausforderung, vor der die Statistiker stehen: Aus den Lkw-Daten lässt sich vielleicht eine Aussage über das produzierende Gewerbe ableiten. Aber der Teil der Wirtschaft, der anfassbare, in Lastwagen verladbare Waren herstellt, wird kleiner und unbedeutender. Die Erzeugnisse der Digitalwirtschaft lassen sich so nicht erfassen. Außerdem läuft das digitale Geschäft international, die Entwickler sitzen in Land A, der offizielle Firmensitz ist steueroptimiert in Land B, die Server stehen in Land C und die Kunden kaufen in Land D. Wo wird nun die Wertschöpfung erbracht? Welches Land kann sich die Leistung in seiner Bilanz anrechnen? Und kann man die Dynamik solcher Geschäfte mit einer behördlichen Befragung überhaupt erfassen? Das sind Fragen, über die die Ökonomen des Statistischen Bundesamts gerade nachdenken.

Statistiker wollen nur die Realität möglichst gut abbilden

Der politische Ökonom und Soziologe William Davies schreibt den amtlichen Statistikern in seinem aktuellen Buch "Nervöse Zeiten: Wie Emotionen Argumente ablösen" eine bedeutende Rolle für das Vertrauen in Institutionen zu - sieht diese Rolle aber in großer Gefahr. "Experten betrachten die Gesellschaft vielleicht weiter durch die Brille der Statistik", schreibt er, "aber wenn deren Kategorien nichts Sinnvolles mehr erfassen, können sie von der Bevölkerung kein Vertrauen erwarten." Davies führt etwa das Beispiel des Wirtschaftswachstums auf, das seine Berechtigung verliere, wenn es nichts über die Situation der Leute aussage - weil die etwa dank steigender Ungleichheit immer weniger in der Tasche haben, obwohl es insgesamt aufwärts geht.

In so einem Fall muss die Statistik Methoden finden, um die Wirklichkeit präziser und differenzierter zu beschreiben. Dazu müssen die Statistikbehörden die neuen Datenquellen nutzen und sie mit ihren originären Stärken verbinden: ihre Unabhängigkeit und Transparenz. Im Gegensatz zu den Unternehmen, die an jeder Ecke mit eigenen Analysen wedeln, haben die Statistiker kein Interesse außer jenes, die Realität möglichst gut abzubilden.

In einem Beitrag für den Guardian vergleicht Davies das Verhältnis von Statistik und Bevölkerung mit dem von Kartografie und Gelände. Ohne Landkarte würde man ziemlich orientierungslos umherirren, und genauso muss auch die Gesellschaft vermessen werden, damit sich ihre Mitglieder zurechtfinden.

Gut lassen sich diese Herausforderungen auch anhand einer weiteren zentralen Statistik beschreiben: der Inflation, also der Entwicklung der Preise. Klassischerweise wird sie mit Daten ermittelt, die Mitarbeiter in den Läden erheben: Sie gehen mit Klemmbrettern durch die Regale und notieren die Verkaufspreise für alle Artikel aus einem vorher definierten Warenkorb. Diese Methode ist nicht ganz zeitgemäß. Viele Supermärkte haben längst elektronische Anzeigetafeln, auf denen sie die Preise sekündlich ändern können. Im Online-Handel kann man sogar noch einen Schritt weitergehen und jedem Kunden einen individuellen Preis anbieten. Beim Statistischen Bundesamt würden sie daher lieber die Preise direkt von den Händlern bekommen, aus einer Schnittstelle an den Kassen-Scannern. Doch das werden die Händler eher nicht freiwillig machen, man bräuchte neben einer neuen Technologie also auch hier erst einmal ein neues Gesetz. Online lassen sich die Preise ohnehin maschinell abfragen, so wie es etwa Vergleichsportale machen.

Datenwissenschaftler sind begehrt, da tun sich Behörden schwer

Dieses sogenannte Web Scraping gehört unter jungen Datenwissenschaftlern zum Handwerkszeug. Die sind allerdings auf dem Arbeitsmarkt begehrt, die Statistikämter mit ihren auf die Zahl der Berufsjahre ausgerichteten Gehaltsstrukturen tun sich da schwer. Zumal technisch versierte Uniabsolventen auf Stellensuche nicht unbedingt als allererstes an einen Behördenjob denken. Dazu kommen sprachliche Schwierigkeiten. An Unis und in der Privatwirtschaft arbeiten Datenwissenschaftler meistens in den Programmiersprachen Python oder R, die Beamten dagegen noch mit der Software SAS, auf die auch die IT-Strukturen ausgerichtet sind.

Destatis-Präsident Thiel, erst seit Oktober 2017 im Amt, hat in der Behörde viel angestoßen. Junge Wissenschaftler werden als Promotionsstudenten eingestellt, die IT auf Vordermann gebracht, Experimente und Pilotprojekte gestartet. In einem Trendreport hat Thiel aufschreiben lassen, welche neuen Technologien und Möglichkeiten die Behörde in den nächsten Jahren anwenden oder erkunden soll.

Neben neuen Methoden in der Erhebung und Auswertung will Thiel die Daten auch besser verbreiten, sie näher an den Alltag der Nutzer bringen. Zu den innovativeren Produkten der Statistikämter gehört der Unfallatlas, der für Autobahn und größere Landstraßen relativ detailliert angibt, wie hoch die Unfallrate auf einzelnen Streckenabschnitten ist.

"Diese Daten will ich direkt in die Polizeistationen und in die Navis der Leute bringen", sagt Thiel. Wer auf der A8 von Augsburg nach München fährt, würde dann kurz vor der Anschlussstelle Sulzemoos eine warnende Stimme hören: "Achtung, erhöhte Unfallgefahr." Warnend klingt auch Georg Thiel, wenn er über die Modernisierung der Statistik sagt: "Wir dürfen uns nicht ausruhen."

Zur SZ-Startseite

Zahlentheorie
:Mathematiker knackt Rätsel um Zahl 33

An der Frage, welche Zahlen sich als Summe von drei Dreierpotenzen schreiben lassen, sind schon die alten Griechen verzweifelt. Ein Mathematiker hat nun immerhin eine neue Lösung entdeckt.

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: