Digitale Datenflut:Warum wir Big Data verstehen müssen

"Mit freundlichen Drüsen"? Dass das falsch ist, haben Computer gelernt. Doch bei Big Data geht es um Ernsteres: um Freiheitsrechte.

Ein Essay von Helmut Martin-Jung

Der Daten-Tsunami rollt: Wer in einem entwickelten Land lebt, zieht einen Kometenschweif an Daten hinter sich her. Mobiltelefone, Fitnessbänder und smarte Uhren, vernetzte Navigationsgeräte und Autos, Surfspuren im Internet und die Einträge in sozialen Netzwerken - die Liste wird ständig länger.

Und es ist erst der Anfang.

Schon bis 2020, prognostiziert das Beratungsunternehmen Gartner, könnten 25 Milliarden Geräte untereinander vernetzt sein - in weniger als fünf Jahren. Daten, Daten, immer mehr Daten: Diejenigen, die über sie verfügen und damit umzugehen wissen, werden die Profiteure des neuen Zeitalters sein, des Zeitalters der Daten. Die Bestimmer über die Daten werden über eine nie gekannte Fülle an Wissen und damit auch Macht verfügen. Wie jede neue Technik wird auch diese Schattenseiten haben. Solche, die sich schon absehen lassen. Solche, die wir noch nicht einmal ahnen. Sie eröffnet aber auch ganz neue Möglichkeiten.

Zwei Beispiele. In seinen Anfängen beschäftigte der heute größte Versandhändler der Welt, Amazon, eine Redaktion, die Empfehlungen für Bücher schrieb. Die etwa zwölf Literatur-Experten bestimmten darüber, was prominent angepriesen und damit mehr gekauft wurde. Doch dann hatte Amazon-Gründer Jeff Bezos eine Idee. Was wäre, wenn man nicht bloß allgemeine Empfehlungen geben könnte, sondern jedem Kunden seine eigenen?

Ein junger Doktorand fand schließlich nach viel Herumrechnen in Amazons Datensammlungen heraus: Die besten Empfehlungen gab es, wenn man nicht Kunden verglich, sondern die Beziehungen der Produkte untereinander auswertete, die ein Kunde schon gekauft oder intensiv angesehen hatte. Heute sollen etwa 30 Prozent aller Verkäufe bei Amazon auf die so erzeugten Empfehlungen zurückgehen. Und die Redaktion? Wurde entlassen.

Es geht nicht um Ergebnisse, die bis auf die Nachkommazahlen stimmen

Wohnungen sind knapp in New York City, die Mieten exorbitant. Manche Hausbesitzer ziehen zusätzliche Wände ein, und in den Mini-Zimmern hausen die ausgebeuteten Bewohner in größter Enge. Immer wieder gibt es Tote bei Bränden. Doch wo sollen die unterbesetzten städtischen Behörden suchen? Mike Flowers, ein ehemaliger Anwalt, hatte die Lösung. Eine, die nicht sofort einleuchtete.

Flowers ließ Daten zusammentragen. Jede Menge Daten. Daten, die gar nicht zusammenpassten. Wann wo Genehmigungen für Renovierungen vergeben worden waren, wo es die meisten Beschwerden wegen Lärms oder Schlägereien gab. Seit die Behörden auf seine Methode setzen, ermitteln sie mit einer Wahrscheinlichkeit von 70 Prozent im richtigen Mietshaus, davor waren es bloß 13.

Das Warum ist erst einmal egal

Die beiden Geschichten, die der Jurist und Oxford-Professor Viktor Mayer-Schönberger in seinem lesenswerten Buch "Big Data" erzählt, enthalten im Kern fast alles, was man über dieses nicht nur dem Namen nach große Thema wissen muss. Es macht - erstens - deutlich, dass sich auch aus unsauberen Daten eine Menge Schlüsse ziehen lassen. Vorausgesetzt, man hat eine Menge davon. Ach was, eine Menge: Am besten alle, die man kriegen kann. Und es wird - zweitens - klar: Es geht nicht um Ergebnisse, die bis auf die Nachkommazahlen stimmen. Es geht darum, Trends zu erkennen und das schnell, am liebsten in Echtzeit. Drittens: Es ist erst einmal egal, warum etwas so ist, wie es ist. Es zählen die Fakten.

Digitale Datenflut: Illustration: Stefan Dimitrov

Illustration: Stefan Dimitrov

Auf mehr und mehr Gebieten werden Big-Data-Analysen ganz neue Erkenntnisse liefern. Mit schnelleren Rechnern und optimierter Software werden Forscher und Firmen zumindest versuchen, mit der Datenflut mitzuhalten. Im Jahr 2019, das hat der Netzwerkspezialist Cisco errechnet, könnten über das Internet pro Jahr bereits zwei Zettabyte an Daten übertragen werden, viermal so viel wie heute. Ein Zettabyte ist eine Eins mit 21 Nullen - eine fast unvorstellbar große Zahl.

Aber wurden nicht schon immer Daten gesammelt und Schlüsse daraus gezogen? Das stimmt, aber erst seit einigen Jahren ist die Menschheit in der Lage, riesige Datenhaufen mit vertretbarem Aufwand zu durchwühlen - davor gab es weder Computer, die dafür schnell genug (und trotzdem bezahlbar) gewesen wären. Es fehlten vor allem auch die Mengen an Daten, ohne die die Technik nicht funktioniert. Hatten die Zahlenmenschen im Zeitalter der knappen Daten keine exakten Angaben, kam es zu Inkonsistenzen und damit zu groben Fehlern in der Endsumme. Denn man konnte ja - schon wegen der begrenzten Computer-Kapazitäten - nur Hochrechnungen vornehmen.

Große Mengen an Daten, unsaubere Daten, Ergebnisse, die eine Richtung weisen, aber kein exaktes Ergebnis liefern - in so ziemlich allem widerspricht die Methode Big Data der Art, wie Statistiker bisher gearbeitet haben. Werden aber große Mengen an Daten verarbeitet, ist es diese schiere Masse, deren Analyse einen am Ende dem Ziel sehr nahe bringt.

Noch einmal: Es geht nicht darum, aus exakt gepflegten Datenbanken exakte Ergebnisse zu bekommen. Sondern darum, aus Massen an disparaten Daten neue Erkenntnisse zu gewinnen. Was viele von uns übrigens im Alltag längst tun. Smartphone-Nutzer etwa sind es inzwischen gewöhnt, dass sie den kleinen Computer-Telefonen auch diktieren können - und die verstehen sogar das meiste richtig.

Doch warum ist das so? Weil die Firmen, zum Beispiel Google oder der Sprach-Spezialist Nuance aus Boston, immense Datensammlungen mit gesprochener Sprache haben. Die Computer, die erfassen, was Menschen ihnen vorsagen, haben in Wirklichkeit nicht den Hauch einer Ahnung. Sie werden gefüttert mit digitalen Sounddateien, die sie mit statistischen Methoden und jeder Menge an Rechenpower durchackern. Was folgt am häufigsten nach "mit freundlichen . . ." Na klar: "Grüßen". Also nicht "Drüsen", "müssen" oder "süßen" oder etwas anderes.

Es geht, um es in der Sprache der Statistiker auszudrücken, um Korrelationen - um Verbindungen also, Zusammenhänge, die dem menschlichen Beobachter oft verborgen bleiben, weil er einfach nicht über die Kapazität verfügt, Milliarden von Datenbankeinträgen in Nullkommanichts nach irgendwelchen Auffälligkeiten zu durchkämmen. Computer können das, sie können es immer besser, weil auch die Algorithmen dafür besser werden. Doch sie sind nur Werkzeuge. Werkzeuge, die zum Guten wie zum Schlechten eingesetzt werden können.

Drei Thesen

Chance: Big-Data-Analyse verschafft Unternehmen ganz neue Erkenntnisse

Risiko: Die neuen Möglichkeiten können und werden missbraucht werden

Handeln: Die Bürger müssen gegen die Daten-Diktatur aufbegehren

Mediziner etwa versprechen sich enorm viel von Big Data. Der Arzt kann nicht alle Studien zu einem Thema kennen und auch nicht alle seltenen Krankheiten, der Computer schon. Mit Datenanalyse lassen sich sogar Grippewellen erkennen, wenn sie gerade erst entstehen, wie Datenspezialisten von Google gezeigt haben. Für ihr Projekt "Flu Trends" hatten die Datenexperten dabei nicht bloß erfasst, wann die Nutzer wo nach typischen Grippe-Symptomen gegoogelt hatten. Nein, sie forsteten viel mehr Such-Daten nach Auffälligkeiten durch, die sich auf die eine oder andere Weise mit einer kurz danach auftretenden Grippewelle in Verbindung bringen ließen. Und sie waren damit den Gesundheitsbehörden zeitlich weit voraus.

Diesen Tsunami kann man nicht aufhalten

Das ist genau das Spannende an Big Data: Je mehr Daten nach eher abstrakten und unvoreingenommenen Kriterien durchsucht werden, desto höher ist die Chance, auf bisher unentdeckte Zusammenhänge zu stoßen. Wo gibt es Auffälligkeiten, wo gibt es Häufungen? In vielen Firmen schlummern ungehobene Schätze, Daten, die nicht stromlinienförmig genug sind, um sie sofort als Grafik anzuzeigen, die aber zum Beispiel helfen können, die Kundenbeziehungen zu verbessern.

Was Konzerne wie Google, wie Facebook, aber auch Werbe-Unternehmen, deren Namen nur Experten etwas sagen, was all diese Firmen, was Staaten und ihre Geheimdienste an Daten sammeln, speichern und analysieren, gibt ihnen, die sie über diese Daten verfügen, schon heute immense Möglichkeiten an die Hand. Diese werden - so viel lehrt einen die Menschheitsgeschichte - garantiert missbraucht werden. Von totalitären Staaten ohnehin, von profitgetriebenen Firmen auch. Und von demokratisch verfassten Staaten unter Vorwänden wie etwa dem Kampf gegen den Terrorismus - wenn der Souverän, der Bürger also, nicht dagegen aufbegehrt. Aber wird er das tun?

Es ist ja so abstrakt, so schwer fassbar, was hier geschieht. Zwar hängt ein beträchtlicher Teil des Finanzwesens schon heute am Tropf der schnellen Computer, die in Millisekunden mit Milliarden jonglieren. Versicherungen planen Tarife, die das erfasste Verhalten beim Autofahren, bei der Gesundheitsvorsorge einbeziehen, Versandhändler kennen unsere geheimen Wünsche besser als wir selber. Aus Twitter-Botschaften lassen sich politische Einstellungen und vieles mehr destillieren. Sogar potenzielle Straftäter werden bereits vorbeugend mittels Datenanalyse identifiziert. Längst also ist die Technologie eingesickert in unser Leben, ist in manchen Wirtschaftszweigen schon unverzichtbar.

Ein Unbehagen verspüren dabei viele, doch eigentlich müsste da mehr sein: keine diffuse Angst, sondern begründete Vor-Sicht. Abseits von Fachkreisen aber wird darüber noch viel zu wenig diskutiert, weder in der Gesellschaft noch in der Politik, geschweige denn gehandelt.

Der Daten-Tsunami rollt. Diesen Tsunami kann man nicht aufhalten, aber vielleicht noch so lenken, dass er nicht am Ende die in Jahrhunderten unter großen Opfern errungenen Freiheitsrechte mit sich fortreißt. Der erste Schritt wäre, sich bewusst zu werden, was in der Welt der surrenden Rechenzentren gerade geschieht. Auch die sind letztlich nur Werkzeuge, und es wird darauf ankommen, wie sie eingesetzt werden.

Zur SZ-Startseite

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: