Metadaten Was die Kreditkarte verrät

Illustration: Stefan Dimitrov

  • Selbst große anonymisierte Datensätze bieten unter Umständen nur wenig Schutz, berichten Forscher im Fachmagazin Science.
  • Die Wissenschaftler analysierten "einfach anonymisierte" Kreditkartentransaktionen von 1,1 Millionen Menschen über einen Zeitraum von drei Monaten hinweg.
  • Anhand weniger Anhaltspunkte - wo jemand seinen Kaffee trank oder ins Restaurant ging etwa - konnten die Forscher die meisten Personen in der Datenbank reidentifizieren.
Von Christoph Behrens

Die Forscher blickten auf einen Heuhaufen. Die Kreditkartendaten von 1,1 Millionen Menschen hatte ihnen eine Bank ausgehändigt, dazu alle Einkäufe, die diese Personen in drei Monaten getätigt hatten. Wann sie wo einkaufen waren und wie viel sie dabei ausgeben hatten. Doch die scheinbar wichtigsten Informationen fehlten: Die Namen hatte die Bank aus dem Datensatz getilgt, ebenso die Kreditkartennummern und die erworbenen Produkte. Nur eine Codenummer repräsentierte den Karteninhaber in der Datenbank. Es schien also unmöglich zu sein, über einzelne Einkäufe auf die Person dahinter zu schließen. Die Forscher wollten es dennoch wissen: Wie viele Informationen sind nötig, um die Kreditkarteninhaber in diesem Wust aus anonymisierten Ziffern und Zahlen eindeutig zu identifizieren?

Tatsächlich nur sehr wenige, berichtet ein Forscherteam um Yves-Alexandre de Montjoye vom Massachusetts Institute of Technology (MIT). Lediglich vier Datenpunkte reichten in den meisten Fällen aus, schreiben sie in der aktuellen Ausgabe des Fachmagazins Science, um eine Person in der Datenbank eindeutig zu identifizieren. Wenn man etwa das Konsumverhalten eines Freundes durchleuchten will, so genügen dafür also sehr einfache Grundkenntnisse - etwa, wo er am Montag seinen Kaffee gekauft hat, am Dienstag im Restaurant war, Mittwoch im Kino und Donnerstag im Baumarkt. An denselben Tagen waren vermutlich Hunderte andere auch in diesen Läden, doch nur ein Einziger war an allen Tagen in allen davon.

Vier Informationsschnipsel reichten den Forschern in 90 Prozent der Fälle, um den Codenamen in der Datenbank einer Person zuzuordnen und so ihr weiteres Konsumverhalten einfach ablesen zu können. Auch wenn man nur das Stadtviertel kenne anstatt den Namen des Geschäfts, sei die "Re-Identifikation" mit einigen Datenpunkten möglich.

GPS-Daten von New Yorker Taxifahrern zeigten, wer in den Stripclub fuhr

Die Studie wirft ein Schlaglicht darauf, wie leicht sich der Schutz der Anonymisierung aushebeln lässt, selbst wenn der digitale Fingerabdruck nur blass ist. Zwar wissen die Forscher selbst, dass die wenigsten Menschen Zugriff auf solche sensiblen finanziellen Datensätze haben. Darum gehe es jedoch auch gar nicht, sagt Leitautor de Montjoye. "Unser Ziel ist es, die unteren Grenzen zu zeigen, um diese Art von Metadaten zu analysieren."

Denn was mit Kreditkarteninformationen funktioniert, klappt wohl auch mit anderen "Metadaten" - so heißen diejenigen Informationen, die nicht den Inhalt selbst betreffen, sondern nur dessen Umstände. Etwa, wann jemand eine bestimmte Telefonnummer gewählt hat, nicht aber, was im Gespräch gesagt wurde. Ähnlich einfach ist es demnach, aus GPS-Daten auf Personen zu schließen: So hat de Montjoye in einer früheren Arbeit die Ortungsdaten von 1,5 Millionen Smartphonenutzern über einen Zeitraum von 15 Monaten analysiert - die Informationen, die etwa Google Maps nutzt, um die eigene Position auf der Karte zu bestimmen. Auch hier reichten vier Angaben, wo sich jemand zu einer bestimmten Stunde aufgehalten hatte, um 95 Prozent der Personen eindeutig zu identifizieren (Scientific Reports, online).

Die menschlichen Mobilitätsspuren seien "höchst einmalig", schreiben die Forscher. Die Wissenschaftler vermuten, dass sich das Gleiche auch für andere Arten der Mobilität zeigen lässt, etwa im Internet über den Browserverlauf. Gerade Ortungsdaten werden häufig zu Werbezwecken weiterverkauft, Google nutzt sie zudem, um in Echtzeit Verkehrsinformationen zu sammeln.

Verknüpfung von Datenbanken als neue Herausforderung

"Heute sind mehr Alltagsvorgänge mit einer Datenerhebung verbunden als noch vor wenigen Jahren", sagt eine Sprecherin der Bundesdatenschutzbeauftragten Andrea Voßhof. "Auch wenn Daten scheinbar ohne Personenbezug sind, kann dieser oft mit relativ geringem Aufwand wiederhergestellt werden." Wie aktuell dieses Problem ist, zeigt ein Beispiel aus New York. Vergangenes Jahr musste die Stadt Daten über 173 Millionen Taxifahrten veröffentlichen. Ein Blogger hatte dies mit einem "Freedom of Information Act Request" von den Behörden erzwungen, dem US-Pendant zum deutschen Informationsfreiheitsgesetz. Obwohl nirgendwo stand, wer in dem Taxi unterwegs war, kamen Hacker den Insassen schnell auf die Spur. Indem sie die Ortungsdaten mit bekannten Adressen etwa von Prominenten verknüpften, konnten sie deren Ausflüge leicht nachvollziehen - darunter Fahrten in den nächsten Stripclub, die kaum in die Öffentlichkeit gelangen sollten.

Die derzeitige Rechtslage in den USA und in Europa sei kaum ausreichend, um die Privatsphäre in solchen Metadaten-Sätzen zu schützen, schließen die MIT-Forscher. "Die große Herausforderung ist", sagt de Montjoye, "dass es sich nicht mehr nur um einzelne Datenbanken handelt, sondern dass Firmen einzelne Datenbanken miteinander verknüpfen." Gerade aus dieser Verknüpfung großer Informationsmengen entstünden ganz neue datenschutzrechtliche Schwierigkeiten.