Twitter-Studie: Was Metadaten über Nutzer verraten

Bei manchen Forschungen erschüttert die Beiläufigkeit, mit der Ausgangsmaterial und Grundlagen dargelegt werden, fast noch mehr als die daraus gewonnenen Erkenntnisse. Etwa bei der Arbeit, die gerade am Alan Turing Institute des University College in London entstanden ist. " You are your Metadata: Identification and Obfuscation of Social Media Users using Metadata Information" ist sie betitelt.

Sie beschäftigt sich mit all dem, was Twitter an Informationen über seine Nutzer mitnimmt, wenn sie mit einem Tweet mutmaßlich nur 140 lustige Zeichen, inzwischen auch ein paar mehr, dort eingeben. Denn die Wissenschaftler erwähnen in ihren "Methoden", dass der Mikroblogging-Dienst mit Sitz in San Francisco "unabhängig von den 140 Zeichen, die der Nutzer eingibt, mit jedem Tweet 144 obskure Datenfelder befüllt", die ihn eindeutig identifizierbar machen.

DSGVO
:Das hat sich beim Datenschutz geändert

Abmahnungen, Blogsterben, Fotografie-Verbot: Die Ängste vor den neuen Datenschutz-Regeln, die seit einem Monat gelten, waren groß. Aber sind sie auch wahr geworden?

Und es sind diese Metadaten, nicht der Inhalt der Tweets, die den twitternden Nutzer kenntlich machen und für die Firma Gold wert sind. Der Account, von dem getwittert wurde, Zeit und Ort des Posts, Erwähnungen im Post, Links, Hashtags, Anzahl der Views und Retweets sind nur die offensichtlichsten von ihnen. Dieses Netz an Metadaten ist so dicht gewebt, dass es den britischen Forschern frappierend leicht fiel, nur daraus die Identitäten der Twitternutzer zu ermitteln.

Selbst wer versucht, anonym zu bleiben, wird identifiziert

Dazu setzte die Untersuchung Maschinenlernsysteme ein, die, ausgehend von einem antrainierten Datenumfang von fünf Millionen Twitter-Posts, einen individuellen Nutzer anhand der Zusatzdaten seiner neuen Tweets nahezu sicher identifizierten. "Wir konnten anhand der Metadaten jeden von 10 000 Nutzern mit einer Genauigkeit von 96,7 Prozent identifizieren."

Das funktionierte erschreckenderweise auch, wenn diese Nutzer im Inhalt ihrer Mitteilungen Anstrengungen unternahmen, anonym zu bleiben. Selbst wenn die Forscher 60 Prozent der Metadaten durcheinanderwirbelten, war es dem eingesetzten System möglich, die Urheber mit 90- prozentiger Sicherheit zu identifizieren.

Beatrice Perez, eine der beteiligten Wissenschaftlerinnen, hat Wired gegenüber erläutert, warum "wir Metadaten sind". Kein vernünftiger Mensch würde ja einem Wildfremden auf der Straße eingestehen, wann er in seinem Schlafzimmer das Licht ausmache, online tut er das aber schon: "Und das ist leider die Mentalität mit Metadaten", sagt sie, "die Leute glauben, das sei bloß online. Aber sobald ich diese Information mit den Meta-Informationen koppele, weiß ich genau, wann du zu Hause bist." Ein weiteres Resultat der Studie liegt da fast schon auf der Hand: Ihre Ergebnisse gelten für alle soziale Medien, die ähnliche Metadatenberge erheben.