Digitale Rasterfahndung Wie US-Behörden bei Facebook und Twitter schnüffeln

FBI, Pentagon und US-Heimatschützer durchkämmen systematisch Twitter und Facebook. Eigentlich suchen sie Terroristen, doch sie verhaften auch harmlose Touristen.

Von Alexander Stirn

Leigh Van Bryan wollte nur ein bisschen Spaß haben. Gar keinen Spaß verstand dagegen das amerikanische Heimatschutzministerium: Unmittelbar nachdem Van Bryan Ende Januar in Los Angeles gelandet war, nahmen Beamte den irischen Touristen in Gewahrsam. Sie verhörten ihn, durchsuchten ihn, steckten ihn in eine Zelle. Am nächsten Tag saß Van Bryan schon wieder im Flugzeug nach Europa. Zutritt verweigert. Kein Urlaub, kein Spaß.

Das offizielle Formular der Heimatschützer, von britischen Medien nach dem unfreiwilligen Rückflug veröffentlicht, erklärt warum: Der 26-Jährige habe vor seiner Reise nach Kalifornien im sozialen Netzwerk Twitter verkündet, er wolle "Amerika zerstören". Deshalb könne er nicht ins Land gelassen werden. Dass Van Bryans Formulierung ("I go and destroy America") in der britischen Umgangssprache auch einfach nur "Party machen" bedeuten kann, wollten die US-Beamten nicht gelten lassen.

Die unbedachte Äußerung war nur einer von täglich mehr als 250 Millionen Tweets. Dennoch blieb der Spruch nicht unbemerkt, und das offensichtlich aus gutem Grund: Seit vergangenem Jahr suchen US-Heimatschützer gezielt nach verräterischen Inhalten im globalen Datennetz. Das geht aus Dokumenten hervor, die Datenschutzaktivisten des amerikanischen Electronic Privacy Information Centers veröffentlicht haben. Die Regierung interessiert sich demnach nicht nur für Twitter. Öffentlich einsehbare Nachrichten auf Facebook werden ebenso durchkämmt wie die Blogs und die Kommentarspalten großer Nachrichtenseiten.

Ausweitung der Fahndung

In Zukunft soll die digitale Rasterfahndung sogar noch ausgeweitet werden: Sowohl das Pentagon als auch das FBI haben in den vergangenen Monaten Aufträge für eine eigene Webüberwachungstechnik ausgeschrieben. Den staatlichen Schnüfflern geht es dabei nicht nur um das Aufspüren potentieller Terroristen. Sie wollen auch erfahren, wie sich Unruhen oder Krankheiten ausbreiten - und wie politische Ideen ihren Siegeszug in den Tiefen des Webs antreten. Welche Schnüffelmethoden zum Ziel führen sollen (oder bereits führen), behalten die Behörden allerdings lieber für sich.

Wissenschaftler sind da weniger verschwiegen. "Das Zusammenspiel von Informatik und nationaler Sicherheit ist ein Bereich, in dem wir in den vergangenen fünf bis sechs Jahren große Fortschritte gemacht haben", sagt zum Beispiel Hsinsun Chen, Direktor des Labors für künstliche Intelligenz an der Universität von Arizona. Die Zeiten, in denen simple Suchbegriffe (wie "Amerika zerstören") Beachtung fanden, sind demnach vorbei. Wenn Chen Dokumente analysiert, sondieren seine Algorithmen 418 verschiedene Eigenschaften.

Allein 262 Merkmale betreffen die Syntax der Sätze. Eigenheiten bei der Zeichensetzung werden ebenso ermittelt wie Anzahl und Anordnung der sogenannten Funktionswörter - Pronomen, Präpositionen, Artikel und Hilfsverben erlauben Rückschlüsse auf die Denkweise des Verfassers. Zudem untersuchen die Programme den Reichtum des Wortschatzes, die Länge der Wörter und die Häufigkeit einzelner Buchstaben. Selbst die Farbe der Schrift bleibt nicht unberücksichtigt. Der eigentliche Inhalt des Textes wird dagegen nur auf 15 Merkmale hin abgeklopft. Dazu gehören Begriffe, die gewalttätige Aktionen erahnen lassen.

Mit Hilfe dieser Informationen versuchen wir zu ergründen, welche Idee hinter einem Text steckt - also welche Emotionen, Meinungen, Themen", sagt Chen. Statistische Modelle, die die im Web ermittelten Merkmale mit den Eigenschaften bekannter Texte verglichen, berechnen dann die Gefahr, die von einem Autor ausgehen könnte. Gewaltbereite Terroristen nutzen beispielsweise mehr als doppelt so häufig Personalpronomen wie harmlose Autoren.

Zudem liefern die Algorithmen einen, wie Chen es nennt, "Schreibabdruck" - ein stilistisches Pendant zum Fingerabdruck. Er soll helfen, Meinungsführer ausfindig zu machen, die oftmals unter verschiedenen Pseudonymen im Netz unterwegs sind und großen Einfluss auf ihre Leser ausüben. Fünf bis zehn Texte sind nötig, um einen aussagekräftigen Schreibabdruck eines Autors zu erstellen. Die Identifikation läuft dann deutlich reibungsloser ab: In Tests konnten englischsprachige Autoren in 95 Prozent der Fälle korrekt ermittelt werden, im Chinesischen und Arabischen lag die Quote bei 92 Prozent. "Da bei Übersetzungen Kontext und Emotionen verlorengehen können, müssen wir Texte stets im Original analysieren", sagt Chen.

Fast zehn Milliarden Dokumente haben die Forscher mittlerweile in ihrer Datenbank gesammelt - automatisch zusammengetragen aus mehr als 10.000 Blogs und Nachrichtenseiten. Im nächsten Schritt sollen nun auch soziale Netzwerke und die Kommentare unter Youtube-Videos untersucht werden.