9. März 2012, 17:35 Digitale Rasterfahndung Wie US-Behörden bei Facebook und Twitter schnüffeln

FBI, Pentagon und US-Heimatschützer durchkämmen systematisch Twitter und Facebook. Eigentlich suchen sie Terroristen, doch sie verhaften auch harmlose Touristen.

Von Alexander Stirn

Leigh Van Bryan wollte nur ein bisschen Spaß haben. Gar keinen Spaß verstand dagegen das amerikanische Heimatschutzministerium: Unmittelbar nachdem Van Bryan Ende Januar in Los Angeles gelandet war, nahmen Beamte den irischen Touristen in Gewahrsam. Sie verhörten ihn, durchsuchten ihn, steckten ihn in eine Zelle. Am nächsten Tag saß Van Bryan schon wieder im Flugzeug nach Europa. Zutritt verweigert. Kein Urlaub, kein Spaß.

Das offizielle Formular der Heimatschützer, von britischen Medien nach dem unfreiwilligen Rückflug veröffentlicht, erklärt warum: Der 26-Jährige habe vor seiner Reise nach Kalifornien im sozialen Netzwerk Twitter verkündet, er wolle "Amerika zerstören". Deshalb könne er nicht ins Land gelassen werden. Dass Van Bryans Formulierung ("I go and destroy America") in der britischen Umgangssprache auch einfach nur "Party machen" bedeuten kann, wollten die US-Beamten nicht gelten lassen.

Die unbedachte Äußerung war nur einer von täglich mehr als 250 Millionen Tweets. Dennoch blieb der Spruch nicht unbemerkt, und das offensichtlich aus gutem Grund: Seit vergangenem Jahr suchen US-Heimatschützer gezielt nach verräterischen Inhalten im globalen Datennetz. Das geht aus Dokumenten hervor, die Datenschutzaktivisten des amerikanischen Electronic Privacy Information Centers veröffentlicht haben. Die Regierung interessiert sich demnach nicht nur für Twitter. Öffentlich einsehbare Nachrichten auf Facebook werden ebenso durchkämmt wie die Blogs und die Kommentarspalten großer Nachrichtenseiten.

Ausweitung der Fahndung

In Zukunft soll die digitale Rasterfahndung sogar noch ausgeweitet werden: Sowohl das Pentagon als auch das FBI haben in den vergangenen Monaten Aufträge für eine eigene Webüberwachungstechnik ausgeschrieben. Den staatlichen Schnüfflern geht es dabei nicht nur um das Aufspüren potentieller Terroristen. Sie wollen auch erfahren, wie sich Unruhen oder Krankheiten ausbreiten - und wie politische Ideen ihren Siegeszug in den Tiefen des Webs antreten. Welche Schnüffelmethoden zum Ziel führen sollen (oder bereits führen), behalten die Behörden allerdings lieber für sich.

Wissenschaftler sind da weniger verschwiegen. "Das Zusammenspiel von Informatik und nationaler Sicherheit ist ein Bereich, in dem wir in den vergangenen fünf bis sechs Jahren große Fortschritte gemacht haben", sagt zum Beispiel Hsinsun Chen, Direktor des Labors für künstliche Intelligenz an der Universität von Arizona. Die Zeiten, in denen simple Suchbegriffe (wie "Amerika zerstören") Beachtung fanden, sind demnach vorbei. Wenn Chen Dokumente analysiert, sondieren seine Algorithmen 418 verschiedene Eigenschaften.

Allein 262 Merkmale betreffen die Syntax der Sätze. Eigenheiten bei der Zeichensetzung werden ebenso ermittelt wie Anzahl und Anordnung der sogenannten Funktionswörter - Pronomen, Präpositionen, Artikel und Hilfsverben erlauben Rückschlüsse auf die Denkweise des Verfassers. Zudem untersuchen die Programme den Reichtum des Wortschatzes, die Länge der Wörter und die Häufigkeit einzelner Buchstaben. Selbst die Farbe der Schrift bleibt nicht unberücksichtigt. Der eigentliche Inhalt des Textes wird dagegen nur auf 15 Merkmale hin abgeklopft. Dazu gehören Begriffe, die gewalttätige Aktionen erahnen lassen.

Mit Hilfe dieser Informationen versuchen wir zu ergründen, welche Idee hinter einem Text steckt - also welche Emotionen, Meinungen, Themen", sagt Chen. Statistische Modelle, die die im Web ermittelten Merkmale mit den Eigenschaften bekannter Texte verglichen, berechnen dann die Gefahr, die von einem Autor ausgehen könnte. Gewaltbereite Terroristen nutzen beispielsweise mehr als doppelt so häufig Personalpronomen wie harmlose Autoren.

Zudem liefern die Algorithmen einen, wie Chen es nennt, "Schreibabdruck" - ein stilistisches Pendant zum Fingerabdruck. Er soll helfen, Meinungsführer ausfindig zu machen, die oftmals unter verschiedenen Pseudonymen im Netz unterwegs sind und großen Einfluss auf ihre Leser ausüben. Fünf bis zehn Texte sind nötig, um einen aussagekräftigen Schreibabdruck eines Autors zu erstellen. Die Identifikation läuft dann deutlich reibungsloser ab: In Tests konnten englischsprachige Autoren in 95 Prozent der Fälle korrekt ermittelt werden, im Chinesischen und Arabischen lag die Quote bei 92 Prozent. "Da bei Übersetzungen Kontext und Emotionen verlorengehen können, müssen wir Texte stets im Original analysieren", sagt Chen.

Fast zehn Milliarden Dokumente haben die Forscher mittlerweile in ihrer Datenbank gesammelt - automatisch zusammengetragen aus mehr als 10.000 Blogs und Nachrichtenseiten. Im nächsten Schritt sollen nun auch soziale Netzwerke und die Kommentare unter Youtube-Videos untersucht werden.

Das Ganze ist allerdings noch mit vielen Herausforderungen verbunden", warnt Nigel Collier, Computerlinguist am Nationalen Institut für Informatik in Japan. Statt nach Terroristen sucht er im Web nach Krankheiten, genauer gesagt nach deren Ausbreitung. Er begibt sich dabei auf die Spuren von Google: Der Suchmaschinenanbieter registriert bereits seit einigen Jahren, in welchen Ländern beispielsweise oft nach Begriffen wie "Grippe" und den damit verbundenen Symptomen gegoogelt wird. Mit Hilfe dieser Daten erstellt das Unternehmen automatisch eine Karte möglicher Epidemie-Herde.

Eine Reihe von Forschergruppen versucht, diesen Ansatz nun auf eine breitere Datenbasis zu stellen - darunter auch Collier, mit einem Projekt namens Biocaster. "Eines der großen Probleme ist die Menge an Daten, die wir in Echtzeit bearbeiten müssen", sagt der Informatiker. Allein die von Collier beobachteten Webseiten und Newsletter bringen es an einem durchschnittlichen Tag auf etwa 27 000 Dokumente. Hinzu kommt der beinahe unüberschaubare Datenfluss aus den sozialen Netzwerken.

Aus diesem Wust ermittelt das Programm zunächst die Dokumente, in denen es tatsächlich um Krankheiten geht. Es sortiert doppelt gemeldete Fälle aus und erkennt die ernstzunehmenden Bedrohungen. Am Ende sollen nicht mehr als vier oder fünf Warnungen pro Tag aufkommen. Im Gegensatz zu den Terrorismusforschern aus Arizona setzt Collier dabei auf ein System, das Linguisten eine Ontologie nennen: Im Zentrum von Biocaster steht eine Begriffswelt, in der die Bezeichnungen, Symptome, Pathogene und sprachlichen Zusammenhänge für 300 unterschiedliche Krankheiten verzeichnet sind - ausgearbeitet in zwölf verschiedenen Sprachen.

Das "Bieber Fever" grassiert

Da wir es oft mit neuen Krankheiten zu tun bekommen, muss dieses System allerdings lernfähig sein und sich an aktuelle Entwicklungen anpassen", sagt Collier. Es darf auch nicht zu wahllos vorgehen: Wenn der kanadische Teenie-Star Justin Bieber mal wieder Schlagzeilen macht und bei Twitter das "Bieber Fever" grassiert, darf der Alarm-Algorithmus den Starkult nicht mit einem Virenausbruch verwechseln. "Wir wollen schließlich niemand nachts um zwei wegen dieser neuen Krankheit aus dem Bett holen", sagt Collier und schmunzelt.

Schwierigkeiten machen auch noch Krankheiten, die sich wie die Schweinegrippe langsam von Land zu Land ausbreiten. Sie generieren zwar eine große Menge an Nachrichten, es fehlen aber die charakteristischen Aufmerksamkeitsspitzen einer lokalen Epidemie. Und manchmal weist die Biocaster-Software in die Irre, so wie kürzlich bei den jüngsten Krankenhauskeimen in Bremen. Dazu hatten sich viele Bundespolitiker und Behörden geäußert, daher verortete die Software den Ausbruch in Berlin. Dennoch ist Collier ganz zufrieden: Ein Vergleich berechneter Warnungen mit Daten der US-Seuchenbehörde habe ermutigende Ergebnisse geliefert.

Sein Kollege Filippo Menczer von der Indiana University setzt dagegen lieber auf Kontakte statt auf Inhalte. Menczer will wissen, wie sich Ideen in sozialen Netzwerken breitmachen - allen voran in Twitter. Dazu ermittelt er, wie oft einzelne Tweets von anderen Menschen weiterverbreitet oder kommentiert werden, Twitter-Nutzer sprechen dabei in der Regel von "Retweets" beziehungsweise "Mentions".

Ob jemand Demokrat oder Republikaner ist, lässt sich zum Beispiel allein daran erkennen, wessen Nachrichten er retweetet", sagt Menczer. Das amerikanische Zwei-Parteien-System führe dazu, dass Nachrichten aus dem einen Lager auch vorwiegend innerhalb dieser Gruppe weiterverbreitet werden; zu Tweets der gegnerischen Seite gibt es dagegen allenfalls spöttische Kommentare. Das reicht, um die parteipolitische Präferenz eines Nutzers mit einer Sicherheit von 95 Prozent vorherzusagen. Die Analyse des Inhalts von Tweets erreicht nur eine Trefferwahrscheinlichkeit von 91 Prozent.

"Truthy", wie Menczer sein Programm nennt, kann auch ermitteln, ob Trends in sozialen Netzwerken eine breite Basis haben oder ob sie bewusst von Parteien gestartet wurden, zum Beispiel, um den politischen Gegner mit Schmutz zu bewerfen. Da die Aufmerksamkeit für solch eine Verleumdungskampagne nur mit Twitter-Konten erreicht werden kann, die sich ständig gegenseitig retweeten, fällt die Konstellation in der "Truthy"-Analyse sofort auf. "Wir können solche Fälschungen mit einer Sicherheit von mehr als 95 Prozent ermitteln", sagt Menczer.

Gerade erst hat ihm die Forschungsabteilung des Pentagons dafür zwei Millionen Dollar zur Verfügung gestellt. Die staatlichen Schnüffler interessiert allerdings nicht nur, welche politischen Ansichten die Bürger haben und welche aufrührerischen Ideen echt sind. Die Ausschreibungen von Pentagon und FBI zeigen noch ein weiteres Ziel: Die beiden Organisationen wollen auch wissen, wie sie im Web gezielt Stimmung machen können - und zwar, ohne dabei selbst enttarnt zu werden.