Künstliche Intelligenz Sie sehen uns

Nach jedem Terroranschlag werden Rufe nach mehr Videoüberwachung laut. Dabei können Kameras schon viel zu viel.

Von Michael Moorstedt

Ein bleigrauer Himmel liegt über London und der Verkehr fließt zäh über die Westminster Bridge. Dann zieht auf der Brücke ein grauer Hyundai SUV links an einem Doppeldeckerbus vorbei auf den Bürgersteig und rast in eine Gruppe Fußgänger. Das Auto beschleunigt erneut. Ein Körper stürzt in die Themse, während der Wagen links aus dem Bild verschwindet.

42 Sekunden lang dauert die Aufnahme des Terroranschlags, bei dem vier Menschen getötet wurden und mehr als 40 verletzt. Man muss nicht besonders abgebrüht sein, um sich das Video der Tat anzusehen, das eine Überwachungskamera von der Tat aufgezeichnet hat und das nun auf Youtube kursiert. Denn die Aufnahmen sind viel zu schlecht und grobkörnig, der Standort der Kamera zu weit entfernt.

Nach Anschlägen wie jenem von London und in einer U-Bahn in St. Petersburg, wie möglicherweise am gestrigen Freitag in Stockholm versuchen die Ermittler, die Wege der Attentäter nachzuzeichnen. Polizisten analysieren dafür die Kameraaufnahmen rund um die Tatorte. Großbritannien im allgemeinen und die Stadt London im Speziellen gehören zu den am häufigsten gefilmten Gegenden der Welt. Schätzungen zufolge kommt eine Überwachungsanlage auf etwa 14 Briten. Auch in

Russland wird der öffentliche Raum aufwendig überwacht. Allein in den U-Bahnhöfen Sankt Petersburgs sind mehr als 3000 Kameras installiert.

Die britischen Kameras produzieren mehr als eine Milliarde Stunden Videomaterial pro Jahr, nicht einmal ein Prozent dieser Aufnahmen würden jemals analysiert, heißt es. Videoüberwachung, schreibt der Kulturwissenschaftler Dietmar Kammerer in seiner Studie "Bilder der Überwachung", sei so gesehen keine "Maschine zur Bildproduktion, sondern zur Bildvernichtung. Immer auf der Suche nach dem ,Bild', dem entscheidenden Hinweis, in dem sich alles verdichtet, produziert sie unablässig Bildabfall, der nie betrachtet wird."

Dennoch ist die Überwachung eine vertraute sicherheitspolitische Forderung und genauso vertraut sind die Vorhaltungen der Datenschützer, die vor "Kamerawildwuchs" und bevorstehenden "orwellschen Zeiten" warnen.

Computer können heute zwischen Labrador und Golden Retriever unterscheiden

Als Reaktion auf die Anschläge von Ansbach, Berlin und Würzburg sowie den Amoklauf von München im vergangenen Jahr hat die Bundesregierung Mitte März von der Öffentlichkeit weitgehend unbemerkt das recht prägnant benannte Videoüberwachungsverbesserungsgesetz verabschiedet. Mehr Objektive, an mehr Orten, mit mehr Befugnissen gehören zum Maßnahmenkatalog. So weit, so bekannt.

Doch die Kameras werden in Zukunft gänzlich anders funktionieren, als man es bislang gewohnt ist. Zusammen mit Bahn und Bundespolizei plant das Innenministerium ein Pilotprojekt für intelligente Videoüberwachung am Berliner Bahnhof Südkreuz. Ein System aus intelligenten Kameras, die Taschendiebe oder Terroristen erkennen und Alarm schlagen, soll so entstehen. Gesichtserkennung gehört ebenso zu diesem Leistungsspektrum wie die Bewegungsmusteranalyse. "Es geht uns um Situationen und Prozesse", sagt ein Sprecher der Bahn. Die Technik liegt Bundesinnenminister Thomas de Maizière sehr am Herzen. Immer wieder hat er ihren Einsatz gefordert. Nun sieht es so aus, als solle er sie bekommen. Ein Testlauf ist noch in diesem Jahr geplant.

Viele Länder sind freilich schon viel weiter. Seit Jahren laufen EU-Forschungsprojekte mit gar nicht mal so verklausulierten Namen wie INDECT oder P-REACT, die Videoüberwachung in der einen oder anderen Form automatisierbar machen sollen. Derweil versprechen auch Privatfirmen wie Crowdvision, Seequestor oder Cloudview neue Bilder. Nicht mehr verpixelt und abgehackt, sondern in 360-Grad-Perspektive, ultrahoher Auflösung und vor allem automatisch ausgewertet.

Die starken Markennamen scheinen zu halten, was sie versprechen. Crowdvision analysiert für sämtliche Londoner Flughäfen die Besucherströme, Seequestor kooperiert mit mehreren britischen Polizeibehörden.

Der Wunsch nach einer Automatisierung der Überwachung ist nicht neu. Bereits 2006 testete das Bundeskriminalamt ein Gesichtserkennungsprogramm am Mainzer Hauptbahnhof. Die Ergebnisse waren ernüchternd. Auch bei idealen Bedingungen lagen die Erkennungsraten von Gesichtern bei zehn bis 20 Prozent, mit Anbruch der Dämmerung sank die Leistung des Systems fast auf Null. Selbst bei Datenschützern verkam das High-Tech-Projekt zur Lachnummer.

Seitdem hat sich im Forschungsbereich namens Computer Vision enorm viel getan. Bilderkennung galt unter Computerwissenschaftlern lange Zeit als Königsdisziplin. Für Programme, die auf strikte Beschreibungen und korrekte Maschinensyntax angewiesen sind, waren Fotos und viel mehr noch Videos bisher einfach zu unübersichtlich. In jüngster Zeit verzeichnet das Forschungsfeld dank weiter entwickelter Technologien wie neuronaler Netzwerke jedoch Durchbrüche.

Für die Arbeit, die heute eine Gratis-App erledigt, benötigte man vor ein paar Jahren noch einen veritablen Supercomputer. Und selbst der konnte nicht einmal Hunde und Katzen auseinanderhalten. Heute unterscheidet das weiterentwickelte Programm problemlos zwischen Labrador und Golden Retriever. Und die vor kurzem vorgestellte Cloud Video Intelligence von Google kann ein Video sogar in Echtzeit annotieren. Die Software gibt auch an, zu viel Prozent sie sich sicher ist, dass der gemeldete Gegenstand oder die erkannte Person auch tatsächlich zu sehen ist.

Die Systeme sind nicht fehlerfrei. Aber sie lernen mit beängstigendem Tempo

Noch weiter geht das chinesische Start-Up Deep Glint. "Wir wollen es Computern ermöglichen, die Welt genauso zu sehen und zu verstehen, wie es auch Menschen tun", sagt Gründer Bofei He. Er plant ein Netzwerk von Sensoren, die alles aufzeichnen und digitalisieren, was um sie herum geschieht. Es wäre nicht weniger als eine Suchmaschine für die echte Welt. Einen ähnlichen Ansatz verfolgt auch Yann LeCun, bei Facebook Direktor des Forschungsprogramms für künstliche Intelligenz (KI). Er ist überzeugt davon, dass ein KI-System durch bloßes Betrachten verstehen kann, wie die Welt funktioniert. Momentan sei seine Forschungsgruppe sehr daran interessiert, ob ein solches lernendes System womöglich auch Vorhersagen über die Zukunft treffen könnte. Man würde ihm ein paar Videobilder zeigen, und es könnte wissen, was daraufhin passieren wird.

Das automatisierte Sehen wird es im übrigen wohl bald auch in nicht waffenfähiger Form geben. Die israelische Firma Briefcam wirbt mit einem System, das jeder Wohnungsbesitzer installieren kann. Er bekommt demnach Warnungen auf sein Smartphone geschickt, wenn die verwirrte Großmutter nachts über die Flure irrt oder sich der Teenager-Sohn sich am Spirituosenschrank zu schaffen macht. Die Kamera weiß immer genau, wer wo wann ist.

Doch noch immer sind die Systeme nicht fehlerfrei. Seit Ende 2015 hat die Universität von Washington einen Wettbewerb unter dem Titel "Megaface" ausgeschrieben. Damit will sie herausfinden, wie die Gesichtserkennungsalgorithmen im globalen Maßstab zurechtkommen. Statt ein paar Tausend Portraits unter Laborbedingungen umfasst die Datenbank eine knappe Million Gesichter, die so wild fotografiert wurden, wie es heutzutage nun einmal üblich ist. Die Erkennungsquote der beiden Führenden, Googles Facenet V8 und eines Algorithmus des russischen Start-Ups NTechLab, kommen auf etwas mehr als 70 Prozent.

Wenn nun aber schon ein Gesicht mit eindeutigen biologischen Markern die Software an ihre Grenzen bringt, wie wird ein Rechner erst die vielfältige Ambivalenz in der echten Welt interpretieren? Für einen Computer könnte eine Umarmung vor dem gleich abfahrenden ICE aussehen wie eine Schlägerei. Wer den Bahnsteig entlang hetzt, um den Zug zu erwischen, wird eventuell als auf der Flucht gekennzeichnet.

Wie wird also ein Leben aussehen in Zeiten der intelligenten Kameras, in denen man nicht nur ständig beobachtet, sondern auch ständig bewertet wird? Die Technik ist nicht aufzuhalten, so viel steht fest. Vielleicht wird man auch in der echten Welt so leben, wie man schon jetzt die eigene Ego-Performance in die sozialen Medien projiziert. Es gilt dann, nur die bestmögliche Version seiner selbst in die Welt auszustrahlen. Aber nicht, um möglichst viele Affekte in Form von Likes und Retweets einzuheimsen, sondern um sich möglichst unverdächtig zu verhalten. Das ähnelt dann schon erstaunlich dem Ideal- und Endpunkt der Videoüberwachung, wie ihn Dietmar Kammerer beschreibt: "Auf Monitoren, vor denen niemand mehr sitzt, flimmern Bilder, die sich niemand mehr anschauen muss, von leeren Schauplätzen, auf denen absolut nichts passiert." Perfekte Übersicht, Ruhe und Ordnung.

Eine alte Dystopie droht Realität zu werden. "Jetzt nehmen mich die Gegenstände wahr", schrieb der französische Philosoph Paul Virilio in seinem 1988 erschienenen Aufsatz "Die Sehmaschine". Dort heißt es, eine neue technologische Disziplin ermögliche ein "Sehen ohne Blick", durch den Computer werde "die Analyse der objektiven Realität an eine Maschine" delegiert.

Visionik nannte Virilio die damals nur theoretisch vorstellbare automatische Interpretation der Ereignisse. Dass diese "Automatisierung der Wahrnehmung" nun schlicht Computer Vision heißt, ändert nichts an Paul Virilios Fazit: Man werde Mühe haben, "sich die synthetische Betrachtungsweise vorzustellen, den Wachtraum einer Population von Objekten, die uns anstarren".