Das Problem mit den Falsch-Positiven

Zunehmend setzen Sicherheitsbehörden Software ein, um Verdächtige zu erkennen. Dabei geraten auch jede Menge Unschuldige ins Visier der Ermittler. Schuld ist die Mathematik.

4 Minuten Lesezeit

von Christian Endt und Vanessa Wormer

"Projekt zur Gesichtserkennung erfolgreich". Das ist der Titel einer Pressemitteilung der Bundespolizei vom 11. Oktober 2018. Zuvor hatte die Behörde ein Jahr lang am Berliner Bahnhof Südkreuz Kameras und Algorithmen getestet, die Passanten filmen und an Hand von gespeicherten Bildern automatisch die Gesichter von Verdächtigen identifizieren sollten.

Die Polizei verkaufte den Versuch als Erfolg mit einer Zahl aus dem Abschlussbericht: Dort ist von einer "durchschnittlichen Trefferquote von mehr als 80 Prozent" die Rede. Damit ist gemeint, dass das System von fünf erfassten und gesuchten Personen vier erkannt hat. Klingt erst einmal nach einem gut funktionierenden System. Doch die Zahlen können täuschen. Die allermeisten Personen, die die Software als Treffer einstuft, sind in Wahrheit komplett unverdächtig.

Der Wert reicht für sich genommen aber bei weitem nicht aus, die Qualität solcher Systeme zu beurteilen. Liest man sich den ganzen Abschlussbericht durch und rechnet ein bisschen nach, zeigt sich, wie problematisch Systeme sein können, die anlasslos große Bevölkerungsgruppen überwachen. 

Wie kann es sein, dass ein System trotz der anscheinend hohen Trefferquote von 80 Prozent so schlechte Ergebnisse liefert? Das liegt an einem Effekt, der in der Statistik mit dem Satz von Bayes erklärt werden kann.

Nehmen wir an, von 1000 überwachten Personen werden  fünf polizeilich gesucht .

Ein Algorithmus mit 80 Prozent Trefferquote würde vier  dieser Personen  erkennen.

Ein Algorithmus mit 80 Prozent Trefferquote würde vier  dieser Personen  erkennen.

Zugleich gibt es aber immer auch eine gewisse Wahrscheinlichkeit für Falschtreffer. Liegt diese bei einem Prozent, werden in unserem Beispiel zehn Personen fälschlicherweise verdächtigt.

Zugleich gibt es aber immer auch eine gewisse Wahrscheinlichkeit für Falschtreffer. Liegt diese bei einem Prozent, werden in unserem Beispiel zehn Personen fälschlicherweise verdächtigt.

Von 14 Personen, die das System identifiziert hat, sind somit  nur 29 Prozent  tatsächlich verdächtig.

Kein Prognose-Algorithmus ist perfekt. 99 Prozent Sicherheit sind möglich, 100 Prozent sind bei komplexen Aufgaben unrealistisch – dazu müsste nicht nur die Software fehlerfrei arbeiten, sondern auch das zugrunde liegende Datenmaterial perfekt sein. Das bedeutet zweierlei: Erstens wird es immer wieder vorkommen, dass eine gesuchte Person nicht erkannt wird und unentdeckt bleibt. Zweitens passiert aber auch das Gegenteil: Eine eigentlich unverdächtige Person wird von der Software versehentlich als Treffer markiert. Man spricht hier von Falsch-Positiven. In der Realität, etwa an einem gewöhnlichen Bahnhof in einer deutschen Großstadt, kommen nämlich auf jede polizeilich gesuchte Person Hunderte oder Tausende völlig unverdächtige Personen.

In ihrem Feldversuch zur Gesichtserkennung gelang es der Bundespolizei, die Falschtrefferrate – also die Wahrscheinlichkeit, einen Unschuldigen irrtümlich als verdächtig einzustufen – auf unter 0,1 Prozent zu senken. Anhand dieses an sich niedrigen Wertes lässt sich nachrechnen, warum das System trotzdem zu bedenklichen Ergebnissen kommen kann. Laut Angaben der Deutschen Bahn reisen täglich 12,7 Millionen Menschen mit ihren Zügen. Wenn man davon ausgeht, dass Gesichtserkennung flächendeckend zum Einsatz kommt, könnte das System in Zukunft mehrere Millionen Fahrgäste täglich erfassen. Diesen Millionen Fahrgästen stehen ein paar Hundert gesuchte Straftäter gegenüber, die das System erkennen soll. Die Software erkennt dann zwar 80 Prozent der Straftäter, sie stuft aber eben auch täglich mehr als 12.000 unschuldige Personen als Verdächtige ein, wenn man 12 Millionen Bahnreisende und eine Falschtrefferrate von 0,1 Prozent zu Grunde legt. Das wiederum führt zu der absurden Situation, dass mehr als 99 Prozent der vermeintlichen Treffer des Systems gar keine sind.

Das ist das Problem an derartigen Systemen, die auf anlassloser Massenüberwachung fußen: Selbst bei sehr geringen Fehlerraten geraten ungleich viele Personen fälschlicherweise ins Visier der Fahnder. Solche Systeme sind zu unpräzise. Welche gesellschaftlichen Konsequenzen das haben kann, ist noch völlig unklar. Die automatische Gesichtserkennung zur Identifikation von Straftätern an Bahnhöfen ist nämlich nur ein möglicher Anwendungsbereich im Rahmen der Polizeiarbeit. Ein solches System könnte genauso gut für die Fluggastdaten zum Einsatz kommen, wodurch der fälschlicherweise verdächtigte Personenkreis weiter wächst.

Experten wie Informatik-Professor Florian Gallwitz von der Technischen Hochschule Nürnberg halten Systeme mit einer derart schlechten Falschtrefferrate deshalb für nicht einsatzfähig – auch wenn die Zahlen von Behörden als Erfolg verkauft werden. "0,1 Prozent Falschtrefferrate ist definitiv zu viel", sagt Gallwitz. Er hält es aber für realistisch, dass die Falschtreffer noch deutlich reduziert werden können, was auch im Abschlussbericht der Bundespolizei bereits angedeutet wurde.

Besser geeignet sind solche Systeme, wenn sie auf einen klar definierten Personenkreis angewendet werden können, wie das etwa bei einem HIV-Schnelltest der Fall ist. Einen solchen Test machen in der Regel nur Personen, bei denen ein konkreter Verdacht auf eine Erkrankung vorliegt. Der Personenkreis ist also von vorneherein eingeschränkt. Sollte das Testergebnis positiv sein, heißt das nicht, dass die Person tatsächlich infiziert ist. Bekanntermaßen sind gerade medizinische diagnostische Schnelltests sehr sensitiv eingestellt. Deshalb wird ein zweiter Test im Labor durchgeführt, bevor der Patient von der Diagnose erfährt. Aus dem gleichen Grund ist es auch umstritten, die Brustkrebs-Erkennung mittels Mammografie breit einzusetzen, etwa bei allen Frauen ab einem gewissen Alter. Stattdessen, so die Meinung vieler Ärzte, sollte das Verfahren nur bei einem vorliegenden Verdacht angewandt werden.

.er-layer--intro{background-image:url(_article_intro_image_desktopw2880h2880q70-5abc08e3f7dba843.jpg);}.er-parallax--intro{background-image:url(_article_intro_image_desktopw2880h2880q70-5abc08e3f7dba843.jpg);background-size:cover;}.er-layer--blender.er-slide--2-0,.er-slide--2-0{background-size:contain !important;background-position:center center;background-image:url(_modules_2_blendergraphic_slides_0_desktopw2880h2880q70-eec22375a7c95793.png);}.er-layer--blender.er-slide--2-1,.er-slide--2-1{background-size:contain !important;background-position:center center;background-image:url(_modules_2_blendergraphic_slides_1_desktopw2880h2880q70-34ae924fc00bc020.png);}.er-layer--blender.er-slide--2-2,.er-slide--2-2{background-size:contain !important;background-position:center center;background-image:url(_modules_2_blendergraphic_slides_2_desktopw2880h2880q70-6dfcd9e749b0af76.png);}.er-layer--blender.er-slide--2-3,.er-slide--2-3{background-size:contain !important;background-position:center center;background-image:url(_modules_2_blendergraphic_slides_3_desktopw2880h2880q70-b141e3da3a9c2215.png);}@media (max-width: 750px){.er-layer--blender.er-slide--2-0,.er-slide--2-0{background-position:center center;background-image:url(_modules_2_blendergraphic_slides_0_mobilew720q70-d15120150f1d4524.png);}.er-layer--blender.er-slide--2-1,.er-slide--2-1{background-position:center center;background-image:url(_modules_2_blendergraphic_slides_1_mobilew720q70-0d5107695ebdaa79.png);}.er-layer--blender.er-slide--2-2,.er-slide--2-2{background-position:center center;background-image:url(_modules_2_blendergraphic_slides_2_mobilew720q70-802c9c91951a8f5f.png);}.er-layer--blender.er-slide--2-3,.er-slide--2-3{background-position:center center;background-image:url(_modules_2_blendergraphic_slides_3_mobilew720q70-56bf6c71139f7b67.png);}}