Künstliche Intelligenz:Das Programm wollte Häftlinge mit dunkler Hautfarbe härter bestrafen

Hovy verweist unter anderem auf eine Recherche der US-Journalistenvereinigung Propublica zum impliziten Rassismus eines Computersystems: Der Algorithmus sollte eigentlich unbefangen Vorschläge machen, welche Strafgefangene vorzeitig aus der Haft entlassen werden sollten. Dafür wurde er mit alten Entscheidungen von Richtern gefüttert, um die üblichen Kriterien kennenzulernen. Propublica konnte nachweisen, dass das Programm Menschen mit dunkler Hautfarbe härter bestrafen wollte. "Da lag der Bias bereits in den Daten", sagt Hovy. Die Vorurteile von Richtern aus früheren Zeiten hatten sich auch im Algorithmus eingenistet.

Neben der Dual-Use-Problematik sieht Hovy solche mit Vorurteilen infizierten Daten als eine der größten Gefahren in der Computerlinguistik. Die modernen Algorithmen lernen auf der Grundlage von alten Trainingsdaten und reproduzieren einfach alte Muster, etwa dass Schwarze höhere Strafen erhalten. Eigentlich ganz einfach, sagt Margaret Mitchell von Google Research: "Stecken wir Vorurteile rein, kommen Vorurteile raus." Diese würden allerdings häufig gar nicht bemerkt werden.

"Wir haben heute dank der Deep-Learning- Revolution mächtige Technologien", sagt Mitchell - und damit stellten sich neue Fragen, denn langsam wird klar, welchen Einfluss solche Algorithmen auf die Gesellschaft haben können. "Tendenzen in den Daten werden manchmal erst durch den Output der Systeme sichtbar", sagt Mitchell. Aber nur, wenn sich die Entwickler darüber bewusst sind, dass sie die Ergebnisse in Frage stellen müssen.

"Mann verhält sich zu Programmierer so wie Frau zu Hausfrau" heißt ein viel diskutierter Artikel in der Computerlinguistik, in dem Forscher zeigen, wie die Modelle Vorurteile zementieren, selbst wenn sie mit scheinbar neutralen Texten trainiert wurden. So basieren viele Modelle für die deutsche Sprache auf einem rund 20 Jahre alten Datensatz aus Artikeln der Frankfurter Allgemeinen Zeitung berichtet Hovy: "Aber wer spricht schon wie Artikel in der FAZ?"

Mit Kollegen zeigte er kürzlich, dass Systeme auf dieser Grundlage die Sprache von Menschen über 45 Jahren signifikant besser verstehen als die von unter 35-Jährigen. Einen Bias fand auch ein Doktorand von Michael Strube, der kürzlich untersuchte, worauf sich Nomen beziehen. Er entdeckte, dass in den Texten seines Modells "he" vier Mal häufiger vorkam als "she". "Das Modell funktioniert also deutlich besser für Männer als für Frauen", sagt Strube. Ähnlich verhält es sich mit afro-amerikanischem Englisch: Eine große Studie mit Twitter-Daten zeigte, dass die Algorithmen diese Sprache nicht verstehen oder sie missinterpretieren.

"Wenn man das zu Ende denkt, funktioniert Spracherkennung am besten für weiße Amerikaner über 45"

Lange sind solche Phänomene nicht bemerkt worden, weil man genau hinschauen muss, erklärt Hanna Wallach von Microsoft Research: "Es ist ein großer Unterschied zwischen einem Modell, das für alle Bevölkerungsgruppen 95 Prozent genau ist und einem, das zu hundert Prozent genau ist für weiße Männer, aber nur 50 Prozent Genauigkeit erreicht, wenn es um Frauen oder Minderheiten geht." Noch schlechter steht es um Sprachen wie Tamil oder andere Sprachen des indischen Subkontinents, die teilweise zig Millionen Sprecher haben, aber für die es kaum computerlinguistische Ressourcen gibt. "Wenn man das zu Ende denkt, funktioniert Spracherkennung am besten für weiße Amerikaner über 45", sagt Hovy. Andere Bevölkerungsgruppen haben das Nachsehen.

Dass Forscherinnen wie Mitchell von Google und Wallach von Microsoft Research die Ethik-Diskussion mit vorantreiben, zeigt, wie wichtig das Thema auch den großen Technologiekonzernen ist - und wie ratlos sie gleichzeitig sind: Noch gebe es keine Lösung, wie man systematisch jene Tendenzen aufspürt, die zu Diskriminierung führen können, gibt Mitchell zu: "Diese Technologie muss erst noch entwickelt werden. Damit müssen wir uns jetzt beschäftigen, denn diese Systeme sind die Grundlage für die Technologien der Zukunft." Sie nennt das die "Evolution der künstlichen Intelligenz". Gerade an der Schnittstelle zwischen Bild- und Texterkennung gibt es immer wieder Pannen: Kürzlich hatte etwa eine Google-Software das Foto eines Dunkelhäutigen mit der Unterschrift "Gorilla" versehen.

"Wenn Datenpunkte Menschen sind, bekommt die Fehleranalyse ein anders Level an Wichtigkeit."

Auch Hanna Wallach versichert, dass es den amerikanischen Tech-Riesen ein Anliegen sei, hier besser zu werden: "Es ist bei weitem noch kein gelöstes Problem, aber viele schlaue Leute nehmen das Thema sehr ernst, was ein großartiger erster Schritt ist." Doch auch sie sagt etwas, das den Betroffenen womöglich schon länger klar ist als jenen, die solche Technologien entwickeln: "Wenn Datenpunkte Menschen sind, bekommt die Fehleranalyse ein ganz anderes Maß an Wichtigkeit, weil Fehler Konsequenzen in der echten Welt haben und die Leben von Menschen beeinflussen."

Schließlich stellt das viele Versprechen von Big Data in Frage: So wird immer wieder argumentiert, dass Algorithmen tatsächlich aufgrund der Fakten entscheiden und sich nicht von Emotionen oder Vorurteilen leiten lassen. "Aber wir leben bereits in einer voreingenommenen Gesellschaft", sagt Wallach und holt die Geschichte von der Software vom Thron, die angeblich allein auf Grundlage der Qualifikation von Bewerbern entscheidet, wer zum Vorstellungsgespräch eingeladen wird - und nicht, weil ihr die Nase nicht gefällt, wie es einem Personaler passieren könnte. Das System lernt allerdings aus den Biografien der bisherigen Angestellten - und sieht eventuell, dass vor allem weiße Männer eingestellt wurden: "Es reproduziert historische Vorurteile."

Was hilft? Ein Bewusstsein dafür zu schaffen sei der erste Schritt, darin sind sich die Forscher einig. Nur wer um die Schwächen seiner Modelle weiß und darum, wer Technologien missbrauchen könnte, kann darauf reagieren. "Letztendlich muss man sich selbst gegenüber verantwortlich sein", sagt Hovy. Aber es ist eine Gratwanderung. Als kürzlich ein Student die Idee hatte zu erforschen, ob es eine "typische" Schwulensprache gibt, lobte Hovy zwar das linguistische Interesse. Toll, dass so etwas möglich ist: Man könnte beispielsweise anhand von Twitter-Daten erkennen, ob jemand schwul ist, allein anhand der Sprache. So etwas können die Maschinen heutzutage schon mit recht guter Zuverlässigkeit. "Aber wollen das die Menschen, dass man ihre sexuelle Orientierung anhand ihrer Sprache erkennt? Könnte das nicht missbraucht werden?", fragte Hovy vorsichtig. Der Student erschrak: So weit hatte er nicht gedacht.

Weniger eindeutig liegt der Fall bei einer Studie, in der Hovy mit Margaret Mitchell zeigt, wie man aus Texten in den Sozialen Medien erkennen kann, ob Nutzer zu Depressionen neigen. Einerseits kann so etwas nutzen, um Betroffenen Hilfe anzubieten. Andererseits kann es auch missbraucht werden, um einzelne zu diskriminieren oder beispielsweise in einem Bewerbungsverfahren auszusortieren. Die Forscher entschieden sich dennoch dafür, sie zu publizieren und wiesen auf die Missbrauchsgefahr hin. Wer allerdings ganz ans Ende der Veröffentlichung schaut, findet als finanzielle Unterstützer die Darpa, Amazon, Google, Facebook und Microsoft. Bei dem ein oder anderen könnte man sich fragen, ob die Forschung hier dem richtigen Herrn dient.

Zur SZ-Startseite

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: