Künstliche Intelligenz:Der Computer als Rassist
Lesezeit: 6 Min.
Maschinen lernen immer besser, den Sinn von Sprache und Texten zu verstehen. Dadurch aber kopieren sie auch menschliche Schwächen - und verinnerlichen Vorurteile.
Von Eva Wolfangel
Michael Strube war beeindruckt, als er die Studie las. Ein Fachkollege hatte einer Software das Kinderbuch "Alice im Wunderland" zum Lesen gegeben, diese extrahierte dann allein aus dem Text das Beziehungs-Netzwerk zwischen den Personen der Geschichte! Etwas irritiert war der 51-jährige Computerlinguist vom Heidelberger Institut für Theoretische Studien jedoch, als er nachlas, wer die Untersuchung finanziert hatte: Es war die Defense Advanced Research Projects Agency (Darpa), die mächtige Forschungsbehörde des US-Verteidigungsministeriums.
Die Studie war ein Beispiel für das sogenannte Dual-Use-Problem, die Tatsache, dass die gleiche Forschung ebenso für zivile wie für militärische Zwecke verwendet werden kann. Hochgeschwindigkeits-Zentrifugen kann man in der Pharmakologie nutzen, oder, um Uran für Atombomben anzureichern. Algorithmen können vollautomatisch die Beziehungen zwischen Alice, Märzhase und dem verrückten Hutmacher klären - oder aus realem Mailverkehr herauslesen, welche Terroristen in welchem Verhältnis zueinander stehen. Die Kinderbuch-Studie zeigt, was Künstliche Intelligenz heute vermag: Sie kann Texte inhaltlich erfassen und Schlüsse aus ihnen ziehen - mehr oder weniger zuverlässig, zu guten wie zu fragwürdigen Zwecken.
"Wie die NSA so schnell so schlau wurde"
Strube erinnert sich noch, wie ihm das Problem erstmals schlagartig klar geworden war. Am 9. Juni 2013, zehn Tage nach den Snowden-Enthüllungen, befand er sich gerade auf einer Konferenz in den USA, als er zufällig auf eine Schlagzeile im Wall Street Journal stieß, das auf dem Frühstückstisch lag: "Wie die NSA so schnell so schlau wurde". Es ging um die Frage, wie der größte Auslandsgeheimdienst der USA seine Datenmassen hatte sammeln und auswerten können.
Der Artikel erläuterte detailliert, wie ausgerechnet Strubes Disziplin die Spione stark gemacht hatte: Beim sogenannten Natural Language Processing (NLP) lernen Computer, menschliche Sprache auch inhaltlich zu verstehen. Die meisten Menschen haben mit dieser Technologie zu tun, wenn sie Dienste wie Google Translate verwenden oder ihr Smartphone per Sprachbefehl bedienen. Die dunkle Seite ist weniger offensichtlich: "Der Öffentlichkeit ist zwar bekannt, dass die Geheimdienste auf Metadaten zugreifen", sagt Strube, also auf Daten wie Absender oder Betreff einer Mail. "Aber die Wenigsten wissen, wie gut wir unstrukturierte Daten analysieren können." Unstrukturiert ist beispielsweise die menschliche Sprache, die für Maschinen lange eine undurchsichtige Sache war. Und auch wenn man bereits aus den Metadaten viele Rückschlüsse auf eine Person und ihr Umfeld ziehen kann: Wer den Inhalt automatisch auswerten kann, erfährt natürlich noch viel mehr.
Auf einmal erschien Strube die Konferenz zweitrangig, die sich unter anderem damit beschäftigte, wie die Algorithmen noch genauer werden könnten. An ihm nagten Zweifel: Bringt meine Arbeit wirklich nur Gutes für die Gesellschaft? Er verbrachte den Tag mehr vor den Türen als in den Vortragssälen und diskutierte mit Kollegen: Unsere Forschung wird missbraucht, darüber müssen wir sprechen!
Je mehr Publikationen er in den folgenden Wochen las, umso unbehaglicher wurde ihm. Er konnte nicht mehr nur staunen, wie schlau die Computer nun schon waren und welche psychologischen Feinheiten sie aus den Texten der Menschen herauslesen konnten. Einen Aufsatz zur Frage, wie man ein Internet-Forum beeinflusst, las er nicht mehr nur aus reiner Forscherneugier. "Da wollten Kollegen eine Maschine bauen, die die Meinung von Menschen im Internet manipuliert", sagt er, "und denen war es gar nicht bewusst, dass das gefährlich ist."
Mittlerweile hat Strube Mitstreiter gefunden, etwa den Informatiker Dirk Hovy von der Universität Kopenhagen. "Bisher war unsere Forschung vor allem akademisch, man ist nicht davon ausgegangen, dass Individuen betroffen sein könnten", sagt Hovy heute, "deshalb sahen wir nicht die Notwendigkeit, das ethisch zu hinterfragen. Jetzt sind die Algorithmen an einem Punkt angekommen, an dem sie einen Impact haben können."
Hovy verweist unter anderem auf eine Recherche der US-Journalistenvereinigung Propublica zum impliziten Rassismus eines Computersystems: Der Algorithmus sollte eigentlich unbefangen Vorschläge machen, welche Strafgefangene vorzeitig aus der Haft entlassen werden sollten. Dafür wurde er mit alten Entscheidungen von Richtern gefüttert, um die üblichen Kriterien kennenzulernen. Propublica konnte nachweisen, dass das Programm Menschen mit dunkler Hautfarbe härter bestrafen wollte. "Da lag der Bias bereits in den Daten", sagt Hovy. Die Vorurteile von Richtern aus früheren Zeiten hatten sich auch im Algorithmus eingenistet.
Neben der Dual-Use-Problematik sieht Hovy solche mit Vorurteilen infizierten Daten als eine der größten Gefahren in der Computerlinguistik. Die modernen Algorithmen lernen auf der Grundlage von alten Trainingsdaten und reproduzieren einfach alte Muster, etwa dass Schwarze höhere Strafen erhalten. Eigentlich ganz einfach, sagt Margaret Mitchell von Google Research: "Stecken wir Vorurteile rein, kommen Vorurteile raus." Diese würden allerdings häufig gar nicht bemerkt werden.
"Wir haben heute dank der Deep-Learning- Revolution mächtige Technologien", sagt Mitchell - und damit stellten sich neue Fragen, denn langsam wird klar, welchen Einfluss solche Algorithmen auf die Gesellschaft haben können. "Tendenzen in den Daten werden manchmal erst durch den Output der Systeme sichtbar", sagt Mitchell. Aber nur, wenn sich die Entwickler darüber bewusst sind, dass sie die Ergebnisse in Frage stellen müssen.
"Mann verhält sich zu Programmierer so wie Frau zu Hausfrau" heißt ein viel diskutierter Artikel in der Computerlinguistik, in dem Forscher zeigen, wie die Modelle Vorurteile zementieren, selbst wenn sie mit scheinbar neutralen Texten trainiert wurden. So basieren viele Modelle für die deutsche Sprache auf einem rund 20 Jahre alten Datensatz aus Artikeln der Frankfurter Allgemeinen Zeitung berichtet Hovy: "Aber wer spricht schon wie Artikel in der FAZ?"
Mit Kollegen zeigte er kürzlich, dass Systeme auf dieser Grundlage die Sprache von Menschen über 45 Jahren signifikant besser verstehen als die von unter 35-Jährigen. Einen Bias fand auch ein Doktorand von Michael Strube, der kürzlich untersuchte, worauf sich Nomen beziehen. Er entdeckte, dass in den Texten seines Modells "he" vier Mal häufiger vorkam als "she". "Das Modell funktioniert also deutlich besser für Männer als für Frauen", sagt Strube. Ähnlich verhält es sich mit afro-amerikanischem Englisch: Eine große Studie mit Twitter-Daten zeigte, dass die Algorithmen diese Sprache nicht verstehen oder sie missinterpretieren.
"Wenn man das zu Ende denkt, funktioniert Spracherkennung am besten für weiße Amerikaner über 45"
Lange sind solche Phänomene nicht bemerkt worden, weil man genau hinschauen muss, erklärt Hanna Wallach von Microsoft Research: "Es ist ein großer Unterschied zwischen einem Modell, das für alle Bevölkerungsgruppen 95 Prozent genau ist und einem, das zu hundert Prozent genau ist für weiße Männer, aber nur 50 Prozent Genauigkeit erreicht, wenn es um Frauen oder Minderheiten geht." Noch schlechter steht es um Sprachen wie Tamil oder andere Sprachen des indischen Subkontinents, die teilweise zig Millionen Sprecher haben, aber für die es kaum computerlinguistische Ressourcen gibt. "Wenn man das zu Ende denkt, funktioniert Spracherkennung am besten für weiße Amerikaner über 45", sagt Hovy. Andere Bevölkerungsgruppen haben das Nachsehen.
Dass Forscherinnen wie Mitchell von Google und Wallach von Microsoft Research die Ethik-Diskussion mit vorantreiben, zeigt, wie wichtig das Thema auch den großen Technologiekonzernen ist - und wie ratlos sie gleichzeitig sind: Noch gebe es keine Lösung, wie man systematisch jene Tendenzen aufspürt, die zu Diskriminierung führen können, gibt Mitchell zu: "Diese Technologie muss erst noch entwickelt werden. Damit müssen wir uns jetzt beschäftigen, denn diese Systeme sind die Grundlage für die Technologien der Zukunft." Sie nennt das die "Evolution der künstlichen Intelligenz". Gerade an der Schnittstelle zwischen Bild- und Texterkennung gibt es immer wieder Pannen: Kürzlich hatte etwa eine Google-Software das Foto eines Dunkelhäutigen mit der Unterschrift "Gorilla" versehen.
"Wenn Datenpunkte Menschen sind, bekommt die Fehleranalyse ein anders Level an Wichtigkeit."
Auch Hanna Wallach versichert, dass es den amerikanischen Tech-Riesen ein Anliegen sei, hier besser zu werden: "Es ist bei weitem noch kein gelöstes Problem, aber viele schlaue Leute nehmen das Thema sehr ernst, was ein großartiger erster Schritt ist." Doch auch sie sagt etwas, das den Betroffenen womöglich schon länger klar ist als jenen, die solche Technologien entwickeln: "Wenn Datenpunkte Menschen sind, bekommt die Fehleranalyse ein ganz anderes Maß an Wichtigkeit, weil Fehler Konsequenzen in der echten Welt haben und die Leben von Menschen beeinflussen."
Schließlich stellt das viele Versprechen von Big Data in Frage: So wird immer wieder argumentiert, dass Algorithmen tatsächlich aufgrund der Fakten entscheiden und sich nicht von Emotionen oder Vorurteilen leiten lassen. "Aber wir leben bereits in einer voreingenommenen Gesellschaft", sagt Wallach und holt die Geschichte von der Software vom Thron, die angeblich allein auf Grundlage der Qualifikation von Bewerbern entscheidet, wer zum Vorstellungsgespräch eingeladen wird - und nicht, weil ihr die Nase nicht gefällt, wie es einem Personaler passieren könnte. Das System lernt allerdings aus den Biografien der bisherigen Angestellten - und sieht eventuell, dass vor allem weiße Männer eingestellt wurden: "Es reproduziert historische Vorurteile."
Was hilft? Ein Bewusstsein dafür zu schaffen sei der erste Schritt, darin sind sich die Forscher einig. Nur wer um die Schwächen seiner Modelle weiß und darum, wer Technologien missbrauchen könnte, kann darauf reagieren. "Letztendlich muss man sich selbst gegenüber verantwortlich sein", sagt Hovy. Aber es ist eine Gratwanderung. Als kürzlich ein Student die Idee hatte zu erforschen, ob es eine "typische" Schwulensprache gibt, lobte Hovy zwar das linguistische Interesse. Toll, dass so etwas möglich ist: Man könnte beispielsweise anhand von Twitter-Daten erkennen, ob jemand schwul ist, allein anhand der Sprache. So etwas können die Maschinen heutzutage schon mit recht guter Zuverlässigkeit. "Aber wollen das die Menschen, dass man ihre sexuelle Orientierung anhand ihrer Sprache erkennt? Könnte das nicht missbraucht werden?", fragte Hovy vorsichtig. Der Student erschrak: So weit hatte er nicht gedacht.
Weniger eindeutig liegt der Fall bei einer Studie, in der Hovy mit Margaret Mitchell zeigt, wie man aus Texten in den Sozialen Medien erkennen kann, ob Nutzer zu Depressionen neigen. Einerseits kann so etwas nutzen, um Betroffenen Hilfe anzubieten. Andererseits kann es auch missbraucht werden, um einzelne zu diskriminieren oder beispielsweise in einem Bewerbungsverfahren auszusortieren. Die Forscher entschieden sich dennoch dafür, sie zu publizieren und wiesen auf die Missbrauchsgefahr hin. Wer allerdings ganz ans Ende der Veröffentlichung schaut, findet als finanzielle Unterstützer die Darpa, Amazon, Google, Facebook und Microsoft. Bei dem ein oder anderen könnte man sich fragen, ob die Forschung hier dem richtigen Herrn dient.