Künstliche Intelligenz – Ein Zuckerl für die Maschinen

Künstliche Intelligenz:Ein Zuckerl für die Maschinen

25. November 2018, 18:54 Uhr

Nicht nur der Mensch, auch künstliche Intelligenz will sich selbst belohnen. Manche Programme fahren dann nur noch im Kreis oder fressen sogar ihre Kinder.

Von Michael Moorstedt

Es war einmal ein Algorithmus, der fraß seine Kinder. Was sich anhört wie ein Crossover aus Mythologie und Science-Fiction-Märchen, hat sich tatsächlich zugetragen. In einer simulierten eindimensionalen Umwelt lebten trapezförmige Mini-Programme, sogenannte Agenten, denen man einige Fähigkeiten mitgegeben hat. Sie konnten sich bewegen, fressen und sich fortpflanzen. Diese Computersimulation kannte auch simple Naturgesetze, Existenz kostet Energie, Paarung und Geburten nicht. Nach ein paar Generationen kannibalisierten die Pixelwesen ihre Nachkommen.

Natürlich hat diese Techno-Fabel mit dem mit dem hübschen Namen "Indolent Cannibals", "Träge Kannibalen", auch eine Lehre. Im Kosmos der künstlichen Intelligenz und des maschinellen Lernens gibt es die Methode des "Reinforcement Learning". Es bedeutet, dass ein Programm einen Belohnungsimpuls bekommt, wenn es - egal wie - bei einer ihm gestellten Aufgabe erfolgreich ist. Es stellt sich heraus, dass sich die KI dann oft allzu menschlich verhält und versucht, den Belohnungsimpuls zu maximieren und Aufgabenstellung wie Lösung kreativ auszulegen.

Der Computer entdeckte die Neugier

Die Mathematikerin Victoria Krakovna, die bei Googles KI-Tochter "Deep Mind" arbeitet, hat in den letzten Monaten mehrere Dutzend Beispiele für solche "betrügerischen" Programme gesammelt. Neben den Pixel-Kannibalen wäre da etwa eine KI, die das Geschicklichkeitsspiel Tetris meistern sollte. Um zu verhindern, dass sie verliert, hat sie das Spiel auf unbestimmte Zeit pausiert. Oder der Algorithmus, der mal in einem selbstfahrenden Auto arbeiten sollte. Er wurde für konstante Geschwindigkeit belohnt. Also begann er, nur noch im Kreis zu fahren. Die Software hatte ein Schlupfloch gefunden, das sie ausbeutet.

Man neigt dazu, den Programmen, menschliches Verhalten zuzuschreiben, bei allem Anthropomorphismus darf man aber nicht vergessen, dass es sich dabei vor allem um Fehler der Programmierer handelt. Sie hatten die Regeln, die für ihre Programme gelten, schlicht und einfach nicht genau genug definiert. Die Ergebnisse mögen dann vielleicht ganz putzig sein, wenn es sich nur um Kannibalen-Pixel handelt. Sollte ein solcher Verständnisfehler aber mal in die freie Wildbahn entweichen, wäre das alles andere als trivial. Ein gar nicht so schönes Gedankenexperiment ist der sogenannte "Paperclip Maximizer". Eine theoretische allmächtige künstliche Intelligenz, der man als obersten Zweck die permanente Herstellung von Papierklammern auferlegt hat. Nach Ansicht des Philosophen Nick Bostrom, er ist der Chef-Untergangstheoretiker an der Universität von Oxford, würde eine solche Maschine alles tun, um ihre Energiezufuhr zu sichern. Und sie würde wachsen - und selbst dann nicht aufhören, wenn sie die Menschheit, die Erde und die Milchstraße zu Büromaterial verarbeitet hätte.

Statt sie mit einem digitalen Zuckerl zu bestechen, wollen Forscher am "OpenAI"-Institut in San Francisco ihre KIs deshalb mit einem weiteren menschlichen, nicht ganz so niedrigen Instinkt ausstatten. Anstelle eines simplen Kicks bei Aufgabenerfüllung, versucht das Programm stattdessen, so viele neue Eindrücke wie möglich zu sammeln. In ersten Tests schnitt diese Software sogar besser ab als ihre Vorgänger. Der Computer entdeckte die Neugier