Schießbefehle

Eigenständig handeln, aber mit anderen interagieren und unter sich ständig ändernden Umständen zusammenarbeiten: Der Mensch besitzt diese Fähigkeit meist, sie ist ein Fundament unserer komplexen Gesellschaften. Aber können Maschinen das auch? Die oft als künstliche Intelligenz (KI) bezeichnete Software, die aus Statistik lernt, ist dazu grundsätzlich fähig. Das legt zumindest eine Studie im Magazin Science nahe. Verfasst hat sie ein Entwicklerteam von Deep Mind, der KI-Sparte des Google-Konzerns Alphabet. Die Entwickler hatten eine Software für das Spiel "Quake III Arena" programmiert, einen frühen Multiplayer-Egoshooter aus dem Jahr 1999. Konkret ging es um den sogenannten Capture-the-flag-Modus: In dieser Spielvariante müssen Teams in einer zufällig generierten Landschaft die Flagge des Gegners erbeuten und zur eigenen Basis bringen.

Die Software lernt wie ein Mensch über den Input von Bildern. Im Spiel Quake III heißt das: Anders als bei Brettspielen wie Go ist die Umgebung dreidimensional und komplex. Vor allem aber liegen ihr über die Züge - also Bewegungen - der anderen nur unvollständige Informationen vor. Allerdings erleichterten die Forscher der Software die Arbeit, indem sie eine Quake-Variante mit abgespeckter Grafik einsetzten (in der nebenbei auch keine Gewehre oder menschliche Figuren erscheinen).

Die Teams aus künstlichen Spielern setzten rasch auf die gleichen Strategien wie Menschen

Die "For The Win" (FTW) genannte Software absolvierte 450 000 Quake-Runden, die jeweils etwa fünf Minuten dauerten. Es handelte sich um eine Multiagent-Umgebung mit mehreren Gegnern und Teamgefährten, was komplexes Verhalten nötig macht. Deshalb spielte das Programm nicht nur gegen einen einzigen Klon seiner selbst. Vielmehr trainierte eine ganze Population von etwa 30 FTW-Typen miteinander, die sich unterschiedlich entwickelten. Auf diese Weise lernte FTW zunächst die Spielmechanik, danach auch verschiedene Einzel- und Teamstrategien. Damit die Software nicht einfach nur mit dem Trick arbeitet, die beste Strategie anhand bekannten Terrains zu entwickeln, fand jede Partie auf einer neu generierten Landkarte statt, auf der Teambasen, Mauern und Flaggen stets an anderen Stellen standen.

Nach etwas mehr als 150 000 Spielen übertraf FTW das Niveau eines starken menschlichen Spielers. Die Deep-Mind-Entwickler testeten die Software aber auch in der Praxis, indem sie ein Quake-Turnier mit 40 Menschen veranstalteten. Maschinen und Menschen traten in unterschiedlichen Kombinationen mit- und gegeneinander an, auch in gemischten Teams. Die vollständig aus unterschiedlichen FTW-Typen bestehenden Computerteams gewannen jedes Spiel gegen Menschenmannschaften, aber auch fast alle Partien gegen eine Kombination aus Mensch und FTW.

Die selbsterlernten Taktiken, die FTW anwendete, ähnelten teilweise der menschlichen Strategie: den Schwerpunkt auf die Verteidigung der eigenen Basis zu legen; oder auf Gegner zu warten, die gerade die geklaute Flagge zurückbringen wollen. Die Idee, einem eigenen Flaggenträger hinterherzulaufen, testete die Software ausgiebig, um sie dann wieder zu verwerfen. Zu den Vorteilen der FTW zählten die Zielgenauigkeit bei Nahtreffern, und die Reaktionszeit. Menschen dagegen waren bei Ferntreffern erfolgreicher, was dafür spricht, dass sie die Gesamtsituation besser erfassen.

Die 30 FTW-Agenten hatten sich individuell entwickelt und deshalb auch unterschiedliche Schwerpunkte. Dennoch gelang es ihnen, in verschiedenen Kombinationen miteinander zu kooperieren, also eine Art Kollektivintelligenz zu entwickeln. Allerdings sind auch die fünf Prozent der Fälle relevant, in denen die Kombination aus Mensch und Maschine gegen reine Maschinenteams gewann. Sie deutet darauf hin, dass dieses Softwaremodell sein Verhalten erfolgreich an Menschen anpassen und mit ihnen zusammenarbeiten kann. Voraussetzung ist allerdings wie bei jedem Spiel: ein eindeutiges Ziel, das alle Teammitglieder verfolgen.

Zudem merken die Forscher an, dass es weiterhin Optimierungsbedarf gibt. So sei es schwierig, eine ganze Software-Population zu trainieren und am Ende wirklich unterschiedliche Typen zu erhalten, also eine Diversität der Lösungsansätze. Zudem geschehe die Gesamtoptimierung des Populationstrainings noch nach relativ kurzsichtigen Merkmalen. Der Versuch, Software eine Art kollektive Handlungsintelligenz anzutrainieren, steht also noch ganz am Anfang.