Eigenständig handeln, aber mit anderen interagieren und sogar zusammenarbeiten - unter sich ständig ändernden Umständen: Der Mensch besitzt diese Fähigkeit meist, sie ist ein Fundament unserer komplexen Gesellschaften. Aber können Maschinen das auch?
Die oft als "Künstliche Intelligenz" (KI) bezeichnete Software, die aus Statistik lernt, ist dazu grundsätzlich fähig. Das legt zumindest eine Studie nahe, die nun im Magazin Science veröffentlicht worden ist. Verfasst hat sie ein Entwickler-Team von DeepMind, der KI-Sparte des Google-Konzerns Alphabet.
Die Entwickler hatten eine Software für das Spiel Quake III Arena programmiert, einen frühen Multiplayer-Egoshooter aus dem Jahr 1999. Konkret ging es um den sogenannten Capture-the-flag-Modus: In dieser Spielvariante müssen Teams in einer zufällig generierten Landschaft die virtuelle Flagge des Gegners erbeuten und zur eigenen Basis bringen.
Die Software lernt wie ein Mensch über den Input von Bildern. Im Spiel Quake III heißt das: Anders als bei Brettspielen wie "Go" ist die Umgebung dreidimensional und komplex. Vor allem aber liegen ihr über die "Züge" - also Bewegungen - der anderen nur unvollständige Informationen vor. Allerdings erleichterten die Forscher der Software die Arbeit, indem sie eine Quake-Variante mit abgespeckter Grafik einsetzten (in der nebenbei auch keine Gewehre oder menschliche Figuren erscheinen).
Die SZ-Redaktion hat diesen Artikel mit einem Inhalt von YouTube angereichert
Um Ihre Daten zu schützen, wurde er nicht ohne Ihre Zustimmung geladen.
Ich bin damit einverstanden, dass mir Inhalte von YouTube angezeigt werden. Damit werden personenbezogene Daten an den Betreiber des Portals zur Nutzungsanalyse übermittelt. Mehr Informationen und eine Widerrufsmöglichkeit finden Sie untersz.de/datenschutz.
Die "For The Win" oder kurz "FTW" genannte Software absolvierte 450 000 Quake-Runden, die jeweils etwa fünf Minuten dauerten. Es handelte sich um eine "Multiagent"-Umgebung mit mehreren Gegnern und Teamgefährten, was komplexes Verhalten nötig macht. Deshalb spielte das Programm nicht nur gegen einen einzigen Klon seiner selbst. Vielmehr trainierte eine ganze Population von etwa 30 FTW- Typen miteinander, die sich unterschiedlich entwickelten.
Auf diese Weise lernte FTW zunächst die Spielmechanik und Konzepte wie "Mauern" (siehe Video), danach auch unterschiedliche Einzel- und Team-Strategien. Damit die Software nicht einfach nur mit dem Trick arbeitet, die beste Strategie anhand bekannten Terrains zu entwickeln, fand jede Partie auf einer neu generierten Landkarte statt, auf der Team-Basen, Mauern und Flaggen stets an anderen Stellen standen.
Software siegt auch im Turniermodus
Nach etwas mehr als 150 000 Spielen übertraf FTW schon das Niveau eines starken menschlichen Spielers. Die DeepMind-Entwickler testeten die Software aber auch in der Praxis, indem sie ein Quake-Turnier mit 40 Menschen veranstalteten. Maschinen und Menschen traten in unterschiedlichen Kombinationen mit- und gegeneinander an, auch in gemischten Teams.
Das Ergebnis: Die vollständig aus unterschiedlichen FTW-Typen bestehenden Computerteams gewannen jedes Spiel gegen Menschen-Mannschaften, aber auch fast alle Partien gegen eine Kombination aus Mensch und FTW. Ein professionelles Tester-Duo konnte vollständig miteinander kommunizieren und zwölf Stunden lang versuchen, sich auf die Taktik des FTW-Duos einzustellen, gegen das sie spielten. Trotzdem gewann das FTW-Paar 75 Prozent der Spiele.
Die selbsterlernten Taktiken, die FTW anwendete, ähnelten teilweise der menschlichen Strategie: den Schwerpunkt auf die Verteidigung der eigenen Basis zu legen; oder das Warten auf Gegner, die gerade die geklaute Flagge zurückbringen wollen. Die Idee, einem eigenen Flaggenträger hinterherzulaufen, testete die Software ausgiebig, um sie dann wieder zu verwerfen.
Zu den Vorteilen der FTW zählten die Zielgenauigkeit bei Nahtreffern (80 Prozent zu menschlichen 48 Prozent), und die Reaktionszeit. Menschen dagegen waren bei Ferntreffern erfolgreicher, was dafür spricht, dass sie die Gesamtsituation besser erfassen.
Was lässt sich daraus ableiten?
Die Forscher formulieren es so: "Wir haben demonstriert, dass ein künstlicher Agent, der nur Pixel und Spielpunkte als Input verwendet, höchst konkurrenzbetont zu spielen lernen kann, und das in einer Multiagent-Umgebung." Übersetzt: KI kann von der Pike auf Multiplayer-Spiele lernen und gewinnen.
Der spannendste Aspekt liegt in der Zusammenarbeit: Die 30 FTW-Agenten hatten sich individuell entwickelt und deshalb auch unterschiedliche Schwerpunkte. Dennoch gelang es ihnen, in verschiedenen Kombinationen miteinander zu kooperieren, also eine Art Kollektivintelligenz zu entwickeln. Allerdings sind auch die fünf Prozent der Fälle relevant, in denen die Kombination aus Mensch und Maschine gegen reine Maschinenteams gewann. Sie deutet darauf hin, dass dieses Software-Modell ihr Verhalten erfolgreich an Menschen anpassen und mit ihnen zusammenarbeiten kann.
Voraussetzung ist allerdings wie bei jedem Spiel: ein eindeutiges Ziel, das alle Teammitglieder verfolgen. Die Realität menschlicher Zivilisation mit ihren unterschiedlichen Motiven und Zielen ist freilich komplizierter.
Zudem merken die Forscher an, dass es weiterhin Optimierungsbedarf gibt. So sei es schwierig, eine ganze Software-Population zu trainieren und am Ende wirklich unterschiedliche Typen zu erhalten, also eine "Diversität" der Lösungsansätzen. Zudem geschehe die Gesamtoptimierung des Populationstrainings noch nach relativ kurzsichtigen Merkmalen. Der Versuch, Software eine Art kollektive Handlungsintelligenz anzutrainieren, steht also noch ganz am Anfang.