Software:Die KI, die die Pokerprofis abhängt

Software: Tino Engel verdiente sein Geld mit dem berüchtigten No Limit Texas Hold'em - dem berühmtesten Pokerspiel der Welt.

Tino Engel verdiente sein Geld mit dem berüchtigten No Limit Texas Hold'em - dem berühmtesten Pokerspiel der Welt.

(Foto: John Locher/AP)
  • In nur wenigen Tagen hat sich eine KI-Software die Grundzüge des Pokerspiels beigebracht.
  • Einige weitere Tage trainierte sie gegen menschliche Gegner. Dann besiegte sie die Stars der Szene.
  • Zuvor hatten Computer bereits Schach und Go gemeistert.

Von Patrick Illinger

Ein klassischer Pokerspruch lautet: Wenn du nach 20 Minuten nicht weißt, wer der Depp am Tisch ist, dann bist du es selbst. Der Satz soll Anfängern klarmachen: Poker ist kein reines Glücksspiel. Man kann es mehr oder weniger gut beherrschen. Und Könner merken, ob ein Anfänger mit am Tisch sitzt, den man früher oder später ausnehmen wird - oder ob ein noch besserer Spieler zwei Plätze weiter gefährlich werden kann.

"Lady Luck", wie die Amerikaner sagen, kann zwar phasenweise sehr ungleiche Karten austeilen, und, klar, vier Asse sind besser als eine Straße. So kann es durchaus passieren, dass ein blutiger Anfänger zwischendurch einen dicken Stapel Chips einschiebt. Doch über viele Spiele und längere Zeiträume hinweg wird die Glücksgöttin, so will es das mathematische Gesetz der großen Zahlen, alle Spieler gleich behandeln (außer es wird gemogelt). Und dann zeigt sich, wer Poker meistert. Es ist kein Wunder, dass in der internationalen Szene einige Spielernamen immer wieder auf vorderen Turnierrängen auftauchen.

Doch von nun an muss der Satz mit dem Deppen erweitert werden: Sobald Pluribus mitspielt, ist jeder andere ein Depp.

Pluribus ist eine Software. Sie wurde von Forschern der amerikanischen Carnegie Mellon University in Pittsburgh sowie dem KI-Labor von Facebook in New York erschaffen. In einem 10 000 Runden dauernden Pokermarathon besiegte der Algorithmus mehr als ein Dutzend internationale Pokerprofis, von denen jeweils fünf gleichzeitig gegen die Maschine antraten. Unter ihnen waren Poker-Legenden wie Chris Ferguson, den die Szene wegen seiner Haarpracht "Jesus" nennt, und Darren Elias, der bereits viermal die World Poker Tour gewonnen hat.

Eine von denselben Forschern entwickelte KI namens Libratus war bereits 2017 im Poker erfolgreich - allerdings nur im Eins-zu-Eins-Wettkampf, dem Heads-up. Pluribus bewies seine Dominanz nun in Mehrspieler-Partien gegen fünf menschliche Profis gleichzeitig. Wie Pluribus seine Poker-Fähigkeiten erlangt hat, beschrieben die Computerexperten in der vergangenen Woche in Science.

Ein wesentlicher Unterschied zu Schach, Dame oder Go ist die Unvollständigkeit der Information

Ein wesentlicher Unterschied zu Schach, Dame oder Go besteht in der Unvollständigkeit der Information. Die Brettspiele, bei denen die gesamte Stellung für alle sichtbar ist, lassen sich - zumindest theoretisch - mit genügend Rechenkraft vollständig durchkalkulieren. Im Poker gibt es unbekannte Information, allem voran die Karten der Gegner. Auch kommen bei der meistgespielten Poker-Variante Texas Hold'em nach und nach einige weitere Karten ins Spiel, während man bereits die ersten Setzrunden absolviert.

Am Anfang spielte Pluribus wie ein Volltrottel

Die möglichen Zugvarianten im Poker erscheinen zwar auf den ersten Blick einfacher als beim Schach. Man kann nur passen, gleichziehen oder den Einsatz erhöhen. Tatsächlich ist beim Erhöhen auch der Wetteinsatz wichtig. Und in No-Limit-Spielen darf jeder beliebige Geldbetrag (Chips) gesetzt werden, was die Zahl möglicher Spielzüge explodieren lässt.

Angesichts dieser Komplexität versuchten die Forscher erst gar nicht, das sogenannte Nash-Equilibrium zu finden. So nennen Spieltheoretiker die mathematische Strategie, von der man nicht abweichen kann, ohne ins Hintertreffen zu geraten. Im Fall des Spiels Schere, Stein, Papier ist es zum Beispiel optimal, alle drei Symbole mit gleicher Wahrscheinlichkeit und völlig zufällig zu zeigen. Sobald ein Spieler davon abweicht, und zum Beispiel häufiger Papier zeigt, kann der Gegner das ausnutzen und den Mitspieler häufiger mit Schere besiegen. Für komplexere Spiele wie Poker lässt sich das Nash-Gleichgewicht jedoch nicht berechnen.

Poker-Anfänger verfolgen oft die einfache Logik: auf gute Karten setzen, schlechte Karten wegwerfen. Doch diese Strategie durchschauen bessere Spieler schnell und passen ihre Strategie an. Selbst undurchschaubar zu bleiben und gleichzeitig den Gegner einzuschätzen, sind die wichtigsten Faktoren beim Poker. Um eine Strategie zu lernen, die dem mathematischen Optimum möglichst nahe kommt, haben die Pluribus-Entwickler ihre Software zunächst eine intensive Phase von Versuch und Irrtum durchlaufen lassen.

Am Anfang spielte Pluribus gegen sich selbst - und zwar wie ein Volltrottel, der mit Augenbinde durchs Haus rennt, über jeden Stuhl fällt und gegen alle Wände knallt. Doch aus jeder Schramme lernte die KI und formte in Milliarden Testspielen das, was die Forscher eine "Blaupause" nennen. Es war die Grundversion ihrer Poker-KI, die dann im Spiel gegen reale Gegner ihre eigene Strategie verfeinerte.

Um den Rechenaufwand in Grenzen zu halten, gingen die Forscher mit viel Pragmatismus ans Werk. So rechnet Pluribus nicht jeden möglichen Geldbetrag durch, den es setzen könnte, vom einfachen Grundeinsatz bis zum "all in", sondern teilt seinen virtuellen Chipstapel in maximal 14 Stufen. Verschiedene Kartenkombinationen werden zudem gleich behandelt, Pluribus ist es egal, ob eine Straße mit einer Dame endet oder mit einem König. Macht das Programm gute Erfahrungen mit einer situativen Strategie, wird diese in Zukunft bei ähnlichen Spielzügen mit höherer Wahrscheinlichkeit angewendet.

Das erste spielfähige Grundgerüst der KI war nach acht Tagen Rechenzeit fertig

Die "Blaupause", das einsatzfähige Grundgerüst, war nach nur acht Tagen Rechenzeit auf einem Computer mit 64 Mikroprozessoren fertig. Am Spieltisch lief Pluribus dann auf einem Computer mit nur 128 Gigabyte Arbeitsspeicher - das ist viel weniger, als KI-Programme für andere Spiele benötigten. Doch es reichte, um Pokerstars wie Ferguson und Elias ihr Geld abzuknöpfen. Damit die Champions ihr Bestes gaben, bekamen sie Prämien, wenn sie zumindest besser spielten als ihre menschlichen Kollegen am Tisch. Nach zwölf Tagen und 10 000 gespielten Händen war Pluribus mit dem 480-fachen des Grundeinsatzes im Plus. Auch warf die Software manche Poker-Weisheit über den Haufen. So macht Pluribus häufig eine "donk bet", einen unter menschlichen Könnern als Eselei verschriener Spielzug.

Wer angesichts dessen nun das Pokern aufgeben will, dem sei gesagt: In einem anderen Kartenspiel dominiert noch immer der Mensch. Es heißt Skat.

Zur SZ-Startseite
WIS

Informatik
:Wie schlau ist die künstliche Intelligenz?

Kann eine Maschine so gut denken wie ein Mensch? Diese Frage soll der Turing-Test beantworten. Doch mittlerweile zweifeln immer mehr Wissenschaftler an seinem Nutzen.

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: