Ein Programmierer hat einem KI-Modell 50.000 Stunden lang darin trainiert, wie man Pokemon Red spielt. Daraus ist ein Algorithmus entstanden, der das Spiel erkunden und ein Team zusammenstellen kann, um den ersten Arenaleiter zu besiegen – aber keinen, der seinen Weg durch Mt. findet . Moon oder weiß es besser, als weiterhin Magikarp zu kaufen. Vor allem ist diese Übung eine faszinierende Möglichkeit, einen Eindruck davon zu bekommen, wie maschinelles Lernen tatsächlich funktioniert.
Wie in einem ausführlichen Video von Peter Whidden dargelegt, kann die KI über die üblichen Steuereingaben eines Emulators mit dem Spiel interagieren. Es drückt einen Knopf und schaut auf den Bildschirm, um zu sehen, was passiert ist, genau wie ein menschlicher Spieler. Whidden legte für die Lernsitzungen eine Spielzeit von jeweils zwei Stunden fest, doch mit einer beschleunigten Emulation konnten diese Sitzungen in etwa sechs Minuten in Echtzeit abgeschlossen werden – und der Prozess wurde durch die gleichzeitige Ausführung von 40 Testsitzungen noch weiter beschleunigt.
Da es einem Maschinenalgorithmus grundsätzlich nicht darum geht, ein Videospiel zu schlagen, hat Whidden der KI bestimmte Ziele gesetzt, für die sie belohnt werden soll. Um neugierige Entdeckungen anzuregen, erhielt die KI einen Belohnungspunkt, wenn sie etwas Neues sah, gemessen an deutlich unterschiedlichen Pixeln, die auf dem Bildschirm erschienen. Das hat einige unbeabsichtigte Folgen – die KI würde zum Beispiel nur fasziniert auf die leichte Animation von Wasser starren –, aber es diente im Großen und Ganzen dazu, den Computer zu motivieren, von Pallet Town durch den Viridian Forest und hinauf nach Pewter City zu gelangen, wo die Der erste Kampf im Fitnessstudio gegen Brock findet statt.
Auch die KI braucht weitere Belohnungen und Strafen. Da Belohnungen nur mit dem Sehen neuer Dinge verbunden sind, möchte die KI einfach weiter voranschreiten, was bedeutet, dass sie sich nicht darum kümmert, Schlachten zu schlagen oder Pokémon zu fangen, und so lief sie zunächst einfach vor jeder Begegnung davon. Deshalb hat Whidden ein System hinzugefügt, bei dem die KI basierend auf dem Gesamtlevel ihrer aktiven Pokémon-Gruppe belohnt wird.
Das hat dazu beigetragen, dass die KI weiter um EP kämpft und Pokémon fängt, aber es hatte auch eine unbeabsichtigte Konsequenz. Als die KI zu einem Pokémon-Center ging, interagierte sie dort mit dem PC und deponierte ein paar Pokémon. Dadurch sank das Gesamtlevel der Gruppe drastisch und es wurden auf einmal eine Menge Belohnungspunkte vernichtet. Das entsprach in etwa einer traumatischen Erfahrung für die KI, die dazu führte, dass sie Pokémon-Zentren gänzlich mied und sich weigerte, die Gruppe zu heilen, bis Whidden die Belohnungssysteme erneut optimierte.
Da die KI so lange willkürlich vorgeht, bis sie etwas herausgefunden hat, das ihr Belohnungspunkte einbringt, erwies sich der Kampf gegen Brock als besonderes Problem, da man dafür die elementaren Schwächen seines Gesteins-Pokémon ausnutzen muss keinen wirklichen Schaden gegen sie. Nur aufgrund einer bestimmten Iteration, bei der Squirtle der KI bei jeder Bewegung außer Bubblebeam keine PP mehr hatte, gelang es dem Algorithmus, herauszufinden, wie man das Fitnessstudio schlägt.
Doch während die KI schlecht darin ist, Dinge herauszufinden, die für menschliche Spieler ganz natürlich sein könnten, lernt sie ziemlich schnell andere, viel esoterischere Dinge. Whidden erkannte an einem bestimmten Punkt, dass der Algorithmus immer einen sehr spezifischen, scheinbar unsinnigen Weg von Pallet Town bis zur ersten Begegnung mit einem wilden Pokémon planen würde. Das schien seltsam, bis klar wurde, dass diese präzise Reihe von Eingaben garantierte, dass das wilde Pokémon mit einem einzigen Wurf eines Pokeballs gefangen werden konnte. Ja, die KI lernte spontan die Kunst der RNG-Manipulation, die Speedrunner jahrelang entwickeln.
Brock zu besiegen war ein ziemlich natürliches Endziel für das Projekt, aber Whidden ließ die KI länger laufen, um zu sehen, was passieren würde, und schaffte es tatsächlich tief in den Mt. Moon – aber die feuchten, gleichen Passagen des Verlieses waren so abstoßend Der KI zufolge war es ihr nie gelungen, den Weg zur anderen Seite zu finden, sodass sie nie in der Lage war, das zweite Fitnessstudio in Cerulean City zu finden.
Eine Sache, die der KI jedoch gefiel, war der Kauf von Magikarp. Der zwielichtige Typ, der einem das schlechteste Pokémon aller Zeiten zu einem lächerlichen Preisaufschlag verkauft, ist an dieser Stelle eher ein Witz, aber für die KI ist der Kauf dieses Karpadors eine schnelle Möglichkeit, Pokémon im Wert von fünf weiteren Stufen in ihre Gruppe zu bekommen – das bestes Angebot im Spiel! Anscheinend hat die KI dieses Karpador über 10.000 Mal gekauft.
Oh, und noch eine letzte Anekdote über die Magie eines Computers, der zufällige Dinge tut: Irgendwann hat die KI ein Rattata gefangen und das Pokémon „KI“ genannt. Manchmal funktionieren diese Dinge etwas zu perfekt.
KI-generierte Kunst und Schreiben sind äußerst umstritten, aber einige erfahrene Entwickler glauben, dass in der Spielebranche „Das Geld wird immer noch absolut jeden dazu bewegen“, maschinelles Lernen zu nutzen.