Das Spiel zur Illustration bestĂ€rkenden Lernens lĂ€sst sich gut einleiten, in dem Sie die SuS zunĂ€chst fragen, wie sie bei Videospielen lernen, um die verschiedenen Levels zu bestehen. Die SuS erzĂ€hlen von ihren Lernstrategien, die wahrscheinlich darin bestehen, dass sie Aktionen, die zu Erfolg fĂŒhren vermehrt ausfĂŒhren und solche die zu Bestrafungen fĂŒhren vermeiden. Diese Lernstrategie benutzt der Mensch auch im Alltag: Strafen in der Schule, gute Noten bei einem Test, Strafzettel im StraĂenverkehr, PunktefĂŒhrerschein usw.
Daraufhin erklĂ€ren Sie, dass auch KI-Systeme auf diese Art und Weise autonom lernen und dies in vielen Videospielen genutzt wird. Auch werden viele KI-Systeme zuerst an Spielen getestet, da diese ein ĂŒberschaubares Regelwerk besitzen und weniger komplex sind als die RealitĂ€t. Sehr bekannt wurde KI durch seinen Sieg gegen den Schachweltmeister Kasparov im Jahre 1997 (Deep Blue) und gegen den Weltmeister im Go-Spiel im Jahre 2016 (IBM Watson).
Im Kleinen lĂ€sst sich das am Bauernschach bzw. dem Spiel âSchlag das Krokodilâ nachvollziehen. Die Spielregeln stammen vom richtigen Schachspiel: Die Bauernfigur kann geradeaus auf das vor ihr liegende Feld ziehen, wenn dieses frei ist, oder diagonal nach vorne, um einen gegnerischen Bauern zu schlagen. Gewonnen hat die/der SpielerIn, die/der es schafft, die eigene Spielfigur an das andere Ende des Spielfeldes zu fĂŒhren, oder alle gegnerischen Figuren geschlagen hat oder erreicht, dass der Gegner in der nĂ€chsten Runde keinen Spielzug mehr ausfĂŒhren kann.
Demonstrieren Sie zunĂ€chst die Funktionsweise der Website https://www.stefanseegerer.de/schlag-das-krokodil und erklĂ€ren Sie die Spielregeln. DarĂŒber hinaus ist es wichtig, dass die SuS die Bedeutung der farbigen Punkte verstehen (entsprechen der gleichfarbigen Aktion) und sehen, dass diese Punkte entfernt oder hinzugefĂŒgt werden können.
Bevor eine neue Runde gespielt wird, passt der Computer seine Strategie wie folgt an:
Computer hat gewonnen: Ein Token in der Farbe des letzten, siegbringenden Spielzugs wird zusÀtzlich auf das Feld dieses Spielzugs gelegt.
Mensch hat gewonnen: Das Token, das den letzten Zug der Computer-Spielerin bzw. des Computer-Spielers bestimmt hat, wird entfernt.
Lassen Sie die SuS nun einige Runden allein spielen. Ziel ist es, so oft wie möglich zu gewinnen, bevor die KI nicht mehr geschlagen werden kann. Dies scheint eine einfache Aufgabe zu sein, aber bald werden die SuS erkennen, dass sie ein gutes VerstĂ€ndnis des Innenlebens benötigen, um ĂŒber 10 oder sogar ĂŒber 20 Siege zu erzielen. Achtung, wenn die Seite neu geladen wird, werden auch die Gewinne zurĂŒckgesetzt!
Reflexion: Die SuS werden erkennen, dass sie zu Beginn noch oft gewinnen. Nach einigen Runden wird der Computer jedoch immer besser, da durch bestĂ€rkendes Lernen nur die SpielzĂŒge ĂŒbrigbleiben, die zu einem Gewinn fĂŒhren. Schlussendlich werden die SuS nicht mehr gegen den Computer gewinnen können. Sie sollten erkennen, dass sie gezielt ZĂŒge machen mĂŒssen, die sie zuvor noch nicht verwendet haben, um die KI in unbekanntes Gebiet zu âzwingenâ. Es ist auch gut ersichtlich, dass die Anzahl der möglichen ZustĂ€nde mit der Anzahl der verfĂŒgbaren Aktionen recht schnell zunimmt. Man kann sich leicht vorstellen, dass es auf einem gröĂeren Brett (wie z.B. einem Schachbrett) so viele mögliche ZustĂ€nde gibt, dass es nicht möglich ist, eine KI von Hand zu trainieren oder sogar generell alle möglichen ZustĂ€nde einzubeziehen. Wichtig ist auch die QualitĂ€t des menschlichen Spielers: Verliert die Maschine nicht, entwickelt sie sich auch nicht weiter. Verliert sie aber, wird jeweils der letzte Zug, der in direkter Folge zum Verlieren gefĂŒhrt hat, eliminiert, d. h. aus der ErgebnisĂŒbersicht gestrichen. Dies stellt eine negative BestĂ€rkung (BestĂ€rkung erfolgreicher Handlung findet hier nicht statt) dar, da der Zug in Zukunft mit Sicherheit nicht mehr angewendet wird. Die Maschine lernt auf diese Weise besser zu spielen.
Zur Vertiefung siehe auch https://computingeducation.de/proj-schlag-das-kroko/.