MIN Faculty Department of Informatics
University of Hamburg Reinforcement Learning
Reinforcement Learning VL Algorithmisches Lernen, Teil 3d
Jianwei Zhang University of Hamburg MIN Faculty, Dept. of Informatics Vogt-K¨ olln-Str. 30, D-22527 Hamburg
[email protected]
08/07/2009
Zhang
1
MIN Faculty Department of Informatics
University of Hamburg Reinforcement Learning
Termin¨ubersicht: Part 3
Zhang
I
17/06/2009
Dimensionsproblem, PCA
I
18/06/2009
Support-Vektor Maschinen
I
24/06/2009
I
25/06/2009
Support-Vektor Maschinen (4st.) ¨ Ubung
I
01/07/2009
I
02/07/2009
Funktionsapproximation, Fuzzy-Logik (4st.) ¨ Ubung (Prof. Dr. Menzel)
I
08/07/2009
Verst¨ arkungslernen (1)
I
09/07/2009
Verst¨arkungslernen (2)
I
15/07/2009
Verst¨arkungslernen (3)
I
16/07/2009
Anwendungen in der Robotik 2
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Einf¨uhrung
Künstliche Intelligenz Steuerungs- und Regelungstechnik
Psychologie Reinforcement Learning (RL)
Neurowissenschaft Künstliche Neuronale Netze Zhang
3
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Was ist Reinforcement Learning?
Zhang
I
Lernen aus Interaktion
I
Ziel-orientiertes Lernen
I
Lernen durch, von, und w¨ahrend der Interaktion mit einer externen Umgebung
I
Lernen “was zu tun ist” — wie man Situationen auf Aktionen abbildet — um ein numerisches Reward-Signal zu maximieren
4
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
¨ Uberwachtes Lernen Trainings Info = gew¨unschte (Soll-) Ausgabe
Eingaben
Überwacht lernendes System
Ausgaben
Fehler = (Soll-Ausgabe – Systemausgabe)
Zhang
5
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Reinforcement Learning Trainings Info = Bewertungen (“rewards” / “penalties”)
Eingaben
RL System
Ausgaben (“Aktionen”)
Ziel: erreiche soviel Reward wie m¨oglich
Zhang
6
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Reinforcement Learning I I
Ziel: M¨oglichst erfolgreich“ in der Umgebung agieren ” Entspricht Maximierung der Belohnungssequenz Rt
(
!
Zhang
7
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Der vollst¨andige Agent I
Zeitlich situiert
I
Best¨andiges Lernen und Planen
I
Beeinflusst die Umgebung
I
Umgebung ist stochastisch und ungewiss Umgebung
Zustand Aktion Reward Agent Zhang
8
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Elemente des RL
Policy Reward Value Modell der Umgebung
Zhang
I
Policy: was ist zu tun
I
Reward: was ist gut
I
Value: was ist gut, da es Reward vorhersagt
I
Modell: was folgt auf was
9
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Ein erweitertes Beispiel: TicTacToe Ein erweitertes Beispiel: Tic-Tac-Toe O
x
x
X
O X O
O X
O X
O X
X
X
X X
X O X
X O X
O X O
O X X O
} x’s Zug
... x
...
...
x o
} o’s Zug
...
o
o x
x x
...
...
...
...
...
} x’s Zug } o’s Zug
x o x xo
} x’s Zug
Setzt einen nicht perfekten Gegner voraus: er/sie macht Fehler Zhang
10
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Ein RL Ansatz f¨ur TicTacToe 1. Erstelle eine Tabelle mit einem Eintrag pro Zustand: Zustand x
1
...
...
x o o o
0
...
...
x
...
... x x x o o
V(s) – geschätzte Wahrscheinlichkeit für den Gewinn .5 2. Jetzt spiele viele Spiele. .5
o x o o x x x o o
0
gewonnen
Um einen Zug zu wählen, schaue einen Schritt nach vorne: Momentaner Zustand
verloren
* unentschieden
Verschiedene mögliche nächste Zustände
Nehme den nächsten Zustand mit der höchsten geschätzten Gewinnwahrscheinlichkeit — das höchste V(s); ein greedy Zug. Aber in 10% aller Fälle wähle einen zufälligen Zug; ein explorierender Zug.
Zhang
11
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
RL-Lernregel f¨ur Tic-Tac-Toe "* 7
7
7
Zhang
6
6 6 6 6 6
Explorierender Zug
)
s – Zustand vor dem greedy Zug s ′ – Zustand nach dem greedy Zug )
Wir inkrementieren jedes V(s) zu V( s ′) – ein „backup“ :
kleiner positiver Wert, z.B. α = 0.1 )
der „Schrittweitenparameter“
12
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Verbesserung des Tic Tac Toe Spielers I
Beachten von Symmetrien I I
I
Braucht man “Zufallsz¨ uge”? Warum? I
I I
I
Zhang
Braucht man immer die 10 %?
Kann man von “Zufallsz¨ ugen” lernen? Kann man offline lernen? I
I
Darstellung/Generalisierung Wie kann dies fehlschlagen?
Vor-Lernen durch Spielen gegen sich selbst? Verwendung von gelernten Modellen des Gegners?
...
13
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
z.B. Generalisierung Tabelle Zustand
V
Generalisierender Funktionsapproximator Zustand
V
s1 s
2 3
s . Trainiere
.
hier
.
N
Zhang
14
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Warum ist TicTacToe einfach?
Zhang
I
Endliche, kleine Anzahl an Zust¨anden
I
Es ist immer m¨oglich einen Schritt nach vorne zu gucken (one-step look ahead)
I
Zust¨ande komplett wahrnehmbar
I
...
15
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Einige namhafte RL Anwendungen I
TD-Gammon: Tesauro I
I
Aufzugssteuerung: Crites & Barto I
I
10–15 % Verbesserung gegen¨ uber standard Industriemethoden
Dynamische Kanalzuordnung: Singh & Bertsekas, Nie & Haykin I
Zhang
High Performance “down-peak” Aufzugscontroller
Lagerverwaltung: Van Roy, Bertsekas, Lee & Tsitsiklis I
I
weltbestes Backgammon Programm
High Performance Zuordnung von Funkkan¨alen zu Mobiltelefonaten
16
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
TD-Gammon Tesauro, 1992–1995
Tesauro, 1992–1995
Value
Aktionsauswahl durch 2–3 Lagensuche
TD Fehler
Vt1 Vt
I
Starte mit zuf¨alligem Netzwerk
I
Spiele sehr viele Spiele gegen dich selbst
I
Lerne eine Wertefunktion anhand dieser simulierten Erfahrung
Dies produziert wohl den besten Spieler der Welt Zhang
17
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Aufzugseinteilung Crites and Barto, 1996,
10 Stockwerke, 4 Kabinen Zustände: Knopfzustände; Positionen, Richtungen, und Bewegungszustände der Kabinen; Personen in Kabinen & in Etagen Aktionen: halte an X, oder fahre nach Y, nächste Etage Rewards: geschätzt, –1 pro Zeitschritt für jede wartende Person
Vorsichtige Sch¨ atzung: ca. 1022 Zust¨ ande Zhang
18
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
Performance Vergleich
Zhang
19
MIN Faculty Department of Informatics
University of Hamburg Introduction
Reinforcement Learning
RL Geschichte Trial-and-Error learning Thorndike (