Reinforcement Learning

MIN Faculty Department of Informatics University of Hamburg Reinforcement Learning Reinforcement Learning VL Algorithmisches Lernen, Teil 3d Jianwe...
Author: Regina Simen
13 downloads 0 Views 2MB Size
MIN Faculty Department of Informatics

University of Hamburg Reinforcement Learning

Reinforcement Learning VL Algorithmisches Lernen, Teil 3d

Jianwei Zhang University of Hamburg MIN Faculty, Dept. of Informatics Vogt-K¨ olln-Str. 30, D-22527 Hamburg [email protected]

08/07/2009

Zhang

1

MIN Faculty Department of Informatics

University of Hamburg Reinforcement Learning

Termin¨ubersicht: Part 3

Zhang

I

17/06/2009

Dimensionsproblem, PCA

I

18/06/2009

Support-Vektor Maschinen

I

24/06/2009

I

25/06/2009

Support-Vektor Maschinen (4st.) ¨ Ubung

I

01/07/2009

I

02/07/2009

Funktionsapproximation, Fuzzy-Logik (4st.) ¨ Ubung (Prof. Dr. Menzel)

I

08/07/2009

Verst¨ arkungslernen (1)

I

09/07/2009

Verst¨arkungslernen (2)

I

15/07/2009

Verst¨arkungslernen (3)

I

16/07/2009

Anwendungen in der Robotik 2

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Einf¨uhrung

Künstliche Intelligenz Steuerungs- und Regelungstechnik

Psychologie Reinforcement Learning (RL)

Neurowissenschaft Künstliche Neuronale Netze Zhang

3

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Was ist Reinforcement Learning?

Zhang

I

Lernen aus Interaktion

I

Ziel-orientiertes Lernen

I

Lernen durch, von, und w¨ahrend der Interaktion mit einer externen Umgebung

I

Lernen “was zu tun ist” — wie man Situationen auf Aktionen abbildet — um ein numerisches Reward-Signal zu maximieren

4

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

¨ Uberwachtes Lernen Trainings Info = gew¨unschte (Soll-) Ausgabe

Eingaben

Überwacht lernendes System

Ausgaben

Fehler = (Soll-Ausgabe – Systemausgabe)

Zhang

5

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Reinforcement Learning Trainings Info = Bewertungen (“rewards” / “penalties”)

Eingaben

RL System

Ausgaben (“Aktionen”)

Ziel: erreiche soviel Reward wie m¨oglich

Zhang

6

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Reinforcement Learning I I

Ziel: M¨oglichst erfolgreich“ in der Umgebung agieren ” Entspricht Maximierung der Belohnungssequenz Rt 

(  







 !

Zhang

7

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Der vollst¨andige Agent I

Zeitlich situiert

I

Best¨andiges Lernen und Planen

I

Beeinflusst die Umgebung

I

Umgebung ist stochastisch und ungewiss Umgebung

Zustand Aktion Reward Agent Zhang

8

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Elemente des RL

Policy Reward Value Modell der Umgebung

Zhang

I

Policy: was ist zu tun

I

Reward: was ist gut

I

Value: was ist gut, da es Reward vorhersagt

I

Modell: was folgt auf was

9

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Ein erweitertes Beispiel: TicTacToe Ein erweitertes Beispiel: Tic-Tac-Toe O

x

x

X

O X O

O X

O X

O X

X

X

X X

X O X

X O X

O X O

O X X O

} x’s Zug

... x

...

...

x o

} o’s Zug

...

o

o x

x x

...

...

...

...

...

} x’s Zug } o’s Zug

x o x xo

} x’s Zug

Setzt einen nicht perfekten Gegner voraus: er/sie macht Fehler Zhang

10

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Ein RL Ansatz f¨ur TicTacToe 1. Erstelle eine Tabelle mit einem Eintrag pro Zustand: Zustand x

1

...

...

x o o o

0

...

...

x

...

... x x x o o

V(s) – geschätzte Wahrscheinlichkeit für den Gewinn .5 2. Jetzt spiele viele Spiele. .5

o x o o x x x o o

0

gewonnen

Um einen Zug zu wählen, schaue einen Schritt nach vorne: Momentaner Zustand

verloren

* unentschieden

Verschiedene mögliche nächste Zustände

Nehme den nächsten Zustand mit der höchsten geschätzten Gewinnwahrscheinlichkeit — das höchste V(s); ein greedy Zug. Aber in 10% aller Fälle wähle einen zufälligen Zug; ein explorierender Zug.

Zhang

11

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

RL-Lernregel f¨ur Tic-Tac-Toe "  *   7

 

 7

 

 7

 

Zhang

6



6 6 6 6 6



Explorierender Zug

) 

s – Zustand vor dem greedy Zug s ′ – Zustand nach dem greedy Zug )

Wir inkrementieren jedes V(s) zu V( s ′) – ein „backup“ :





kleiner positiver Wert, z.B. α = 0.1 )

der „Schrittweitenparameter“

12

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Verbesserung des Tic Tac Toe Spielers I

Beachten von Symmetrien I I

I

Braucht man “Zufallsz¨ uge”? Warum? I

I I

I

Zhang

Braucht man immer die 10 %?

Kann man von “Zufallsz¨ ugen” lernen? Kann man offline lernen? I

I

Darstellung/Generalisierung Wie kann dies fehlschlagen?

Vor-Lernen durch Spielen gegen sich selbst? Verwendung von gelernten Modellen des Gegners?

...

13

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

z.B. Generalisierung Tabelle Zustand

V

Generalisierender Funktionsapproximator Zustand

V

s1 s

2 3

s . Trainiere

.

hier

.

N

Zhang

14

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Warum ist TicTacToe einfach?

Zhang

I

Endliche, kleine Anzahl an Zust¨anden

I

Es ist immer m¨oglich einen Schritt nach vorne zu gucken (one-step look ahead)

I

Zust¨ande komplett wahrnehmbar

I

...

15

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Einige namhafte RL Anwendungen I

TD-Gammon: Tesauro I

I

Aufzugssteuerung: Crites & Barto I

I

10–15 % Verbesserung gegen¨ uber standard Industriemethoden

Dynamische Kanalzuordnung: Singh & Bertsekas, Nie & Haykin I

Zhang

High Performance “down-peak” Aufzugscontroller

Lagerverwaltung: Van Roy, Bertsekas, Lee & Tsitsiklis I

I

weltbestes Backgammon Programm

High Performance Zuordnung von Funkkan¨alen zu Mobiltelefonaten

16

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

TD-Gammon Tesauro, 1992–1995

Tesauro, 1992–1995

Value

Aktionsauswahl durch 2–3 Lagensuche

TD Fehler

Vt1 Vt

I

Starte mit zuf¨alligem Netzwerk

I

Spiele sehr viele Spiele gegen dich selbst

I

Lerne eine Wertefunktion anhand dieser simulierten Erfahrung

Dies produziert wohl den besten Spieler der Welt Zhang

17

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Aufzugseinteilung Crites and Barto, 1996,

10 Stockwerke, 4 Kabinen Zustände: Knopfzustände; Positionen, Richtungen, und Bewegungszustände der Kabinen; Personen in Kabinen & in Etagen Aktionen: halte an X, oder fahre nach Y, nächste Etage Rewards: geschätzt, –1 pro Zeitschritt für jede wartende Person

Vorsichtige Sch¨ atzung: ca. 1022 Zust¨ ande Zhang

18

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

Performance Vergleich

Zhang

19

MIN Faculty Department of Informatics

University of Hamburg Introduction

Reinforcement Learning

RL Geschichte Trial-and-Error learning Thorndike (