Multiagent Interactions

Multiagent Interactions Ein Vortrag von: Rhena Möller und Svenja Heitländer Für das Seminar Multiagentensysteme SS09 Inhalt ● Einleitung ● Was i...
1 downloads 0 Views 411KB Size
Multiagent Interactions Ein Vortrag von: Rhena Möller und Svenja Heitländer

Für das Seminar Multiagentensysteme SS09

Inhalt ●

Einleitung



Was ist Interaktion und wie funktioniert sie? ➢ ➢ ➢ ➢



Utility & Preferences Multiagent Encounters Dominante Strategien & Nash Equlibrium Konkurrenz- & Nullsummen-Interaktionen

Anwendungen ➢ ➢ ➢ ➢ ➢

Prisoner's Dilemma Axelrod's Tournament Stag Hunt The Game of Chicken Abhängigkeiten in Multiagentensystemen

Einleitung

„There is no such thing as a single agent system!“

Einleitung Typische Struktur eines Multiagentensystems Agenten interagieren miteinander Agenten agieren in einer Umwelt Ein Agent kann nur Teile dieser Umwelt beeinflussen Die Bereiche können sich auch überlagern

Utility & Preferences Agent I

Agent J



Vereinfachung auf 2 Agenten



Jeder von ihnen hat eigene Präferenzen und Wünsche



Sie handeln eigennützig

Utility & Preferences Menge Ω = {ω1, ω2,...} von Zuständen/Ausgängen der Umwelt

Die Präferenzen der beiden Agenten werden durch eine Nutzwertfunktion beschrieben

ui : Ω → ℝ

uj : Ω → ℝ

Utility & Preferences Präferenzordnung für fürPräferenz Präferenzgilt: gilt: für fürstrenge strengePräferenz Präferenzgilt: gilt:

ωωc für ui(ω) ≥ ui(ω′) ci ω' i ω' für ui(ω) ≥ ui(ω′) ωω_ für ui(ω) > ui(ω′) _i ω' i ω' für ui(ω) > ui(ω′)

Reflexivität:

für alle ωєΩ gilt: ω ci ω

Transitivität:

wenn ω ci ω' und ω' ci ω'', dann ω ci ω''

Vergleichbarkeit:

für alle ωєΩ und ω'єΩ gilt entweder ω' ci ω oder ω ci ω'

Multiagent Encounters ●



Agenten wählen gleichzeitig und ohne Wissen über den anderen Aktionen Zwei Aktionen: C (kooperieren) und D (defektieren)



Menge Ac = {C,D} dieser Aktionen



Daraus ergibt sich die Umweltfunktion

ττ:: Ac Ac Agent I's Aktion

xx

Ac Ac → →Ω Ω Agent J's Aktion

Multiagent Encounters Beispiele Empfindliche Umgebung τ(D,D) = ω1 ,

τ(D,C) = ω2 ,

τ(C,D) = ω3 , τ(C,C) = ω4

Unempfindliche Umgebung τ(D,D) = ω1 ,

τ(D,C) = ω1 ,

τ(C,D) = ω1 , τ(C,C) = ω1

Und hier ? τ(D,D) = ω1 ,

τ(D,C) = ω2 ,

τ(C,D) = ω1 , τ(C,C) = ω2

=> Nur empfindlich gegenüber J

Multiagent Encounters Kombination aus Umweltfunktion & Nutzwertfunktion Empfindliche Umgebung

τ(D,D) = ω1 ,

τ(D,C) = ω2 , τ(C,D) = ω3

, τ(C,C) = ω4

Nutzwertfunktionen

ui(ω1) = 1, ui(ω2) = 1, ui(ω3) = 4, ui(ω4) = 4 uj(ω1) = 1, uj(ω2) = 4, uj(ω3) = 1, uj(ω4) = 4

anders geschrieben

uui(D,D) = 1, ui(D, C) = 1, ui(C, D) = 4, ui(C, C) = 4 i(D,D) = 1, ui(D, C) = 1, ui(C, D) = 4, ui(C, C) = 4 uuj(D,D) = 1, uj(D, C) = 4, uj(C, D) = 1, uj(C, C) = 4 j(D,D) = 1, uj(D, C) = 4, uj(C, D) = 1, uj(C, C) = 4

Multiagent Encounters Auszahlungsmatrix ui(D,D) = 4, ui(D, C) = 4, ui(C, D) = 1, ui(C, C) = 1 uj(D,D) = 4, uj(D, C) = 1, uj(C, D) = 4, uj(C, C) = 1

Agent I's Präferenzen für das Beispiel D,D ci D,C _i C,D ci C,C I defektiert I kooperiert

4

J defektiert

4

1 4

4

J kooperiert

1

1 1

Dominante Strategien & Nash Equlibrium Dominante Strategien Was tu ich denn nun?

Ω1 dominiert Ω2 für Agent I wenn gilt: ωω11c 2 ci ω i ω2

∀ ∀ωω11∈∈ΩΩ11, ,ωω22∈∈ΩΩ22

Für strenge Dominanz gilt: ωω11_ 2 _i ω i ω2

∀ ∀ωω11∈∈ΩΩ11, ,ωω22∈∈ΩΩ22

Dominante Strategien & Nash Equlibrium Beispiel Ω = {ω1, ω2, ω3, ω4} Ω1 = {ω1, ω2} Ω2 = {ω3, ω4} ω1 ci ω2 ci ω3 ci ω4

Ω1 dominiert Ω2

In der Spieletheorie werden Aktionen als „Strategien“ bezeichnet Für Dominanz bei Strategien gilt: s* s*==Menge Mengealler allerAusgänge, Ausgänge,die diebei beiStrategie Strategiessauftreten auftretenkönnen können ss1 1dominiert dominiertss2,2,wenn wennss1*1*ss2*2*dominiert dominiert Ein rationaler Agent wählt also in so einer Situation immer s1, da er so garantiert ein besseres Ergebnis erzielt als mit s2

Dominante Strategien & Nash Equlibrium Nash Equilibrium ●



in nicht-kooperativen Spielen ein Zustand eines strategischen Gleichgewichts ein einzelner Agent kann für sich keinen Vorteil erzielen, indem er einseitig von seiner Strategie abweicht.

Unter Unterder derAnnahme, Annahme,dass dassAgent AgentI Iss1 1spielt, spielt, bleibt bleibtAgent AgentJJkeine keinebessere bessereWahl Wahlals alsss2 2zu zuspielen. spielen. Unter Unterder derAnnahme, Annahme,dass dassAgent AgentJJss2 2spielt, spielt, bleibt bleibtAgent AgentI Ikeine keinebessere bessereWahl Wahlals alsss1 1zu zuspielen. spielen.

Dominante Strategien & Nash Equlibrium Beispiel Agent J

Agent I

Links 2 Oben 4 3 Mitte 2 0 Unten 3

Mitte Rechts

1 1

0 2

1 1

4 1

2 0

3 1



gegeben Agent J spielt Rechts: Für Agent I ist oben optimal



gegeben Agent J spielt Mitte: oben und mitte ist optimal



gegeben Agent J spielt Links: oben ist optimal



gegeben Für Agent I spielt Oben: Für Agent J ist Links optimal



gegeben Agent I spielt Mitte: Rechts ist optimal



gegeben Agent I spielt Unten: Rechts ist optimal

Das DasNash NashEquilibrium Equilibrium ist isthier hierdie dieStrategie Strategie 44- -22(Oben/Links) (Oben/Links)

Dominante Strategien & Nash Equlibrium

Was könnten die Probleme sein?

Dominante Strategien & Nash Equlibrium Aber: Noch nicht die Antwort auf die Frage, was in einem Szenario zu tun ist!



Nicht jedes Szenario hat ein Nash Equilibrium



Einige Szenarien haben mehr als ein Nash Equilibrium Trotzdem Trotzdemein einsehr sehrwichtiges wichtigesKonzept Konzeptfür fürdie die Analyse Analysevon vonMultiagentensystemen! Multiagentensystemen!

Konkurrenz& Nullsummeninteraktion Konkurrenz



ω _i ω′ genau dann, wenn ω′ _j ω



Interessen genau entgegengesetzt



Ein Agent kann einen höheren Nutzwert nur auf Kosten des Anderen erzielen

Konkurrenz& Nullsummeninteraktion Nullsummen-Interaktion ●

Spezialfall der Konkurrenzinteraktion



ui(ω)+ uj(ω) = 0 ∀ω∈Ω



bösartigste Art der Interaktion, da Kooperation ausgeschlossen ist I defektiert I kooperiert

Beispiel

1

J defektiert

-1

-2 2

-3

J kooperiert

3

4 -4

Prisoner's Dilemma Gestehen oder nicht?

Gesteht nur einer wird er freigelassen und der andere bekommt 20 Jahre Gestehen beide, beide 5 Jahre Gesteht keiner, beide 1 Jahr

Prisoner's Dilemma

Was würdest du tun?

Prisoner's Dilemma kooperieren: schweigen

defektieren: gestehen

Auszahlungswerte:

20 Jahre -> 0 (ziemlich schlecht) 5 Jahre -> 2 (schlecht) 1 Jahr -> 3 (etwas besser) frei -> 5 (gut)

Präferenzordnung

iD jD

iC 2

2 jC

0 5

5

3

i: D,C _i C,C _i D,D _i C,D 0 3 j: C,D _j C,C _j D,D _j D,C schweigen: bestes garantiertes Ergebnis= PayOff 0 gestehen: bestes garantiertes Ergebnis= PayOff 2

Logischer Agent würde Gestehen

Prisoner's Dilemma

Fällt jemanden ein Beispiel für eine reale Situation ein?

Prisoner's Dilemma iteriert Endlos: logisch wäre im 1.Zug zu kooperieren ein Fehlschlag ließe sich über die Wiederholungen ausgleichen Endlich: 100 mal => Runde 100 = Prisoner's Dilemma => Runde 99 = Prisoner's Dilemma => Runde 98 = Prisoner's Dilemma => ... kein Unterschied, womit defektieren in jeder Runde rational wäre

Prisoner's Dilemma iteriert damit Kooperation rationales Verhalten ist muß der vorherige Zug des Gegeners bekannt sein

Hat jemand eine Idee für eine Strategie?

Axelrod's Tournament 1980 Politikwissenschaftler, Psychologen, Wirtschaftswissenschaftler und Spieltheoretiker sollten ein Programm für das iterierte Prisoner's dilemma einreichen Spielregeln: Jeder gegen jeden, 5 Spiele zu 200 Runden Gewinner: insgesamt größter PayOff

Axelrod's Tournament Strategien ALL-D

„Hauptsache dagegen“

RANDOM TIT-FOR-TAT

„Mal so mal so“ „Wie du mir so ich dir“

Runde r=1 kooperieren Runde t>1 tu was der Gegner vorher (r-1) getan hat (simpelste Strategie mit nur 5 Zeilen Fortran Code)

Axelrod's Tournament Strategien TESTER

„Erstmal die Lage sondieren“

r=1: defektieren if (Gegner defektieren) do (TIT-FOR-TAT) if (Gegnger cooperate) do (Schleife 2xkooperieren und 1xdefektieren)

JOSS

„meistens – wie du mir so ich dir“

wie TIT-FOR-TAT, ersetzt in 10% der Fälle kooperieren mit defektieren

Axelrod's Tournament Wer hat gewonnen?

Wer hat gewonnen?

Axelrod's Tournament Wer hat gewonnen?

TIT-FOR-TAT Schlussfolgerung: aus rationalem Verhalten folgt Kooperation doch: TFT gewann da es hauptsächlich gegen kooperierende Strategien spielte gegen ALL-D verlor TFT

Axelrod's Tournament Strategien

Axelrod's 4 Regeln für den Erfolg Nicht Neidisch sein Nicht als erster defektieren Gerecht sein Nicht zu schlau sein

The stag hunt "trust dilemma"

kooperieren: tauche mit lächerlicher Fisur in der Schule auf defektieren: kneife i: C,C _i D,C _i D,D _i C,D j: C,C _j C,D _j D,D _j D,C iD jD

iC 1

1 jC

0 2

2 0

3 3

The game of chicken … denn sie wissen nicht, was sie tun „Rebell ohne Grund“ Symbolfigur für den aufmüpfigen, unangepaßten Jugendlichen

The game of chicken



mit Vollgas auf eine Klippe zufahren



kooperieren: kneifen



defektieren: weiterfahren

D,C _i C,C _i C,D _i D,D

iD jD

iC 0

0 jC

1 3

3 1

2 2

Abhängigkeiten in Multiagentensystemen Unbhängigkeit der Agenten Einseitig – Ein Agent abhängig von anderem aber nich andersrum Gegenseitig – beide voneinander abhängig Reziprok – voneinander abhängig aber evtl unterschiedliche Ziele

Fragen?

Danke für eure Aufmerksamkeit!