Multiagent Interactions Ein Vortrag von: Rhena Möller und Svenja Heitländer
Für das Seminar Multiagentensysteme SS09
Inhalt ●
Einleitung
●
Was ist Interaktion und wie funktioniert sie? ➢ ➢ ➢ ➢
●
Utility & Preferences Multiagent Encounters Dominante Strategien & Nash Equlibrium Konkurrenz- & Nullsummen-Interaktionen
Anwendungen ➢ ➢ ➢ ➢ ➢
Prisoner's Dilemma Axelrod's Tournament Stag Hunt The Game of Chicken Abhängigkeiten in Multiagentensystemen
Einleitung
„There is no such thing as a single agent system!“
Einleitung Typische Struktur eines Multiagentensystems Agenten interagieren miteinander Agenten agieren in einer Umwelt Ein Agent kann nur Teile dieser Umwelt beeinflussen Die Bereiche können sich auch überlagern
Utility & Preferences Agent I
Agent J
●
Vereinfachung auf 2 Agenten
●
Jeder von ihnen hat eigene Präferenzen und Wünsche
●
Sie handeln eigennützig
Utility & Preferences Menge Ω = {ω1, ω2,...} von Zuständen/Ausgängen der Umwelt
Die Präferenzen der beiden Agenten werden durch eine Nutzwertfunktion beschrieben
ui : Ω → ℝ
uj : Ω → ℝ
Utility & Preferences Präferenzordnung für fürPräferenz Präferenzgilt: gilt: für fürstrenge strengePräferenz Präferenzgilt: gilt:
ωωc für ui(ω) ≥ ui(ω′) ci ω' i ω' für ui(ω) ≥ ui(ω′) ωω_ für ui(ω) > ui(ω′) _i ω' i ω' für ui(ω) > ui(ω′)
Reflexivität:
für alle ωєΩ gilt: ω ci ω
Transitivität:
wenn ω ci ω' und ω' ci ω'', dann ω ci ω''
Vergleichbarkeit:
für alle ωєΩ und ω'єΩ gilt entweder ω' ci ω oder ω ci ω'
Multiagent Encounters ●
●
Agenten wählen gleichzeitig und ohne Wissen über den anderen Aktionen Zwei Aktionen: C (kooperieren) und D (defektieren)
●
Menge Ac = {C,D} dieser Aktionen
●
Daraus ergibt sich die Umweltfunktion
ττ:: Ac Ac Agent I's Aktion
xx
Ac Ac → →Ω Ω Agent J's Aktion
Multiagent Encounters Beispiele Empfindliche Umgebung τ(D,D) = ω1 ,
τ(D,C) = ω2 ,
τ(C,D) = ω3 , τ(C,C) = ω4
Unempfindliche Umgebung τ(D,D) = ω1 ,
τ(D,C) = ω1 ,
τ(C,D) = ω1 , τ(C,C) = ω1
Und hier ? τ(D,D) = ω1 ,
τ(D,C) = ω2 ,
τ(C,D) = ω1 , τ(C,C) = ω2
=> Nur empfindlich gegenüber J
Multiagent Encounters Kombination aus Umweltfunktion & Nutzwertfunktion Empfindliche Umgebung
τ(D,D) = ω1 ,
τ(D,C) = ω2 , τ(C,D) = ω3
, τ(C,C) = ω4
Nutzwertfunktionen
ui(ω1) = 1, ui(ω2) = 1, ui(ω3) = 4, ui(ω4) = 4 uj(ω1) = 1, uj(ω2) = 4, uj(ω3) = 1, uj(ω4) = 4
anders geschrieben
uui(D,D) = 1, ui(D, C) = 1, ui(C, D) = 4, ui(C, C) = 4 i(D,D) = 1, ui(D, C) = 1, ui(C, D) = 4, ui(C, C) = 4 uuj(D,D) = 1, uj(D, C) = 4, uj(C, D) = 1, uj(C, C) = 4 j(D,D) = 1, uj(D, C) = 4, uj(C, D) = 1, uj(C, C) = 4
Multiagent Encounters Auszahlungsmatrix ui(D,D) = 4, ui(D, C) = 4, ui(C, D) = 1, ui(C, C) = 1 uj(D,D) = 4, uj(D, C) = 1, uj(C, D) = 4, uj(C, C) = 1
Agent I's Präferenzen für das Beispiel D,D ci D,C _i C,D ci C,C I defektiert I kooperiert
4
J defektiert
4
1 4
4
J kooperiert
1
1 1
Dominante Strategien & Nash Equlibrium Dominante Strategien Was tu ich denn nun?
Ω1 dominiert Ω2 für Agent I wenn gilt: ωω11c 2 ci ω i ω2
∀ ∀ωω11∈∈ΩΩ11, ,ωω22∈∈ΩΩ22
Für strenge Dominanz gilt: ωω11_ 2 _i ω i ω2
∀ ∀ωω11∈∈ΩΩ11, ,ωω22∈∈ΩΩ22
Dominante Strategien & Nash Equlibrium Beispiel Ω = {ω1, ω2, ω3, ω4} Ω1 = {ω1, ω2} Ω2 = {ω3, ω4} ω1 ci ω2 ci ω3 ci ω4
Ω1 dominiert Ω2
In der Spieletheorie werden Aktionen als „Strategien“ bezeichnet Für Dominanz bei Strategien gilt: s* s*==Menge Mengealler allerAusgänge, Ausgänge,die diebei beiStrategie Strategiessauftreten auftretenkönnen können ss1 1dominiert dominiertss2,2,wenn wennss1*1*ss2*2*dominiert dominiert Ein rationaler Agent wählt also in so einer Situation immer s1, da er so garantiert ein besseres Ergebnis erzielt als mit s2
Dominante Strategien & Nash Equlibrium Nash Equilibrium ●
●
in nicht-kooperativen Spielen ein Zustand eines strategischen Gleichgewichts ein einzelner Agent kann für sich keinen Vorteil erzielen, indem er einseitig von seiner Strategie abweicht.
Unter Unterder derAnnahme, Annahme,dass dassAgent AgentI Iss1 1spielt, spielt, bleibt bleibtAgent AgentJJkeine keinebessere bessereWahl Wahlals alsss2 2zu zuspielen. spielen. Unter Unterder derAnnahme, Annahme,dass dassAgent AgentJJss2 2spielt, spielt, bleibt bleibtAgent AgentI Ikeine keinebessere bessereWahl Wahlals alsss1 1zu zuspielen. spielen.
Dominante Strategien & Nash Equlibrium Beispiel Agent J
Agent I
Links 2 Oben 4 3 Mitte 2 0 Unten 3
Mitte Rechts
1 1
0 2
1 1
4 1
2 0
3 1
●
gegeben Agent J spielt Rechts: Für Agent I ist oben optimal
●
gegeben Agent J spielt Mitte: oben und mitte ist optimal
●
gegeben Agent J spielt Links: oben ist optimal
●
gegeben Für Agent I spielt Oben: Für Agent J ist Links optimal
●
gegeben Agent I spielt Mitte: Rechts ist optimal
●
gegeben Agent I spielt Unten: Rechts ist optimal
Das DasNash NashEquilibrium Equilibrium ist isthier hierdie dieStrategie Strategie 44- -22(Oben/Links) (Oben/Links)
Dominante Strategien & Nash Equlibrium
Was könnten die Probleme sein?
Dominante Strategien & Nash Equlibrium Aber: Noch nicht die Antwort auf die Frage, was in einem Szenario zu tun ist!
●
Nicht jedes Szenario hat ein Nash Equilibrium
●
Einige Szenarien haben mehr als ein Nash Equilibrium Trotzdem Trotzdemein einsehr sehrwichtiges wichtigesKonzept Konzeptfür fürdie die Analyse Analysevon vonMultiagentensystemen! Multiagentensystemen!
Konkurrenz& Nullsummeninteraktion Konkurrenz
●
ω _i ω′ genau dann, wenn ω′ _j ω
●
Interessen genau entgegengesetzt
●
Ein Agent kann einen höheren Nutzwert nur auf Kosten des Anderen erzielen
Konkurrenz& Nullsummeninteraktion Nullsummen-Interaktion ●
Spezialfall der Konkurrenzinteraktion
●
ui(ω)+ uj(ω) = 0 ∀ω∈Ω
●
bösartigste Art der Interaktion, da Kooperation ausgeschlossen ist I defektiert I kooperiert
Beispiel
1
J defektiert
-1
-2 2
-3
J kooperiert
3
4 -4
Prisoner's Dilemma Gestehen oder nicht?
Gesteht nur einer wird er freigelassen und der andere bekommt 20 Jahre Gestehen beide, beide 5 Jahre Gesteht keiner, beide 1 Jahr
Prisoner's Dilemma
Was würdest du tun?
Prisoner's Dilemma kooperieren: schweigen
defektieren: gestehen
Auszahlungswerte:
20 Jahre -> 0 (ziemlich schlecht) 5 Jahre -> 2 (schlecht) 1 Jahr -> 3 (etwas besser) frei -> 5 (gut)
Präferenzordnung
iD jD
iC 2
2 jC
0 5
5
3
i: D,C _i C,C _i D,D _i C,D 0 3 j: C,D _j C,C _j D,D _j D,C schweigen: bestes garantiertes Ergebnis= PayOff 0 gestehen: bestes garantiertes Ergebnis= PayOff 2
Logischer Agent würde Gestehen
Prisoner's Dilemma
Fällt jemanden ein Beispiel für eine reale Situation ein?
Prisoner's Dilemma iteriert Endlos: logisch wäre im 1.Zug zu kooperieren ein Fehlschlag ließe sich über die Wiederholungen ausgleichen Endlich: 100 mal => Runde 100 = Prisoner's Dilemma => Runde 99 = Prisoner's Dilemma => Runde 98 = Prisoner's Dilemma => ... kein Unterschied, womit defektieren in jeder Runde rational wäre
Prisoner's Dilemma iteriert damit Kooperation rationales Verhalten ist muß der vorherige Zug des Gegeners bekannt sein
Hat jemand eine Idee für eine Strategie?
Axelrod's Tournament 1980 Politikwissenschaftler, Psychologen, Wirtschaftswissenschaftler und Spieltheoretiker sollten ein Programm für das iterierte Prisoner's dilemma einreichen Spielregeln: Jeder gegen jeden, 5 Spiele zu 200 Runden Gewinner: insgesamt größter PayOff
Axelrod's Tournament Strategien ALL-D
„Hauptsache dagegen“
RANDOM TIT-FOR-TAT
„Mal so mal so“ „Wie du mir so ich dir“
Runde r=1 kooperieren Runde t>1 tu was der Gegner vorher (r-1) getan hat (simpelste Strategie mit nur 5 Zeilen Fortran Code)
Axelrod's Tournament Strategien TESTER
„Erstmal die Lage sondieren“
r=1: defektieren if (Gegner defektieren) do (TIT-FOR-TAT) if (Gegnger cooperate) do (Schleife 2xkooperieren und 1xdefektieren)
JOSS
„meistens – wie du mir so ich dir“
wie TIT-FOR-TAT, ersetzt in 10% der Fälle kooperieren mit defektieren
Axelrod's Tournament Wer hat gewonnen?
Wer hat gewonnen?
Axelrod's Tournament Wer hat gewonnen?
TIT-FOR-TAT Schlussfolgerung: aus rationalem Verhalten folgt Kooperation doch: TFT gewann da es hauptsächlich gegen kooperierende Strategien spielte gegen ALL-D verlor TFT
Axelrod's Tournament Strategien
Axelrod's 4 Regeln für den Erfolg Nicht Neidisch sein Nicht als erster defektieren Gerecht sein Nicht zu schlau sein
The stag hunt "trust dilemma"
kooperieren: tauche mit lächerlicher Fisur in der Schule auf defektieren: kneife i: C,C _i D,C _i D,D _i C,D j: C,C _j C,D _j D,D _j D,C iD jD
iC 1
1 jC
0 2
2 0
3 3
The game of chicken … denn sie wissen nicht, was sie tun „Rebell ohne Grund“ Symbolfigur für den aufmüpfigen, unangepaßten Jugendlichen
The game of chicken
●
mit Vollgas auf eine Klippe zufahren
●
kooperieren: kneifen
●
defektieren: weiterfahren
D,C _i C,C _i C,D _i D,D
iD jD
iC 0
0 jC
1 3
3 1
2 2
Abhängigkeiten in Multiagentensystemen Unbhängigkeit der Agenten Einseitig – Ein Agent abhängig von anderem aber nich andersrum Gegenseitig – beide voneinander abhängig Reziprok – voneinander abhängig aber evtl unterschiedliche Ziele
Fragen?
Danke für eure Aufmerksamkeit!