Lernen durch Imitation

Lernen durch Imitation Thomas Hauck Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik 33095 Paderbo...
Author: Gabriel Baumann
3 downloads 0 Views 665KB Size
Lernen durch Imitation Thomas Hauck Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik 33095 Paderborn [email protected]

Zusammenfassung Lernen durch Imitation ist eine effiziente Methode, um Agenten komplexe Fertigkeiten mit Hilfe einfacher Demonstrationen beizubringen. Dazu führt ein menschlicher Lehrer die zu lernende Aktion vor und wird von seinen maschinellen Schülern dabei beobachtet und entsprechend nachgeahmt. Die Herausforderung für den Agenten besteht in der Auswertung der erfassten Daten, um diese in geeignete Aktionen umzusetzen. Zudem sollen die gesammelten Trainingsdaten es dem Agenten ermöglichen, in bis dato unbekannten Situationen autonom zu reagieren.

1

Einleitung

Allgemein verknüpft der Begriff des imitationsbasierten Lernens die Imitation von Verhaltensweisen mit der Möglichkeit, Fertigkeiten daraus zu erlernen. Es wird also über die bloße Nachahmung von Gesehenem hinaus eine Strategie entwickelt, die es dem Lernenden ermöglicht, neue Tätigkeiten eigenständig auszuführen, die in ihrer Herangehensweise den beobachteten Tätigkeiten eines Vorbildes – des Experten – ähnlich sind. Dass ein solches Verfahren einfach und dennoch effizient sein kann, zeigt sich bereits in der frühen Evolution, wie Menschen durch Imitation eine Sprache erlernen. Aus diesem Grund fand die ursprüngliche Erforschung auch im Bereich der Biologie bzw. Psychologie statt. Die Forschung der Künstlichen Intelligenz greift diese Ergebnisse auf, um sie in Form von Algorithmen nachzubauen, beispielsweise für automatische Mustererkennung und Klassifizierung. Eine praktische Anwendung findet man dazu in der Robotik, wo sich Roboter eigenständig in unbekannten Umgebungen zurechtfinden und Aktionen in ihr ausführen. Imitationsbasierte Lernverfahren gehören zu der Gruppe der überwachten Lernverfahren, bei denen ein Algorithmus anhand vorgegebener Trainingsbeispiele – Wertepaaren aus Ein- und Ausgaben – eine Funktion approximiert, mit der unbekannte Eingaben auf geeignete Ausgaben abgebildet werden können; im Falle von imitationsbasierten Lernverfahren entsprechen Eingaben Beobachtungen und Ausgaben Aktionen. Welche Aktionen als geeignet anzusehen sind, bestimmt dabei zumeist der Experte, dessen Verhalten bestmöglich imitiert werden soll. Die Güte der Funktion wird maßgeblich durch die Eigenschaften der Umgebung und der Menge dort ausführbarer Aktionen beeinflusst: Ist beispielsweise die Umwelt vollständig oder nur teilweise beobachtbar? Treten Zustandsänderungen kontinuierlich und zufällig auf, oder unterliegen sie ausschließlich zeitdiskreten Aktionen von Experte und Agent? Haben diese eine gemeinsame Sicht auf das Szenario? Letztere Fragestellung ist insbesondere dann interessant, wenn es sich um einen menschlichen Experten handelt, der einen Roboter trainiert, dessen Wahrnehmung auf elektronischen Sensoren beruht. Welche Schwierigkeiten dies mit sich bringt und welche wünschenswerten

106

Thomas Hauck

Eigenschaften das Szenario haben sollte, wird in Abschnitt 4 anhand zweier praktischer Simulationen erläutert. Zunächst soll im folgenden Abschnitt eine grobe Übersicht über die im Bereich der Künstlichen Intelligenz angesiedelten Lernverfahren gegeben und die Ursprünge in der Evolution kurz skizziert werden. Der nachfolgende Abschnitt liefert Verweise auf komplexe mathematische Methoden, mit denen Vorgänge des Lernens modelliert und in Form von Abbildungsfunktionen nachvollzogen werden können.

2

Verwandte Arbeiten

Dieser Abschnitt gibt eine Übersicht über themenverwandte Arbeiten und dient der Motivation der folgenden Frage: „Wer imitiert wen, warum, aus welcher Sichtweise und wie?“ Der Begriff Imitation wird häufig dann in Verbindung mit Lernen verwendet, wenn eine Person versucht, eine andere Person nachzuahmen und sich deren Verhaltensweisen teilweise einverleibt. Dieser Vorgang lässt sich sowohl bei Kleinkindern beobachten, die Erwachsene imitieren als auch bei vielen Tierarten, bei denen Jungtiere sich an ihren Eltern orientieren, um genießbare von ungenießbarer Nahrung zu unterscheiden. Neben dem spielerischen Umgang mit Gleichaltrigen ist dies für das Überleben einer Generation essenziell. Alissandrakis et al. [1] zeigen, wie bestimmte Verhaltensweisen, die sich in der Vergangenheit als effizient herausgestellt haben, von einer Generation auf die nächste übertragen werden und so dazu beitragen, den Bestand einer Art zu erhalten. Dass Imitation in der Evolution eine effiziente Methode zum Erlernen neuer Fähigkeiten ist, wird jeder Mensch unmittelbar aus eigener Erfahrung bestätigen können: Das Erlernen der Muttersprache ist ein klassischer Vorgang, der auf Imitation basiert. Um den systematischen Ablauf solch komplexer Prozesse zu verstehen, schlägt Moore [11] eine allgemeine Hypothese zur Entwicklung von Imitation vor, die aus sechs aufeinander aufbauenden Schritten besteht. Zu Beginn stellt das Individuum (z.B. ein neugeborener Mensch) fest, dass es motorische Fähigkeiten besitzt und lernt diese zu nutzen, anschließend zu kombinieren und im dritten Schritt motorisch zu lernen, d.h. Bewegungsabläufe und dessen Auswirkungen verinnerlicht. Erst im vierten Schritt begleitet ein Lehrer die Lernvorgänge des Individuums, welches dazu animiert wird, bestimmte Bewegungsabläufe zu wiederholen bzw. zu imitieren; dies nennt man Selbst-Imitation. Die generelle Imitation erfolgt im nächsten Schritt, bei der das Individuum die Bewegungsabläufe des Lehrers, bereits aus eigener Beobachtung heraus, beginnt zu imitieren. Der letzte Schritt geht über das bloße Nachahmen hinaus und ermöglicht es, aus wahrgenommenen Dingen zu abstrahieren und zu schlussfolgern. Ein Beispiel hierfür ist die Erkenntnis eines Babys, welches durch Berühren von Gesichtsbereichen seiner Eltern feststellt, dass es selbst ähnliche Merkmale besitzt. Da sich solche Prozesse im engen sozialen Umfeld einer Familie abspielen, wird Imitation auch als ein zentrales Element des Sozialen Lernens verstanden [15], bei dem sich (intelligentes) Verhalten von einer auf die nachfolgende Generation kulturell überträgt. Zumindest aus psychologischer Sicht weisen das imitierende und imitierte Lebewesen meist eine ähnliche Herkunft auf. Im Bereich der Künstlichen Intelligenz ist dies im Allgemeinen nicht der Fall, und man findet dort zwei Arten der Rollenverteilung: Der imitierende Part entspricht hier meist einem Software-Agenten oder einem Hardware-Roboter, der entweder von anderen Agenten/Robotern oder von einem Menschen lernen soll. Letzterer verfügt grundsätzlich über weitreichendere Fähigkeiten und Informationen hinsichtlich der

Lernen durch Imitation

107

Problemstellung, weswegen man den Menschen auch als Experten oder Lehrer (engl. trainer) bezeichnet. Ein Agent, von dem andere lernen, kann natürlich auch Experte sein, sofern dieser dafür ausgebildet worden ist. Die auf Imitation basierende Interaktion zwischen Agent und Mensch findet vor allem Anwendung in der Robotik, bei der Roboter bestimmte Fertigkeiten erlernen sollen, die von einem menschlichen Lehrer vorgeführt werden [13]. Da ein Mensch hinsichtlich Bewegungen und Feinmotorik einer Maschine zuweilen deutlich überlegen ist, lässt sich hieran eine Regel für imitationsbasiertes Lernen postulieren: Ein Agent kann nur solche Tätigkeiten nachahmen, die er bedingt durch seine eigene (technische) Beschaffenheit im Stande ist zu leisten. Folglich muss der Experte darauf achten, dass er zur Demonstration einer Aktion ausschließlich solche Mittel einsetzt, über die der beobachtende Agent ebenfalls verfügt. Eine weitere wünschenswerte – aber nicht zwingend notwendige – Bedingung ist, dass der Agent eine ähnliche Sicht auf die Umgebung hat, in der die Aktion ausgeführt wird. Sofern eine Aktion lediglich beobachtbar ist, ist sie von dem Agenten ausschließlich als (Zustands)änderung der Umgebung in Folge der Aktion wahrnehmbar – quasi als UrsacheWirkungs-Prinzip. Durch Wahrnehmung baut der Agent ein internes Lernmodell auf, dass ihm zukünftig ermöglichen soll, selber eine Aktion auszuführen oder vergleichbare Situationen zu erkennen und ähnlich zu klassifizieren. Diese Modellbildung beruht dabei auf dem Verfahren der Mustererkennung, die optional um statistische Vorhersagen erweitert werden kann (siehe Abschnitt 3). Allerdings kann der Experte aus seiner Sicht nur schwer beurteilen, inwieweit die Erfassung des Agenten mit der von ihm tatsächlich demonstrierten Aktion übereinstimmt. Diese Schwierigkeit wird in [12] als das sogenannte correspondence problem bezeichnet und formalisiert gerade ein Maß für die Übereinstimmung, wie ein Agent eine Aktion auffasst und nach Meinung des Experten auffassen sollte. Der Beobachtungsvorgang wird zusätzlich erschwert, wenn sich der Zustand der Umgebung auch unabhängig von einer konkreten Aktion sporadisch verändern kann; ein Beispiel ist dazu in Abschnitt 4.2 in Form einer Fahrsimulation skizziert. Die folgenden Abschnitte sind anhand der verschiedenen Varianten unterteilt, wie sich Imitation durch konkrete Lerntechniken realisieren lässt. 2.1

Imitation durch Beobachtung

Bei Imitation durch Beobachtung (engl. observation) betrachtet ein Agent den Experten, wie dieser eine einzelne oder eine Folge von Aktionen vorführt. Der Agent agiert dabei passiv, so dass der Experte während der Demonstration den Lernfortgang nicht einschätzen kann. Grundsätzlich ist es für die Demonstration erforderlich, dass die Intention, eine Aktion auszuführen und dessen Auswirkung allein durch Beobachtung bzw. Wahrnehmung erfassbar sein muss. Bei einem Agenten kommt Wahrnehmung dem Sammeln von Sensordaten gleich. Entsprechende Verfahren hat Bentivegna et al. [3] dazu eingesetzt, einem Roboter die Grundzüge des Air Hockey zu demonstrieren. Ein Mensch führt dabei bestimmte Spieltechniken aus, wie den Puck auf das gegnerische Tor zu schlagen oder das eigene Tor zu verteidigen. Der Roboter kann die gesamte Spielfläche überblicken und kann auf diese Weise das Geschehen vor und nach einer Spielaktion erfassen. Nach der Demonstrationsphase ist dieser in der Lage, aus Sensordaten die geeignete Justierung für seinen Spielerarm zu berechnen und die einzelnen Motoren für eine ausreichend schnelle Bewegung zu steuern. Anstatt der technischen Umsetzung interessiert man sich im Bereich von Multiagentensystemen (MAS) mehr für die Analyse und Verbesserung von Algorithmen, mit denen

108

Thomas Hauck

Agenten von Menschen innerhalb einer Simulationsumgebung trainiert werden oder Agenten voneinander durch Nachahmung lernen. Letzteres hat Alissandrakis et al. [2] in heterogenen MAS untersucht. Die Ergebnisse zeigen, dass Verhaltensmuster auch zwischen unterschiedlich ausgestatteten Agenten ausgetauscht werden und sich effiziente Strategien durchsetzen. Mit der Interaktion zwischen Mensch und Agent beschäftigt sich Chernova et al. [5, 6] auf Grundlage eines effizienten Verfahrens, welches die Anzahl Wiederholungen von identischen Demonstrationen durch den menschlichen Experten reduziert und damit die Trainingszeit minimiert, die notwendig ist, damit ein Agent eine Aktion autonom ausführen kann. Weitere Details und zwei Beispielszenarien werden separat in Abschnitt 4 vorgestellt. 2.2

Imitation durch praktisches Handeln

Im Gegensatz zu rein beobachtender Imitation sieht Imitation durch praktisches Handeln (engl. following) vor, gesammelte Sensordaten im gleichen Moment in eine Aktion umzusetzen. D.h. das Lernmodell passt kontinuierlich die eigene Aktion an die des Experten an und reduziert damit den Fehler zwischen Wahrnehmung und praktischer Ausführung [8]. Ein weiterer Vorteil dieses Verfahrens ist, dass die Intention des Experten dem Imitierenden nicht zwangsläufig verständlich sein muss. In [10] werden auf diese Weise Ratten trainiert, einem Artgenossen, dem Anführer, zu folgen, der sie dann durch ein Labyrinth navigiert. Hayes et al. [9] hat dieses Szenario auf eine Roboter/Roboter-Interaktion angewendet, bei dem der Experte eine fest einprogrammierte Sequenz von Aktionen durchführt, während er von einem weiteren Roboter verfolgt wird, der dieselben Aktionen nachmacht. Die Herausforderung besteht darin, die beabsichtigten Schlüsse aus einer Aktion zu ziehen, ohne dass der Experte dazu direkt Hinweise gibt. Für das Durchfahren eines Labyrinthes bedeutet dies, dass der folgende Roboter in der Trainingsphase erkennen muss, unter welchen Umständen der Experte seine Bewegungsrichtung ändert, um Hindernisse oder Ecken zu umfahren. 2.3

Imitation durch Kommunikation

Um den Lernvorgang des Agenten effizienter zu steuern, beschäftigen sich andere Arbeiten mit der Frage, inwieweit die Trainingsphase durch aktive Rückmeldung verbessert werden kann. Breazeal et al. [4] erproben auf diese Weise, wie komplexe Aktionen trainiert werden können, indem der Experte aktiv durch Sprache und visuelle Zeichen den Agenten unterstützt. Letzterer drückt seinen internen Zustand durch eine Form von Gestik und Mimik aus, für die dieser speziell konstruiert worden ist. Eine andere Form der Kommunikation verwendet Saunders et al. [14], indem der Experte direkt auf das Lernmodell eines Roboters einwirkt und Basisaktionen (engl. primitives) wie Vorwärtsfahren oder Drehung um einen bestimmten Winkel fest einprogrammiert. In der eigentlichen Trainingsphase versucht der Roboter, beobachtete Aktionen als Kombination von Basisaktionen wiederzuerkennen. Eine Basisaktion wird durch Sensordaten charakterisiert und durch das sogenannte k-Nearest-Neighbor (kNN) Verfahren als Lernmodell repräsentiert. Der Roboter soll damit unbekannte Aktionen hinsichtlich ihrer Ähnlichkeit zu bereits bekannten Aktionen vergleichen und der ähnlichsten zuordnen. Eine möglichst präzise Abstrahierung von bekannten Trainingsbeispielen ist auch Forschungsgegenstand von Chernova et al. [5, 6] (siehe Abschnitt 4). Anstatt eines kNN werden dort Klassifizierungsverfahren basierend auf Gaußschen Mischverteilungen verwendet, die im folgenden Abschnitt näher erläutert werden.

Lernen durch Imitation

3

109

Modellierung

Überwachte Lernverfahren verfolgen allgemein das Ziel, Gesetzmäßigkeiten innerhalb einer überschaubaren Menge von Trainingsdaten zu erkennen, um unbekannte Daten damit korrekt einordnen zu können. Im Falle von imitationsbasierten Lernverfahren bestehen Trainingsdaten aus einem (Beobachtung,Aktion)-Wertepaar, und eine Klassifizierung bedeutet, auf eine Beobachtung hin eine geeignete Aktion auszuführen. Die Auswahl an Aktionen ist im Vergleich zur Anzahl möglicher Beobachtungen zumeist deutlich geringer. Im mathematischen Sinn entspricht diese Methode daher dem Finden einer Funktion, die Eingaben aus einer (theoretisch) unendlichen Wertemenge auf eine beschränkte Menge von Ausgaben eindeutig abbildet. Aufgrund verrauschter Trainingsdaten gelingt es in der Regel lediglich, eine solche Funktion zu approximieren. Hierzu existieren verschiedene Techniken, die beispielsweise Funktionsparameter fortlaufend variieren (Künstliche neuronale Netze), Ähnlichkeiten zwischen Funktionswerten herausfinden (k-Nearest-Neighbor) oder Aussagen hinsichtlich der Wahrscheinlichkeit treffen, einen Funktionswert geeignet abzubilden. Zu letzteren gehören auch Gaußsche Mischverteilungen (GMM) (engl. gaussian mixture models), die Grundlage für das in Abschnitt 4 beschriebene Lernverfahren sind. 3.1

Gaußsche Mischverteilung (GMM)

Gaußsche Mischverteilungen sind formal durch eine gewichtete Summe von gaußverteilten Dichtefunktionen definiert [16]. Die Wahrscheinlichkeitsdichtefunktion einer GMM entspricht:

wobei 0 < ωc ≤ 1 und

PC

c=1

p(x | Θ) =

PC

c=1

ωc N (x; µc , σc )

ωc = 1 und N (x; µc , σc ) =

√1 σ 2π

2

· exp (− (x−µ) 2σ 2 )

Durch die Gewichtungsfaktoren wc ist sichergestellt,R dass p(x | Θ) die Eigenschaften ∞ einer herkömmlichen Dichtefunktion erfüllt und somit 0 p(x | Θ) = 1 gilt. Die Anzahl C der aufsummierten Dichtefunktionen hängt von der Präzision des jeweiligen Modells ab und damit von der Anzahl beobachtbarer Eigenschaften. Eine GMM ist durch den Vektor Θ charakterisiert, der für jede enthaltene Dichtefunktion deren Erwartungswert, Varianz und Gewichtung enthält: Θ = {µ1 , σ1 , ω1 , . . . , µc , σc , ωc }. Im Gegensatz zu einer einzelnen Dichtefunktion können damit komplexere Wahrscheinlichkeitsverteilungen beschrieben werden, wie z.B. solche mit mehreren lokalen Maxima; für eine tiefergehende Beschreibung der mathematischen Hintergründe sei auf [16] verwiesen. Für imitationsbasierte Lernverfahren besteht die Motivation für GMMs in der Möglichkeit, die Güte der zu lernenden Funktion mittels Wahrscheinlichkeitsaussagen zu beurteilen. D.h. auf eine unbekannte Eingabe liefert die Funktion neben einer gewählten Ausgabe eine Einschätzung, inwieweit diese Aktion auch die richtige war. Diese auf Wahrscheinlichkeiten basierende Prognose ist insbesondere dann nützlich, wenn die Menge an möglichen Eingaben sehr groß ist und ähnliche Eingaben dennoch auf unterschiedliche Ausgaben abgebildet werden. Um ein erstes grobes Modell einer GMM zu initialisieren, ist eine Menge von Trainingsbeispielen notwendig, bei denen demnach die Wahrscheinlichkeit gleich 1 ist, dass die Beispiel-Eingabe korrekt klassifiziert wurde; im Falle von imitationsbasierten Lernverfahren

110

Thomas Hauck

sind dies Wertepaare aus Beobachtung und demonstrierter Aktion. Nach Absolvierung der Trainingsbeispiele werden für diese die jeweiligen Beobachtungspunkte in Gruppen (engl. cluster) unterteilt, entsprechend der zugehörigen Aktion. Somit gibt es genauso viele Gruppen wie demonstrierte Aktionen. Für jede Gruppe wird anschließend die jeweilige Menge von Beobachtungspunkten durch eine GMM repräsentiert. Ein Beobachtungspunkt bzw. allgemeiner ein Beobachtungsvektor besteht dabei aus einer Sammlung von Messwerten, die die Beobachtung ausmachen. Jeder Messwert entspricht damit einer Komponente des Vektors. 3.2

Visualisierung von GMMs

Grafisch lässt sich dies in Form eines Koordinatensystems veranschaulichen, in welches alle Beobachtungspunkte eingetragen werden. Die Dimension entspricht der Anzahl von Komponenten. Jede Koordinatenachse beschreibt somit die Ausprägung eines bestimmten Messwertes. Für jede „Punktwolke“ von Beobachtungen, die eine bestimmte Aktion gemeinsam haben, wird nun ein Gebilde gesucht, welches möglichst alle diese Punkte verbindet. Auf diese Weise soll erreicht werden, dass für einen unbekannten Beobachtungspunkt, der sich innerhalb oder in der Nähe eines solchen Gebildes befindet, die ausgegebene Wahrscheinlichkeit möglichst hoch ist, dass diese neue Beobachtung in die zugehörige Aktionsgruppe gehört. Gemäß Abbildung 1 visualisieren die geometrischen Gebilde jeweils eine GMM. Für die mathematische Konstruktion dieser Gebilde, die jedem Trainingspunkt eine Wahrscheinlichkeit nahe 1 zuordnet, sind aufwendige Verfahren notwendig, die zunächst die Kennwerte der einzelnen Dichtefunktionen schätzen, um anschließend die einzelnen Gewichtungsfaktoren der resultierenden GMM zu berechnen.

Abbildung 1. Visualisierung von GMMs [5]

Lernen durch Imitation

4

111

Imitationsbasiertes Lernverfahren von Chernova et al. [5, 6]

Dieser Abschnitt stellt anhand der Arbeiten von Chernova et al. [5, 6] ein Verfahren vor, mit dem ein einzelner Agent sowie ein MAS eine bestimmte Folge von Tätigkeiten erlernen kann, die von einem menschlichen Experten zuvor demonstriert worden sind. Diese anfängliche nicht-interaktive Demonstrationsphase wird um die sogenannte Confident-Execution-Phase erweitert, in der ein Agent eigenständig entscheidet, eine Aktion nach eigener Einschätzung zu wählen und auszuführen oder den Experten zu bitten, die geeignete Aktion vorzuführen. Das Entscheidungskriterium basiert dabei auf einem Konfidenzwert, der einer Wahrscheinlichkeitsaussage basierend auf gaußschen Mischverteilungen entspricht. 4.1

Lernalgorithmus

Mit Hilfe des Lernalgorithmus baut ein einzelner Agent sein Klassifikationsmodell zum Ausführen einer geeigneten Tätigkeit auf eine Beobachtung hin auf. Im Kern handelt es sich also um eine Funktion, die eine Beobachtung, zusammengesetzt aus Sensordaten, auf eine bestimmte Aktion abbildet. Das Verfahren besteht aus zwei Phasen, die nacheinander ausgeführt werden. Zu Beginn beobachtet der Agent den menschlichen Experten bei der Ausführung einer Aktion innerhalb eines bestimmten Szenarios. Der Zustand des Szenarios, der in Folge der Aktion des Experten beeinflusst wird, wird durch die Sensoren des Agenten erfasst und als Trainingsbeispiel in sein aktuelles Klassifikationsmodell aufgenommen. Gleichzeitig vergleicht der Agent die demonstrierte Aktion mit derjenigen Aktion, die sein Klassifikationsmodell für diesen – bis dato unbekannten – Trainingspunkt gewählt hätte. Nach dem Durchlaufen mehrerer Trainingsbeispiele lässt sich anhand dieser Vergleiche die Präzision des Modells einschätzen, inwieweit der Agent auch ohne die Hilfe des Experten eine Beobachtung richtig deutet, indem er die bestmögliche Aktion auswählt. Der Agent aktualisiert sein Klassifikationsmodell, sobald eine gewisse Menge von Trainingsbeispielen absolviert worden ist. Bis zu dieser Stelle hat dieser selbst noch keine Aktion in der Umgebung ausgeführt, weshalb diese Phase auch als nicht-interaktive Demonstrationsphase bezeichnet wird. Beendet wird diese Phase durch den Experten, wenn dieser der Meinung ist, dass die bislang erreichte Präzision des Klassifikationsmodells ausreichend ist. In der Confident-Execution-Phase erprobt der Agent anschließend sein bis dahin entwickeltes Modell, indem er eigenständig Aktionen in der Umgebung ausführt. Dazu nimmt er Sensorinformationen auf, für die sein Modell eine eindeutige Aktion bestimmt und den Konfidenzwert ausgibt, mit dem der Agent, auf Basis einer Wahrscheinlichkeit, sich selbst einschätzt, die bestmögliche Aktion gewählt zu haben. Liegt diese Wahrscheinlichkeit über einem zuvor festgelegten Schwellwert, führt der Agent die Aktion autonom aus. Sollte er sich stattdessen „unsicher“ sein bzw. der Konfidenz- den Schwellwert unterschreiten, veranlasst er den Experten, die richtige Aktion für die aktuelle Situation vorzuführen. Der Agent merkt sich die demonstrierte Aktion, führt diese dann aus und aktualisiert sein Modell. Anhand des Schwellwertes kann somit auch die Bereitschaft des Agenten variiert werden, auch bei ungewissen, leicht verrauschten Sensordaten in der Umgebung autonom zu agieren. Gleichzeitig ist diese Art des Verfahrens für den Experten vorteilhaft, da auf die Demonstration derjenigen Trainingspunkte verzichtet werden kann, die der Agent bereits ausreichend gut gelernt hat zu klassifizieren. Somit muss der Experte nur dann aktiv werden, wenn sich der Agent in Situationen befindet, die sich hinsichtlich der Sensordaten grundlegend von

112

Thomas Hauck

bereits bekannten Beobachtungspunkten unterscheiden und diese somit als weitere Trainingsbeispiele für die Verbesserung des Klassifikationsmodells unentbehrlich sind. Die folgenden Abschnitte skizzieren dazu zwei konkrete Szenarien. Im ersten führt ein einzelner Agent isoliert Aktionen in einer sich ändernden Umgebung aus. Das zweite Beispiel ist dahingehend komplexer, als dass nun zwei Agenten in einer statischen Umgebung agieren, so dass ein Agent die ausgeführten Aktionen des jeweils anderen unmittelbar erfassen und berücksichtigen muss. 4.2

Szenario 1: Dynamische Umgebung

Dieses Anwendungsbeispiel umfasst eine vereinfachte Fahrsimulation, in der ein einzelner Agent durch Imitation eines menschlichen Experten lernen soll, sein Fahrzeug durch eine Umgebung zu steuern. Letztere besteht neben einem linken und einem rechten Seitenstreifen aus drei Fahrspuren, auf denen weitere Fahrzeuge mit einer konstanten Geschwindigkeit zwischen 20 und 40 mph fahren. Für das Fahrzeug des Agenten ist die Geschwindigkeit mit 60 mph höher aber ebenfalls fest vorgegeben. Der Agent soll nun eine Strategie lernen, wie durch rechtzeitige Spurwechsel die übrigen Fahrzeuge überholt und Kollisionen, wie das Auffahren auf ein vorausfahrendes langsameres Fahrzeug, vermieden werden können. Dafür stehen drei Aktionen zur Verfügung: Spur beibehalten oder auf linke/rechte Spur wechseln. Alle übrigen Fahrzeuge können ihre Spur nicht wechseln und fahren ausschließlich auf den drei Fahrspuren, wohingegen der Agent sogar die äußeren Seitenstreifen nutzen darf. Die sich kontinuierlich verändernde Umwelt nimmt der Agent durch vier Sensorwerte wahr: Aktuelle Fahrspur und Abstand zum nächsten Fahrzeug auf jeder der drei Fahrspuren. Damit der Agent ein geeignetes Modell aufbauen kann, welches ihm vorgibt, bei welchen Abstandswerten welche der drei Aktionen auszuführen ist, absolviert der menschliche Experte zu Beginn die Simulation, indem er sein Fahrzeug (per Tastatur) kollisionsfrei durch die Umgebung steuert. Währenddessen beobachtet der Agent, sammelt Sensordaten, bestimmt basierend auf seinem bis dato erlernten Modell eine konkrete Aktion, vergleicht diese mit der des Experten und aktualisiert sein Modell. Sobald letzteres einen bestimmten Grad an Präzision erreicht hat, durchläuft der Agent in der Confident-Execution-Phase die Simulation. Wenn er dort in Folge eines niedrigen Konfidenzwertes unsicher ist, welche Aktion die richtige ist, z.B. ob ein notwendiger Spurwechsel nach links oder rechts geeigneter ist, wird die Simulation gestoppt und der Experte veranlasst, eine Folge von Fahrmanövern zu demonstrieren, um die aktuelle Situation zu entspannen. Um die Effizienz zu beurteilen, wird neben dem Kriterium der Anzahl Kollisionen zudem die Ähnlichkeit des Fahrstils des Agenten mit dem des Experten verglichen. Für letzteres wird in einem zeitlich festgelegten Testlauf gemessen, wie lange der Agent in jeder Fahrspur gefahren ist. Eine konkrete Auswertung ist in Abbildung 3(b) dargestellt, welche die Verteilung der Zeit auf die einzelnen Fahrspuren und die Werte für Kollisionen enthält (zeitliches Verhältnis zwischen Kollisionsphase und kollisionsfreier Phase). Am linken Rand sind die Zeitpunkte aufgetragen, nach denen die Ergebnisse berechnet wurden, so dass zum Zeitpunkt „500“ in der Demonstrationsphase das Modell nur noch minimal Kollisionen (1,3%) verursachte und den rechten Seitenstreifen bevorzugte. Allerdings zeigt Abbildung 3(a), dass ab einem bestimmten Zeitpunkt die Genauigkeit des Modells sich nicht mehr steigern lässt und stattdessen sogar leicht abfällt. Wie man anhand Abbildung 3(b) aber erkennen kann, ist durch die Confident-Execution-Phase dennoch eine Verbesserung möglich: Die Verteilung der Fahrspuren wurde ausgeglichener und ähnelte der Wahl des Experten (unterster Balken) zunehmend.

Lernen durch Imitation

(a)

113

(b)

Abbildung 2. Simulationsszenarien: (a) Fahrsimulation [5], (b) Möbelsimulation [6]

(a)

(b)

Abbildung 3. Simulationsergebnisse: (a) Präzision des Lernmodells [5], (b) Spurverteilung und Anzahl Kollisionen von Agent und Experte [5]

4.3

Szenario 2: Statische Umgebung

Im zweiten Anwendungsbeispiel soll das Verfahren auf ein MAS bestehend aus zwei Agenten angewendet werden. Die Aufgabe besteht darin, ein Sofa von einem Raum durch einen schmalen Korridor mit Treppe in einen weiteren Raum zu tragen. Das Sofa sei dabei so schwer, dass die Aufgabe nur durch eine koordinierte Zusammenarbeit zu bewältigen ist, indem beide Agenten jeweils an gegenüberliegenden Enden des Möbelstücks angreifen. Dafür verfügt jeder Agent über sechs Sensoren, die die Abstände zur Wand kontinuierlich messen, und einen zusätzlichen Sensor, der anzeigt, ob die Treppe erreicht ist oder nicht. Letztere Information wird sogar dem anderen Agenten durch Kommunizieren mitgeteilt. Die Menge der möglichen Aktionen umfasst neben Kommunizieren noch Vorwärts, Rückwärts, Links, Rechts und eine Treppen-Aktion, die von beiden Agenten simultan ausgeführt wird, sobald einer die Treppe erreicht hat. Damit es möglich ist, dass beide Agenten Aktionen zur selben Zeit und identisch lange ausführen können, wird dem Szenario die Eigenschaft unterstellt, dass Zustandsänderungen immer in festen Zeitschritten erfolgen. Demnach kann exakt eine Aktion pro Zeitschritt durchgeführt werden. Mit Hilfe dieser Annahme lässt sich der Lernvorgang ebenfalls in separate Schritte unterteilen und die minimale Anzahl Zeitschritte bestimmen, nach denen das Sofa durch eine (optimale) Folge von Aktionen das Ziel erreichen kann. In [6] waren dies im konkreten Fall 39 Schritte.

114

Thomas Hauck

Besondere Anforderungen an die Agenten stellt das Bewegen des Sofas durch den schmalen Korridor, den beide nur nacheinander passieren können. Sobald der vordere Agent die Treppe erreicht hat, informiert dieser den hinteren, für den die Treppe noch nicht lokalisierbar ist. Während dieser Kommunizieren-Aktion kann keine weitere Aktion durchgeführt werden. Analog verhält es sich, wenn der vordere Agent die Treppe bereits verlassen hat und somit eigentlich von der Treppen-Aktion wieder auf die Rechts-Aktion wechseln will. In dieser Situation muss der hintere Agent kommunizieren, dass er sich noch auf der Treppe befindet und daher beide die Treppen-Aktion weiterhin beibehalten müssen. Da die Aufgabe nur mittels koordinierter Zusammenarbeit durchführbar ist, werden beide Agenten auch zusammen trainiert. Der Experte führt dabei für jeden Agenten individuell eine Aktion aus, wobei diese stets auf die des anderen Agenten abgestimmt ist, so dass beide genau eine Aktion pro Zeitschritt lernen. In der Confident-Execution-Phase kann dagegen einer der beiden Agenten den Experten veranlassen, die richtige Aktion auszuführen, während der andere autonom eine Aktion auswählt. Der Lernfortschritt wird anhand der Anzahl Trainingsbeispiele gemessen, die für eine bestimmte Präzision des Modells beider Agenten notwendig ist. Laut den Ergebnissen in [6] erreicht das Klassifikationsmodell in der nicht-interaktiven Demonstrationsphase nach 156 Trainingsbeispielen eine Präzision von 100%. D.h. beide Agenten sind in der Lage, die Aufgabe in Kooperation genau so zu erledigen, wie es der Experte zuvor vorgeführt hat. Um dies mit der Confident-Execution-Phase zu vergleichen, wurde in einem separaten Testlauf die nicht-interaktive Demonstrationsphase nach 65 Trainingsbeispielen und einer Präzision von 80% beendet und in der zweiten Phase untersucht, ob die Aufgabe in weniger als 91 (= 156−65) Schritten vollständig erlernbar ist. Durch den Verzicht auf unnötige Demonstrationsschritte konnte dies bereits nach 21 Schritten erreicht werden. Die Erweiterung durch die Confident-Execution-Phase ermöglichte es beiden Agenten somit, die Aufgabe nach 86 (= 65 + 21) Schritten vollständig zu beherrschen. 4.4

Vergleich

Die Ergebnisse des zweiten Anwendungsbeispiels zeigen, dass die Aufgabe vollständig erlernbar ist bzw. der Experte nach Absolvierung einiger Trainingsbeispiele perfekt imitiert werden kann. Dies ist insofern bemerkenswert, als dass die erfolgreiche Bewältigung zwingend von der Kooperation beider Agenten abhängt und diese die Umgebung nur begrenzt erfassen können. Aus diesem Grund hat man die Fähigkeiten des Agenten dahingehend erweitert, Informationen der eigenen Wahrnehmung an den anderen via Kommunikation weiterzuleiten. Dies verursacht zwar zusätzliche Kosten, ermöglicht es aber, effizienter zu lernen als durch alternative Verfahren. Beispielsweise benötigt ein Agent mittels Reinforcement Learning für das Erlernen der optimalen Policy 58370 Explorationsschritte. Der entscheidende Vorteil (auch gegenüber der Fahrsimulation) besteht bei der Möbelsimulation darin, dass die Umgebung nur über endlich viele Zustände verfügt, die sich nur in diskreten Zeitabschnitten und ausschließlich durch den Akteur (Experte oder Agent) ändern können. Dadurch gelingt es einem Agenten, eindeutige Trainingsbeispiele durch den Experten zu erfassen. Letzterer ist insbesondere in der Lage, prinzipiell alle notwendigen Aktionen zur Durchführung der Aufgabe dem Agenten vorzuführen. Dies ist hingegen bei der Fahrsimulation unmöglich, da sich die Umgebung durch eine unendliche Menge von Zuständen auszeichnet, die sich zudem sporadisch ändern. Des Weiteren unterliegen die dortigen Beobachtungen einer ständigen Ungenauigkeit aus Sicht des Agenten. Denn der Experte verfügt

Lernen durch Imitation

115

nicht über vergleichbare technische Sensoren, die Distanzen aufs Äußerste genau berechnen, sondern er kann lediglich grob schätzen. So passiert es zwangsläufig, dass bei ähnlichen Situationen immer zu unterschiedlichen Zeitpunkten und Distanzen der Spurwechsel stattfindet. In der Realität stellt diese Einschränkung für einen Menschen kein Problem dar. Allerdings ist es infolgedessen für einen Agenten unmöglich, das Verhalten des Experten präzise vorherzusagen: Trainingsbeispiele, die eigentlich identischen Situationen und resultierenden Aktionen entsprechen, werden als Beobachtungsvektoren mit leicht voneinander abweichenden Komponenten in die GMM aufgenommen. Die Ergebnisse der Fahrsimulation zeigen, dass damit das Lernmodell nur einen gewissen Grad an Genauigkeit erreichen kann. Weiterhin wird das perfekte Erlernen der Fahrsimulation durch die Tatsache erschwert, dass das Szenario in manchen Situationen mehr als eine denkbare Aktion zulässt. Beispielsweise kann ein langsameres Fahrzeug links oder rechts überholt werden, sofern beide Fahrspuren frei sind. Prinzipiell wäre dieses Problem dadurch lösbar, dass in einer solchen Situation stets eine von beiden (gleichberechtigten) Aktionen Vorrang hat, z.B. immer links zu überholen. Praktisch ist es aber für einen Menschen unmöglich, solche Situationen rechtzeitig zu erkennen und immer der Direktive zu folgen, eine bestimmte Aktion zu bevorzugen. Außerdem könnte man unterstellen, dass der Mensch über eine breitere Sicht verfügt als der Agent. Wenn beispielsweise zwei Fahrzeuge auf derselben Fahrspur dicht hintereinander fahren, wird der Mensch mit Sicherheit beide erfassen können, während der Agent lediglich ein Auto wahrnimmt. Allerdings wäre es für den Lernprozess wünschenswert, wenn beide, Schüler und Lehrer, über identische Sichten verfügen würden, das Szenario zu erfassen und die Lage einzuschätzen. Es bleibt festzuhalten, dass dieses Problem im zweiten Anwendungsbeispiel nicht zum Tragen kommt, da das Szenario so beschaffen ist, dass der Agent mit Hilfe seiner Sensoren über vergleichbare Informationen wie der menschliche Experte verfügt.

5

Fazit und Ausblick

Die Ausarbeitung hat gezeigt, dass Lernen durch Imitation eine erfolgreiche Methode darstellt, strategisches Verhalten zu vermitteln, um eine Vielzahl komplexer Aufgabenszenarien zu bewältigen. Sofern das Szenario vollständig erfassbar ist und Zustandsänderungen nicht sporadisch eintreten, kann ein Agent allein durch Beobachtung lernen, eine dort vorgeführte Aktion mit eigenen Mitteln umzusetzen. Dafür baut der Agent ein Lernmodell auf, um auch bei Abwesenheit des Lehrers auf unbekannte Situationen zu reagieren und sich auf diese Weise dessen Intuition einzuverleiben. Dies ist insofern schwierig, als dass Lehrer und Schüler in ihrer Einschätzung und Sichtweise grundsätzlich verschieden sind. Aus diesem Grund erlauben imitationsbasierte Lernverfahren neben der puren Beobachtung auch deren sofortige praktische Umsetzung oder eine Form der Kommunikation, womit der Lehrer einen direkten Einfluss auf den Lernfortgang des Agenten hat. Insbesondere die in Abschnitt 4.2 skizzierte Fahrsimulation verdeutlicht die Problematik, wenn ein – aus Sicht des Agenten – spontan und scheinbar nicht kausal agierender menschlicher Lehrer Aktionen in einer sich dynamisch ändernden Umwelt demonstriert. Der Agent kann für identische messbare Situationen unterschiedliche Aktionen vorgeführt bekommen, sofern aus Sicht des Lehrers alternative Handlungsweisen bestehen; derartige Szenarien reduzieren die Präzision des Lernmodells. Um diesen Effekt zu minimieren, suchen andere Arbeiten von Chernova et al. [7] nach Möglichkeiten, dass der Lehrer signalisieren kann, wenn für eine bestimmte Aktion mehrere

116

Thomas Hauck

bestmögliche Aktionen denkbar sind. Der Agent kann dies dann bei der Anpassung seines Lernmodells entsprechend berücksichtigen.

Literatur 1. Alissandrakis, A., Nehaniv, C., Dautenhahn, K.: Synchrony and perception in robotic imitation across embodiments. In: Computational Intelligence in Robotics and Automation. pp. 923–930 (2003) 2. Alissandrakis, A., Nehaniv, C., Dautenhahn, K.: Towards robot cultures?: Learning to imitate in a robotic arm test-bed with dissimilarly embodied agents. Interaction Studies 5, 3–44 (2004) 3. Bentivegna, D., Atkeson, C.: Learning how to behave from observing others. In: In SAB 02Workshop on Motor Control in Humans and Robots: On the Interplay of real Brains and Artificial Devices (2002) 4. Breazeal, C., Hoffman, G., Lockerd, A.: Teaching and working with robots as a collaboration. In: Proceedings of the Third International Joint Conference on Autonomous Agents and Multiagent Systems-Volume 3. pp. 1030–1037 (2004) 5. Chernova, S., Veloso, M.: Confidence-based policy learning from demonstration using gaussian mixture models. In: Proceedings of the 6th international joint conference on Autonomous agents and multiagent systems. pp. 1–8 (2007) 6. Chernova, S., Veloso, M.: Multiagent collaborative task learning through imitation. In: Proceedings of the fourth International Symposium on Imitation in Animals and Artifacts. pp. 74–79 (2007) 7. Chernova, S., Veloso, M.: Learning equivalent action choices from demonstration. In: Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. pp. 1216– 1221 (2008) 8. Gaussier, P., Moga, S., Quoy, M., Banquet, J.: From perception-action loops to imitation processes: A bottom-up approach of learning by imitation. Applied Artificial Intelligence 12, 701–727 (1998) 9. Hayes, G., Demiris, J., of Edinburgh. Department of Artificial Intelligence, U.: A robot controller using learning by imitation. University of Edinburgh, Dept. of Artificial Intelligence (1994) 10. Miller, N., Dollard, J.: Social learning and imitation. The Journal of Nervous and Mental Disease 99, 221 (1941) 11. Moore, B.: The Evolution of Imitative Learning. In: Social Learning in Animals: The Roots of Culture. pp. 245–265 (1996) 12. Nehaniv, C., Dautenhahn, K.: Like me?-measures of correspondence and imitation. Cybernetics and Systems 32, 11–51 (2001) 13. Nicolescu, M., Mataric, M.: Learning and interacting in human-robot domains. Systems, Man and Cybernetics, Part A: Systems and Humans 31, 419–430 (2002) 14. Saunders, J., Nehaniv, C., Dautenhahn, K.: Teaching robots by moulding behavior and scaffolding the environment. In: Proceedings of the 1st ACM SIGCHI/SIGART conference on Human-robot interaction. pp. 118–125 (2006) 15. Thorndike, E.: Animal intelligence: An experimental study of the associative process in animals. Psychol. Rev. Monogr. pp. 551–553 (1898) 16. Titterington, D., Smith, A., Makov, U., et al.: Statistical analysis of finite mixture distributions. Wiley New York (1985)

Suggest Documents