Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

Seminar: Mensch-Roboter Interaktion SS 2007 Lehrstuhl VII für Informatik Julius-Maximilians-Universität Würzburg [Prof. Dr. K. Schilling, M.Sc. F. Dri...

Author: Gert Kopp

37 downloads 3 Views 719KB Size

Report

Download PDF

Recommend Documents

PERSPEKTIVENWECHSEL ANALYSE UND VERBESSERUNG VON PROZESSEN IN DER PRAXIS

Handlungsempfehlungen zur Verbesserung der Anwesenheitszeiten

zur Verbesserung der unternehmensinternen Dokumentenmanagementprozesse

Ansatzpunkte zur Verbesserung der wissenschaftlichen Politikberatung

Ein interaktionsbasierter Ansatz zur Verbesserung der

Konzept zur Verbesserung der Situation der Prostituierten in Stuttgart

Der Medikationsplan zur Verbesserung der Arzneimitteltherapiesicherheit in Deutschland:

Der Schulwegplan: Partizipatives Vorgehen zur Verbesserung der Schulwegsicherheit

Entwurf eines Gesetzes zur Verbesserung der Rechtsdurchsetzung in sozialen Netzwerken

Gesetz zur Verbesserung der Hospiz- und Palliativversorgung in

20. Fachtagung Sozialpharmazie: Das pharmazeutische Potenzial zur Verbesserung der Arzneimitteltherapiesicherheit

Mechatronische Konzepte zur Verbesserung der Mensch-Maschine-Interaktion

Befragung zur Verbesserung der Chancen potenzieller Fachhochschul- Professorinnen

PLEUR-EVAC THORAXDRAINAGESYSTEME. Starke Innovationen zur Verbesserung der Thoraxdrainage

Hinweise des Deutschen Vereins zur Verbesserung der gesundheitlichen

HePAS INTEGRATIONSAMT. Hessisches Perspektivprogramm zur Verbesserung der Arbeitsmarktchancen schwerbehinderter Menschen

Mesophiles Kompaktieren von Komposten zur Verbesserung der Ausbringbarkeit

MAXITHEN SCR. zur Verbesserung der Kratzfestigkeit von. Polypropylen-Produkten

Rerouting des Musculus brachioradialis zur Verbesserung der Unterarmsupination oder -pronation

Verbesserung der Prognosegenauigkeit

Verbesserung der ITund

Verbesserung der Rahmenbedingungen

Strategien zur Verbesserung gesundheitlicher Chancengleichheit in Niedersachsen

Verbesserung der Fehlertoleranz lagerloser Elektromotoren

Seminar: Mensch-Roboter Interaktion SS 2007 Lehrstuhl VII für Informatik Julius-Maximilians-Universität Würzburg [Prof. Dr. K. Schilling, M.Sc. F. Driewer, Dipl. Inform. M. Sauer]

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion – perspective taking –

Andreas Engel

geb.: 23.08.1983

06.06.07

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

2

1 Inhalt 1

Inhalt ................................................................................................................................. 2

2

Abstract ............................................................................................................................. 3

3

Motivation .......................................................................................................................... 4

4

Kognitive Architekturen ..................................................................................................... 6

5

6

7

4.1

SOAR – state operator apply result ........................................................................... 6

4.2

EPIC – executive process / interactive control ........................................................... 6

4.3

ACT-R – adaptive control of thought – rational .......................................................... 7

4.4

Polyscheme ............................................................................................................... 8

4.4.1

Interface .............................................................................................................. 9

4.4.2

Focusmanager .................................................................................................... 9

4.4.3

Aussagen .......................................................................................................... 11

4.4.4

focus schemes .................................................................................................. 12

Perspektivenwechsel mit Polyscheme ............................................................................ 13 5.1

Szenario ................................................................................................................... 13

5.2

Implementierung ...................................................................................................... 14

5.3

Ablauf der Simulation ............................................................................................... 15

5.4

Auswertung .............................................................................................................. 16

Zusammenfassung und Ausblick .................................................................................... 17 6.1

Vorteile ..................................................................................................................... 17

6.2

Nachteile und Gefahren ........................................................................................... 17

6.3

Ausblick.................................................................................................................... 17

Literaturliste..................................................................................................................... 19

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

3

2 Abstract Ein wichtiger Forschungsansatz der Robotik beschäftigt sich mit der gleichberechtigten Zusammenarbeit von Mensch und Roboter in gemischten Teams, da viele Anwendungen durch die noch nicht hinreichend ausgereiften Sensoren und Aktoren der Roboter nicht von reinen Roboter-Teams bewältigt werden können. Die Zusammenarbeit von Mensch und Roboter bedingt aber eine gut funktionierende Kommunikation, denn die beiden Partner müssen einander verstehen um Aufgaben zu strukturieren, sich gegenseitig Hilfestellung zu geben und (Teil-)Ergebnisse zu bestätigen. Um diese Kommunikation für den Menschen so einfach und komfortabel wie möglich zu machen, sollte sie sich an der zwischenmenschlichen Kommunikation orientieren. Ein wesentlicher Bestandteil der zwischenmenschlichen Kommunikation ist die Fähigkeit, sich in die Lage des Gesprächspartners zu versetzen. Durch diese als perspective taking bezeichnete Eigenschaft können Widersprüchlichkeiten ohne weitere Zusatzinformationen aufgelöst und der Kommunikationsbedarf damit generell gesenkt werden. Diese Abhandlung beschäftigt sich in erster Linie mit den theoretischen Modellen, auf denen das perspective taking für Roboter realisiert werden kann. Dabei werden die wichtigsten dieser kognitiven Architekturen kurz vorgestellt, wobei der Schwerpunkt auf der so genannten Polyscheme-Architektur als ein Beispiel dieser Architekturen liegen wird. Für diese werden auch eine konkrete Implementierung sowie ein Anwendungsszenario analysiert. Abschließend sollen neben den Vorteilen aber auch die Unzulänglichkeiten und die Gefahren dieser Technik angesprochen sowie ein Ausblick auf mögliche zukünftige Verbesserungsmöglichkeiten gegeben werden.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

4

3 Motivation Eines der wichtigsten Zielstellungen beim Perspektivenwechsel ist, wie bereits erwähnt, das Auflösen von Mehrdeutigkeiten ohne zusätzlichen Kommunikationsaufwand. Man stelle sich dazu die folgende Situation vor:

Abbildung 1: Auflösen von Mehrdeutigkeiten [1]

Ein Mensch (Astronaut links in der Abbildung) und ein Roboter (rechts) stehen sich gegenüber. Auf dem Tisch zwischen ihnen liegen zwei Werkzeuge, wobei der Roboter beide, der Astronaut aber nur eines der Werkzeuge sehen kann, da das andere durch ein Hindernis verdeckt ist. Der Befehl „Gib mir das Werkzeug“ des Menschen ist aus seiner Sicht zwar eindeutig, für den Roboter aber mehrdeutig. Um nun das richtige Werkzeug ohne Nachfragen auszuwählen, muss sich der Roboter in die Lage des Menschen versetzen und erkennen, dass dieser nur eines der beiden Werkzeuge sehen und sich seine Anweisung folglich nur auf eben dieses beziehen kann [2]. Eine weitere Motivation für das perspective taking sind die so genannten frames of reference. Als solche werden relative Richtungsangaben bezeichnet und man unterscheidet zwischen •

exocentric

(globale Sicht,

z.B.: „Gehe nach Norden.“)

•

egocentric

(sprecherbezogen,

z.B.: „Zu meiner Linken …“)

•

addresse-centred

(empfängerbezogen,

z.B.: „Zu deiner Linken …“)

•

object-centred

(objektbezogen,

z.B.: „Auf dem Tisch …“)

•

deicted

(auf etwas zeigend)

Studien haben gezeigt, dass etwa ein Viertel der zwischenmenschlichen Kommunikation auf perspective-taking und solchen frames of reference beruht [2]. Daher müssen auch die Roboter solche relativen Richtungsangaben auflösen können um die Mensch-RoboterKommunikation für den Menschen so natürlich wie möglich zu halten. Soll ein Roboter (Abbildung 2 (a) rechts) beispielsweise „links neben die Box“ navigieren, so muss er zunächst herausfinden, was links aus Sicht des Menschen (Abbildung 2 (a) unten) bedeutet (b) und welche Seite der Box somit gemeint ist (c).

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

5

Abbildung 2: frames of reference [3]

Als einer der wichtigsten Geldgeber in der Robotikforschung hat auch das Militär Motive, die Entwicklung des perspective taking voranzubringen:

Abbildung 3: stealth bot [4]

Versucht in Roboter (gepunktete Linie in Abbildung 3) beispielsweise unentdeckt zu bleiben, so muss er sich in die Lage der potentiellen Feinde versetzen können um zu wissen, wann er gesehen oder gehört werden kann. All diese Beispiele beziehen sich in erster Linie auf den Perspektivenwechsel für die räumliche Wahrnehmung (spatial perspective taking). Daneben gibt es aber noch einige weitere Anwendungsgebiete wie etwa die Aufgabenplanung und Vorhersage. Mit dem Wissen über einen bestimmten Arbeitsablauf kann ein Roboter auch unaufgefordert unterstützen, wenn er sich in die Lage des Menschen versetzt, der die Arbeit ausführt.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

6

4 Kognitive Architekturen In diesem Abschnitt soll nun dargelegt werden, auf welchen theoretischen Modellen perspective taking realisiert werden kann. Beschränkt wird dies auf die berechenbaren kognitiven Architekturen (computational cognitive models), welche wesentliche menschliche Fähigkeiten (cognitive skills) modellieren [1]: •

Wissen

•

Problemlösungsstrategien

•

Lernverhalten

•

Wahrnehmung

•

Räumliches / Zeitliches Schlussfolgern

•

Vorausdenken

•

Perspektivenwechsel

•

etc.

Im Folgenden werden vier dieser Architekturen kurz vorgestellt. SOAR, EPIC und ACT-R stellen im Wesentlichen endliche Automaten dar, die temporäres Wissen als Zustände und permanentes Wissen als Produktionsregeln modellieren. SOAR ist von diesen Systemen das einfachste und wurde beispielsweise für die Spiel-Logik von Quake benutzt. EPIC und ACT-R erlauben hingegen bereits detailierte Timing-Analysen der menschlichen Wahrnehmung und Denkweise. Einen anderen Ansatz bietet Polyscheme, auf welches in dieser Arbeit detailliert eingegangen werden soll.

4.1 SOAR – state operator apply result Die SOAR-Architektur wurde in den 80er Jahren von Allen Newell an der Uni Michigan entwickelt. Es sollte durch multi problem solving dazu beitragen, die vielen unabhängigen Theorien (microtheories) der Psychologie zu vereinheitlichen (unified theories of cognition) [5] Man kann diese Architektur, wie bereits erwähnt, am Besten mit einem endlichen Automaten vergleichen, denn sie unterscheidet bei der Wissensdarstellung zwischen Zuständen für temporäres und Produktionsregeln für permanentes Wissen. Die Produktionen verursachen Zustandsübergänge, bis ein Zielzustand erreicht ist. Ein Zustand, in denen mehrere Produktionen feuern könnten, wird als Sackgasse bezeichnet. Es wird dann versucht, diese Mehrdeutigkeit durch Erzeugung von Unterzuständen und backtracking aufzulösen. Wenn das System nun ein zweites Mal in dieselbe Sackgasse läuft, erinnert es sich an die vorher gefundene Lösung. Dieser einfache Lernmechanismus wird als chunking bezeichnet [6].

4.2 EPIC – executive process / interactive control Ebenfalls aus Michigan stammt die EPIC-Architektur von David Kieras. Sie wurde entwickelt, um die Bewertung der Performance von human interfaces zu vereinfachen und zu verbessern [7].

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

7

Sie zeichnet sich durch eine Menge parallel arbeitender Prozessoren für die Eingabe (Sensoren), die Ausgabe (Aktoren), die Produktionen und sogar für die zu bewältigenden Aufgabe (Task Environment) aus.

Abbildung 4: EPIC [8]

Wie schon bei SOAR erfolgen Zustandsübergänge durch das Feuern von Produktionen. Dabei ist diese Architektur aber Event-basiert – die Nachrichten zwischen den Prozessoren werden in sortierten Event-Queues gepuffert und entsprechend abgearbeitet. Durch diese explizite Parallelität ist EPIC besonders für genaue Timing-Analysen der menschlichen Informationsverarbeitung geeignet [8].

4.3 ACT-R – adaptive control of thought – rational Diese Architektur wurde von J.R. Anderson an der Carnegie Mellon University (Pittsburgh) entwickelt. Sie versucht einerseits, spezialisierte Fähigkeiten und psychologische Eigenschaften lokalen physischen Zentren zuzuweisen (siehe Abbildung 5), andererseits aber auch deren Zusammenwirken zu modellieren.

Abbildung 5: ACT-R [9]

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

8

ACT-R verfügt über spezialisierte Module, die über Puffer mit einem zentralen Produktionssystem verbunden sind. Die Module können neben Sensoren oder Aktoren auch Gedächtnis oder Zielstellungen modellieren. Die Puffer können immer nur wenige Fakten gleichzeitig aufnehmen und verdeutlichen damit beispielsweise die Tatsache, dass sich das menschliche Auge nicht gleichzeitig auf alle Objekte im Blickfeld konzentrieren kann. Das Produktionssystem funktioniert wieder wie bei einem endlichen Automaten, wobei durch die dynamische Verwaltung von Aufwand und Nutzen einzelner Produktionen besonders gut Lernkurven simuliert werden können [9]. Der ACT-R Grundstock wurde im Laufe der Zeit um viele Module für Sensoren und Aktoren (perceptual motor: ACT-R/PM) und für das Räumliche Schließen (spatial: ACT-R/S [10]) erweitert.

4.4 Polyscheme Eine der wichtigsten kognitiven Architekturen für perspective taking wurde von Nicholas Cassimatis am Rensselaer Polytechnic Institute (New York) entwickelt und soll die Integration von Wissensdarstellung und Deduktionsmechanismen ermöglichen [11]. Polyscheme soll also das Zusammenspiel verschiedenster Algorithmen und Datenstrukturen erleichtern. Dazu wir jeder Algorithmus zusammen mit seiner Datenstruktur in einem sogenannten specialist gekapselt:

Abbildung 6: Polyscheme [specialist]

Jeder specialist kann außerdem über Sensoren und Aktoren verfügen, welche an seine Daten gekoppelt sind. So kann ein Polyscheme-System beispielsweise über specialists für •

Deklaratives Gedächtnis

•

Objekt-Erkennung

•

Object-Tracking

•

Spracherkennung

•

Motoransteuerung

•

etc.

verfügen.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

9

4.4.1 Interface Damit die specialists auch miteinander kommunizieren können um beispielsweise eine Aufgabe gemeinsam zu bearbeiten, müssen sie ein festes Interface implementieren, von dem hier nur die wichtigsten Methoden vorstellt werden: •

reportOpinion(prop, sp, tv) teilt dem specialist mit, welchen Wahrheitswert tv ein anderer specialist sp für eine bestimmte Aussage prop annimmt. Dabei werden Wahrheitswerte in Polyscheme nicht binäre dargestellt, sondern verfügen über eine bestimmte Wahrscheinlichkeit.

•

stanceOn(prop) fragt den specialist nach seinem Wahrheitswert für die Aussage prop.

•

requestFoci() fragt den specialist nach einer Liste von Aussagen, deren Wahrheitswerte er evaluieren will.

4.4.2 Focusmanager Die Zusammenarbeit der specialists wird nun über einen Focusmanager koordiniert. Dieser wählt zunächst eine Aussage prop, und ruft stanceOn(prop) für alle specialists auf.

Abbildung 7: Polyscheme [stanceOn]

Da sich somit alle specialists gleichzeitig auf eine Aussage konzentrieren müssen, wird dies auch als focus of attention bezeichnet.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

10

Nun evaluieren alle specialists die Aussage in ihrem lokalen Kontext und liefern jeweils einen Wahrheitswert zurück, der, wie bereits erwähnt, mit einer Wahrscheinlichkeit ausgezeichnet ist.

Abbildung 8: Polyscheme [evaluation]

Der Focusmanager sorgt dann dafür, dass das neu erarbeitete Wissen an alle specialists verteilt wird, indem er die Wahrheitswerte der jeweils anderen specialists weitermeldet:

Abbildung 9: Polyscheme [reportOpinion]

Als nächstes fragt der Focusmanager alle specialists nach Kandidaten für den neuen focus of attention, also nach Aussagen, welche die specialists möglichst bald evaluieren wollen:

Abbildung 10: Polyscheme [requestFoci]

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

11

Die mit Dringlichkeit gewichteten Aussagen, welche die specialists daraufhin zurückgeben, können •

zur Evaluierung anderer Aussagen benötigt werden,

•

der Bekanntgabe von Sensorinformation dienen oder

•

ein globales Ziel der aktuellen Aufgabenstellung verfolgen

Abbildung 11: Polyscheme [focus scheme]

Der Algorithmus der specialists zur Generierung dieser Aussagenlisten wird als focus scheme bezeichnet. Der Focusmanager wählt dann eine dieser Aussagen zum nächsten focus of attention und der Simulationszyklus beginnt von vorne, bis die Aussagen für alle globalen Ziele evaluiert wurden.

4.4.3 Aussagen Die Zeichenketten-basierten Aussagen, deren Wahrheitswerte jeweils evaluiert werden, haben folgendes Format: Eigenschaft(Objekt, Wert, Zeit, Welt) Jede Aussage ordnet einem Objekt den Wert einer Eigenschaft zu einer bestimmten Zeit und in einer bestimmten Welt zu. Dabei dient das Zeitattribut natürlich der Modellierung von vergangenen oder zukünftigen Eigenschaften. Das Weltattribut hingegen wird zur Darstellung alternativer Sichtweisen und Orte verwendet und ist damit das wichtigste Element von Polyscheme für das perspective taking. Beispiele für solche Aussagen sind •

Category(x, tool, t1, R)

•

Position(x, p1, t1, R)

•

Position(x, p2, t2, R)

•

Position(x, p3, t2, w)

Dabei symbolisiert R die reale Welt, also die Sichtweise, die der Roboter mit seinen Sensoren erfassen kann. Aussagen, die sich nicht auf die aktuelle Zeit und Reale Welt beziehen, werden als non immediate states bezeichnet und benötigen besondere Modellierungsmechanismen. Um Aussagen über Vergangenes treffen zu können, hilft einem natürlich ein Speicher weiter. Für

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

12

zukünftige Zeiten und alternative Welten benötigt man hingegen Mechanismen wie causal rules, constraint satisfaction oder simulation. Zwischen realer und alternativer Welt besteht eine Art Vererbung. Dabei gilt jede Eigenschaft der realen Welt auch in der alternativen, solange nicht explizit etwas Gegenteiliges festgestellt wurde. Durch diese Art der impliziten Darstellung von Information werden viele Ressourcen gespart.

4.4.4 focus schemes Als letzte Besonderheit von Polyscheme werden die focus schemes betrachtet. Der Ablauf der Simulation wird letztlich durch die Aussagen-Vorschläge der specialists gesteuert. Dabei sind einige dieser focus schemes standardmäßig in jedem specialist implementiert: •

resimulation Jede bereits evaluierte Aussage wird erneut vorgeschlagen, wenn sich der Wahrheitswert seit der letzten Evaluation verändert hat. Dies kann beispielsweise durch veränderte Sensordaten der Fall sein.

•

predicton Specialists mit Aktoren. können jede ihrer Aktionen vor der eigentlichen Ausführung simulieren um zu prüfen, ob die es zu Problemen führen könnte.

•

counterfactual simulation Ist ein zu evaluierender Sachverhalt A unbekannt ist, dann werden zwei neue Welten postuliert, wobei A in der Welt 1 gilt und in der Welt 2 nicht gilt. Wenn sich aus einem der beiden Postulate Widersprüche zu bereits gesichertem Wissen herleiten lassen, muss das jeweils andere Postulat zutreffen.

Auf diese Weise werden High-Level-Algorithmen der Künstlichen Intelligenz wie das eben beschriebene backtracking nicht lokal in einzelnen specialists implementiert sondern durch deren gemeinsames Evaluieren von Aussagen umgesetzt.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

13

5 Perspektivenwechsel mit Polyscheme Nachdem die Grundfunktionalität der Polyscheme-Architektur beschrieben wurde, soll jetzt dargestellt werden, wie auf dieser spatial perspective taking implementiert werden kann.

5.1 Szenario Folgende Versuchsanordnung wurde von J. Gregory Trafton am Naval Research Labratory (Washington DC) durchgeführt [2]:

Abbildung 12: "Robot, go to the cone!" [2]

In vier verschiedenen Szenarien stehen sich ein Mensch (speaker) und ein Roboter (robot) gegenüber. Zwischen ihnen befindet sich eine Sichtschutz (box) sowie ein oder zwei Pylonen (cones). Dabei können Mensch und Roboter teilweise einen der cones nicht sehen, da dieser durch die box verdeckt ist. Der Befehl des Menschen „Robot, go to the cone!“ stellt für den Roboter nun unterschiedlich komplexe Aufgaben dar und es werden folgende Lösungen von ihm erwartet: a) Der Roboter sieht nur einen cone und kann diesen direkt ansteuern. b) Der Roboter sieht zwei cones, kann aber erkennen, dass der Mensch nur einen davon sehen kann, welchen er darauf hin ohne Rückfragen ansteuern muss. c) Der Roboter sieht keinen cone, weiß aber, dass der Mensch einen Teil des Raums einsehen kann, welchen er selbst nicht sieht. Er muss daher annehmen, dass sich das Zielobjekt in eben diesem Teil des Raumes befindet und steuert ihn an. d) Mensch und Roboter sehen jeweils zwei cones. Diese Situation ist vollständig mehrdeutig und kann vom Roboter nur durch Rückfragen („which cone?“) aufgelöst werden. Der Mensch identifiziert daraufhin das Zielobjekt durch eine relative Richtungsangabe. Dieses Szenario ist somit in erster Linie für das Interpretieren der frames of reference gedacht.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

14

Im Folgenden wird detaillierter auf das Szenario b) eingegangen, da dieses dem Standardbeispiel für spatial perspective taking zur Auflösung von Mehrdeutigkeiten (siehe Abbildung 1) entspricht:

Abbildung 13: Testszenario am NCARAI [2]

5.2 Implementierung Für die Hardware wurde die Roboterplattform coyote auf der Basis eines Nomad200 mit folgenden Eigenschaften entwickelt: •

zero turn radius drive system

•

range (sonar, ladar), image and tactile sensors

•

onboard network linux + windows

•

wireless ethernet link

•

CMVision (color blob detection)

•

ViaVoice speech recognition

•

Nautilus natural language understanding

•

gesture recognition

Für die Software wurden einige Polyscheme specialists implementiert, von denen hier nur die wichtigsten angesprochen werden sollen: •

perception specialist kümmert sich durch color segmentation und laser range finding um die ObjektIdentifikation. Daneben gibt es aber noch weitere perception specialists. beispielsweise für akustische Sensoren.

•

space specialist weiß jederzeit, welche Objekte sich an welcher Stelle befinden.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion •

15

perspective specialist berechnet die Menge der Objekte, die eine Person sehen kann.

•

spatial relationship specialist sorgt für die Auflösung der frames of reference.

•

identity constraint specialist setzt die Transitivität von Identitäten um.

•

world specialist erkennt beispielsweise Widersprüche zwischen realer und alternativer Welt, was für das backtracking essenziell ist.

Daneben wurden auch weitere focus schemes implementiert. Neben der counterfactual simulation für das backtracking sei aber nur die command simulation erwähnt. Diese besagt, dass jedes Kommando eines Menschen aus seiner Sicht (also in seiner alternativen Welt) simuliert werden soll.

5.3 Ablauf der Simulation Im Folgenden soll betrachtet werden, in welcher Reihenfolge die specialists welche Aussagen evaluieren, um die gegebene Aufgabe zu lösen. Da das Zeitargument bei allen Aussagen identisch ist, wird es vollständig unterdrückt. Category(speaker,human,R) Location(speaker,pl,R) Category(c1,Cone,R) Location(c1,p2,R) Category(c2,Cone,R) Location(c2,p3,R) Category(box,Box,R) Location(box,p4,R)

Zunächst identifiziert der perception specialist die Art und der space specialist die Position jedes sichtbaren Objekts.

Als nächstes greift das command simulation focus scheme, wodurch die gegebene Anweisung aus der Sicht des Sprechers, also in einer alternativen Welt wSpeaker simuliert wird. Der Sprecher weiß, dass ein bestimmtes Objekt target existiert, dass dieses ein cone Exists(target,wSpeaker) ist und sich an einer bestimmten Position targetLoc Category(target,Cone,wSpeaker) befindet. Außerdem will der Sprecher, dass sich der Location(target,targetLoc,wSpeaker) WantToGo(robot,targetLoc,wSpeaker) Roboter zu der Position targetLoc bewegt. Hierbei sind target und targetLoc ungebundene Variablen, die nun im Laufe der Simulation an ein konkretes sichtbares Objekt und an eine entsprechende Position gebunden werden müssen.

CanSee(speaker,target,wSpeaker)

Der perspective specialist schließt, dass der Sprecher das target sehen kann, weil er von dessen Existenz weiß. Das ist eine fest implementierte Annahme, über die sich sicherlich streiten lässt.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

16

Same(c1,target,wC1) Same(c2,target,wC2)

Nun kennt der Roboter also zwei cones, weiß aber nicht, welches von beiden das target ist. Deshalb greift das counterfactual simulaton focus scheme und postuliert zwei Welten wC1 und wC2, in denen jeweils einer der cones mit dem target identifiziert wird.

Not CanSee(speaker,c2,R)

Der perspective specialist erkennt, dass der Sprecher in der realen Welt den cone c2 nicht sehen kann.

Not CanSee(speaker,c2,wC2)

Durch die Vererbung zwischen realer und alternativer Welt gilt dies dann auch in wC2.

Not CanSee(speaker,target,wC2)

Daraus schließt der identity constraint specialist, dass der Sprecher in der Welt wC2 das target nicht sehen kann. Somit ist diese Welt wC2 und damit die Aussage, auf der sie basiert zum Widerspruch geführt.

Not Same(c2,target,R) Same(c1,target,R)

Dies erkennt der world specialist und ordnet dadurch dem target den korrekten cone c1 zu.

5.4 Auswertung Alle vier oben beschriebenen Szenarien wurden je fünfmal durchgeführt. Nach Angaben der Autoren verhielt sich das coyote-System dabei in 100% aller Fälle erwartungsgemäß [2]. Die Systemauslastung setzte sich im Mittel wie folgt zusammen:

34%

40% 26%

Wahrnehmung

Perspektivenwechsel

Navigation

Abbildung 14: Systemauslastung

Der Aufwand für das perspective taking machte also nur etwa ein viertel der gesamten Aufgabe aus. Diese auf den ersten Blick bemerkenswerten Ergebnisse sind allerdings mit Vorsicht zu genießen. Die eigentlichen Algorithmen für das räumliche Schließen sind immer auf die Qualität der Sensordaten angewiesen. Die oben beschriebenen Szenarien machen die Objekterkennung und deren Lokalisation aber besonders einfach. Zum einen sind nur sehr wenige Objekte involviert – Sprecher, box und zwei cones. Zum anderen stechen die Objekte farblich besonders hervor (siehe Farbplatte an der box in Abbildung 13). Hinzu kommt noch, dass an den Prozess der Spracherkennung mit dem immer gleichen und zudem recht primitiv strukturierten Befehl „Robot, go to the cone!“ keine besonderen Ansprüche gestellt werden. Trotzdem bleibt festzuhalten, dass der reine Vorgang des Perspektivenwechsels mit diesem System funktioniert, wenn die Wahrnehmung der Umgebung korrekt verläuft.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

17

6 Zusammenfassung und Ausblick 6.1 Vorteile Zu den wichtigsten Vorteilen des Perspektivenwechsels zählt sicherlich die Verringerung des Kommunikationsbedarfs, da Anweisungen weniger detailiert sein müssen und Rückfragen ausbleiben können. Durch die Vermenschlichung der Interaktion wird der Kommunikationskomfort gesteigert, denn der Mensch muss sich viel weniger Gedanken machen, welche Informationen der Roboter benötigt. Dadurch können dann auch wesentlich komplexere Aufgaben kooperativ bewältigt werden. Neben dem Auflösen von Mehrdeutigkeiten kann ein Roboter durch perspective taking die Handlungen des Menschen vorausplanen und somit auch ungefragt Hilfe anbieten. Desweiteren steigt die Flexibilität und Robustheit des Gesamtsystems, denn der Verlust einzelner Sensordaten kann durch die Simulation unvollständiger Welten besser verkraftet werden.

6.2 Nachteile und Gefahren Das System des Perspektivenwechsels wird unweigerlich scheitern, wenn der Mensch es nicht richtig benutzt. Will er beispielsweise bei der Navigation eines Roboters eben diesen Schritt schon vorwegnehmen und gibt die Richtungsbefehle bereits aus Sicht des Roboters, so würde der perspective taking Mechanismus des Roboters zu falschen Befehlsinterpretationen führen. Daneben birgt das System aber auch einige Gefahren. So könnten auf Grundlage unzureichender Sensordaten falsche Entscheidungen getroffen werden. Für Maschinen, die nur eindeutige Befehle befolgen, ist das noch nicht so schwerwiegend. Meint der Roboter aber, es besser zu wissen, könnte er fälschlicherweise unumkehrbare Handlungen einleiten. Hier wäre System mit verschiedenen Gefährdungsstufen denkbar, dass den Roboter nur dann die Entscheidung selbst treffen lässt, wenn die Konsequenzen seiner Entscheidung eine vorgegebene Stufe nicht überschreitet.

6.3 Ausblick Wie in vielen anderen Forschungsbereichen der Robotik bildet auch beim perspektive taking die Qualität und Zuverlässigkeit der Sensoren den Flaschenhals der Performanz. Ohne korrekte und möglichst vollständige Darstellung der Umgebung können die besten Algorithmen nicht zuverlässig arbeiten. Die Möglichkeiten des vorgestellten Systems sind aber bei weitem noch nicht erschöpft, denn bisher konzentriert man sich meist auf das spatial perspective taking, also darauf zu simulieren, was der Mensch alles sehen kann. Daneben kann der Mensch seine Informationen aber beispielsweise auch aus akustischen Signaturen oder einfach aus prozeduralem oder deklarativem Wissen beziehen. Außerdem sollte natürlich nicht nur die jeweils aktuelle Situation ausgewertet werden, sondern auch aus vergangenen Ereignissen Informationen gewonnen werden.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

18

Desweiteren findet man in der Literatur des Öfteren den Begriff der perceptual salicence. Damit ist die Bevorzugung besonders offensichtlicher Eigenschaften gemeint. Im Beispiel mit den Pylonen wäre dies der Fall, wenn eine Pylone zwischen Mensch und Roboter, der andere aber wesentlich weiter entfernt steht und somit offensichtlich klar ist, welchen der beiden der Mensch meint.

Perspektivenwechsel zur Verbesserung der Mensch-Roboter-Interaktion

19

7 Literaturliste 1. Schultz AC, Trafton JG, Cassimatis N, Perzanowski D, and Skubic M. Using Computational Cognitive Models for Better Human-Robot Collaboration. Navy Center for Applied Research in Artificial Intelligence, 2006. 2. Trafton JG, Cassimatis NL, Bugajska MD, Brock DP, Mintz FE, and Schultz AC. Enabling effective human-robot interaction using perspective-taking in robots. IEEE Transactions on Systems, Man, and Cybernetics, Part A 35: 460-470, 2005. 3. Fong T, Kunz C, Hiatt LM, and Bugajska M. The human-robot interaction operating system. In: Proceeding of the 1st ACM SIGCHI/SIGART conference on Human-robot interaction. Salt Lake City, Utah, USA: ACM Press, 2006. 4. Kennedy WG, Bugajska MD, Marge M, Adams W, Fransen BR, Perzanowski D, Schultz AC, and Trafton JG. Spatial Representation and Reasoning for Human-Robot Collaboration. Naval Research Laboratory, 2007. 5. Lehman JF, Laird J, and Rosenbloom P. A Gentle Introduction to Soar, an Architecture for Human Cognition. 1997. 6. SOAR (Kognition) wikipedia. http://de.wikipedia.org/wiki/SOAR_(Kognition). [Juni, 2007]. 7. Kieras DE. EPIC: A cognitive architecture for computational modeling of human performance EECS. http://www.eecs.umich.edu/~kieras/epic.html. [Juli, 2007]. 8. Kieras DE. EPIC Architecture Principles of Operation. Artificial Intelligence Laboratory, Electrical Engineering and Computer Science Department, University of Michigan, 1996. 9. Anderson JR, Bothell D, Byrne MD, Douglass S, C.Lebiere, and Qin Y. An integrated theory of the mind. Psychological Review 111: 1036-1060, 2004. 10. Harrison AM, and Schunn CD. ACT-R/S: A Computational and Neurologically Inspired Model of Spatial Reasoning. In: Proceedings of the 24th Annual Meeting of the Cognitive Science Society. Fairfax, VA: 2002. 11. Cassimatis NL, Trafton JG, Bugajska MD, and Schultz AC. Integrating cognition, perception and action through mental simulation in robots. Robotics and Autonomous Systems 49: 13-23, 2004.