Grundlagen der Allgemeinen Psychologie: Wahrnehmungspsychologie. Herbstsemester (aktualisiert) Prof. Dr. Adrian Schwaninger

Grundlagen der Allgemeinen Psychologie: Wahrnehmungspsychologie Herbstsemester 2011 05.12.2011 (aktualisiert) Prof. Dr. Adrian Schwaninger Überblick...
Author: Ida Kolbe
0 downloads 1 Views 3MB Size
Grundlagen der Allgemeinen Psychologie: Wahrnehmungspsychologie Herbstsemester 2011 05.12.2011 (aktualisiert)

Prof. Dr. Adrian Schwaninger

Überblick  





 

Einleitung, philosophische Überlegungen, Psychophysik Wahrnehmung: Sinnesorgane  Prozesse und Grundprinzipien  Sehen  Hören, Propriozeption  Tastsinn, Geschmackssinn, Geruchssinn Wahrnehmung: Organisation und Interpretation  Wahrnehmungsorganisation  Wahrnehmungsinterpretation Aufmerksamkeit  Auditive Aufmerksamkeit  Visuelle Aufmerksamkeit  Zentrale Aufmerksamkeit Objekterkennung Anwendungsbeispiele

Prof. Dr. Adrian Schwaninger

2

1

Traditioneller Ansatz (Marr, 1982) 





David Marr wird als einer der wichtigsten Pioniere im Bereich der Objekterkennung angesehen. Er verfolgte einen interdisziplären Ansatz, bei welchem er Erkenntnisse aus der Psychologie und den Neurowissenschaften verwendete, um seine Theorie mittels Computer zu simulieren. Ausgangspunkt ist das Input Bild (Stimulus), d.h. eine Verteilung von Punkten (Pixeln) unterschiedlicher Helligkeit (I).

Prof. Dr. Adrian Schwaninger

3

Traditioneller Ansatz (Marr, 1982) Input Bild Helligkeitsverteilung

Primal Sketch Kanten, Balken, Flecken

21/2 D Sketch Räumliche Tiefe und Orientierung sichtbarer Flächen

3D Repräsentation Objektzentrierte Strukturelle Beschreibung

(Nach Schwaninger, 2005a) Prof. Dr. Adrian Schwaninger

4

2

Gedächtnisrepräsentation nach Marr  



Nach Marr werden Objekte im Gedächtnis durch eine objektzentrierte strukturelle Beschreibung abgespeichert. Dabei werden die Teile des Objektes in Relation zur Hauptachse des Objektes beschrieben. Dadurch ist die Repräsentation unabhänging von der Ansicht (objektzentrierte Repräsentation). Das Objekt wird durch einfache geometrische Formen (z.B. Zylinder) immer detaillierter beschrieben (hierarchische und modulare Repräsentation)

Mensch Arm Unterarm Hand

(Aus Schwaninger, 2005a) Prof. Dr. Adrian Schwaninger

5

Objekterkennung nach Marr  



  



Im Gedächtnis ist für jede Objektklasse gespeichert, aus welchen Teilen sie bestehen und wie die Teile angeordnet sind. Objekte in der Aussenwelt werden erkannt, indem die verschiedenen Verarbeitungsstufen von der Extraktion der Kanten bis zur Berechnung der 3D Repräsentation durchlaufen werden (Abbildung 1). Sobald eine strukturelle Beschreibung des Objektes der Aussenwelt vorliegt, welche die Teile und ihre räumliche Anordnung spezifiziert, wird im Gedächtnis nachgeschaut, welche Objektklasse die gleiche strukturelle Beschreibung aufweist. Das Ausmass an Übereinstimmung bestimmt dann, ob ein Objekt erkannt wird. Wie man in der Abbildung 2 sieht, genügen einfache Zylinder, um Arme, Beine, ja sogar den Kopf darzustellen. Aufgrund dieser Beobachtung ist Marr zum Schluss gekommen, dass eine begrenzte Anzahl einfacher volumetrischer Primitive ausreicht, um die verschiedenen Objektklassen anhand der Teile und ihrer räumlichen Relationen zu beschreiben. Diese Idee wurde in der Theorie von Biederman umgesetzt, welche als nächstes dargestellt wird.

Prof. Dr. Adrian Schwaninger

6

3

Recognition by Components (RBC) (Biederman, 1987, 1995)    

Grundlegend für die Theorie von Biederman ist die Beobachtung, dass wenige elementare Teilkörper ausreichen, um viele Objektklassen des Alltags zu beschreiben. Biederman (1987) nennt solche elementaren Teilkörper Geone (geometrical ions). Wie man der Abbildung unten entnehmen kann, sind verschiedene Alltagsobjekte durch zwei bis drei Geone beschreibbar. Was sich pro Objekt verändert ist die räumliche Anordnung der Geone und ihre Attribute wie z.B. die Orientierung oder das Verhältnis zwischen der Länge der Hauptachse und dem Querschnitt.

Geone (Geometrical Ions)

Alltagsobjekte

(Aus Schwaninger, 2005a)

Prof. Dr. Adrian Schwaninger

7

Non-accidental Properties 

  

Um eine Erkennung unabhängig von der Grösse, Position und Orientierung zu erreichen, greift Biederman auf relativ invariante Eigenschaften zurück, welche von Lowe (1985) als nicht zufällige Merkmale (nonaccidental properties, NAPs) beschrieben worden sind. Solche Merkmale sind z.B. Parallelität, Gekrümmtheit oder die Art wie Konturen in einem Punkt enden (vertices). Sie bleiben weitgehend erhalten auch wenn sich die Grösse, Position oder Orientierung eines Objektes verändert. Die Geone von Biederman werden definiert durch das Vorhandensein und die Kombination von solchen invarianten Eigenschaften.

(Aus Biederman, 1987) Prof. Dr. Adrian Schwaninger

8

4

Non-accidental Properties (NAPs) (Lowe, 1984, 1985, 1987)

(Aus Biederman, 1995) Prof. Dr. Adrian Schwaninger

9

Recognition by Components (RBC) (Biederman, 1987, 1995)  

 



In der RBC Theorie von Biederman werden wie bei Marr als erstes Kanten und Linien extrahiert. Aus der Linienrepräsentation wird anschliessend versucht, die oben erwähnten invarianten Eigenschaften (non-accidental properties) zu extrahieren, welche die Geone definieren. Danach wird die räumliche Anordnung der Geone bestimmt. Diese strukturelle Beschreibung der Teile (Geone) und ihrer räumlichen Relationen wird ähnlich wie bei Marr mit den gespeicherten strukturellen Beschreibungen im Gedächtnis verglichen. Findet sich eine genügend grosse Übereinstimmung, dann wird das Objekt erkannt.

Prof. Dr. Adrian Schwaninger

10

5

Erkennung durch Ausrichtung und Transformation (Lowe, 1985, 1987)   

  

Das SCERPO Vision System von Lowe (1985, 1987) ist eines der ersten Computermodelle, welche Objekte in Fotos erkennen kann. Es eignet sich gut, um das Prinzip der Erkennung durch Ausrichtung und Transformation von 3D Repräsentationen zu erklären. Zunächst werden Linien extrahiert und gruppiert nach Gesetzmässigkeiten, welche Gestaltgesetzen ähneln. Dabei spielen Nähe, Parallelität, gemeinsames Enden an einem Punkt (vertices), oder Gekrümmtheit eine wichtige Rolle. Non-accidental properties (NAPs) werden von Lowe verwendet, um eine bestimmte 3D Repräsentation im Gedächtnis auszuwählen. Die 3D Repräsentation im Gedächtnis wird dann rotiert und verschoben, bis ihre 2D Projektion mit dem Inputbild hinreichend übereinstimmt. Die projizierten Linien können dann verwendet werden, um Konturen zu ergänzen (top-down).

Prof. Dr. Adrian Schwaninger

11

Erkennung durch Ausrichtung und Transformation (Lowe, 1985, 1987) 3D Modell im Gedächtnis

2D Projektion

Extraktion von Linien und NAPs (Nach Schwaninger, 2005a) Prof. Dr. Adrian Schwaninger

Ergebnis Weisse Linien: Übereinstimmung zwischen Inputbild und Modellprojektion. Punktierte Linien: Ergänzungen durch Modellprojektion. 12

6

Erkennung durch Linearkombination von 2D Repräsentationen (Ullman & Basri, 1991)  



 



Beim Ansatz von Ullman & Basri (1991) werden mehrere Ansichten eines Objektes als detaillierte ganze Bilder im Gedächtnis gespeichert. Diese können mittels Linearkombination verrechnet werden, um neuen Ansichten eines Objektes zu bilden. Damit kann ein Objekt auch erkannt werden, wenn es in einer noch nie gesehenen Ansicht erscheint. Ohne auf die mathematischen Details näher einzugehen, ist dies am Beispiel von Gesichtern in der Abbildung auf der nächsten Folie veranschaulicht. Die Bilder M1 und M2 sind gespeicherte Ansichten. Das Bild N ist eine neue, dem Computersystem unbekannte Ansicht. Aus den Bildern M1 und M2 wurden mittels Linearkombination die Ansichten LC1, LC2 und LC3 berechnet. Wie man sieht, stimmt LC2 ziemlich gut mit dem realen Foto N überein, wodurch die in N abgebildete Person identifiziert werden kann. Mit diesem Verfahren können photorealistische Abbildungen von Objekten zuverlässig erkannt werden, was ein bedeutender Forschritt zu den linienbasierten Ansätzen von Marr und Biederman darstellt. Ullman und Basri (1991) konnten mit Computersimulationen zeigen, dass mit 10 Ansichten Objekte in allen möglichen Rotationen und Positionen, sowie bei teilweiser Verdeckung erkannt werden können.

Prof. Dr. Adrian Schwaninger

13

Erkennung durch Linearkombination von 2D Repräsentationen (Ullman & Basri, 1991) M1

N

M2

LC1

LC3 LC2

(Nach Schwaninger, 2005a) Prof. Dr. Adrian Schwaninger

14

7

Erkennung durch Interpolation von 2D Repräsentationen (Poggio und Edelman, 1990; Bülthoff & Edelman, 1992 



 



Bei der Erkennung durch Interpolation wird ein Objekt auch in mehreren Ansichten gespeichert. Dabei wird angenommen dass in einem neuronalen Netz Objekte anhand von verschiedenen Ansichten, sog. radiale Basisfunktionen (RBF) repräsentiert werden. Diese Basisfunktionen werden als radial bezeichnet, weil ihre Antwortstärke radial mit zunehmender Rotation (sowie anderen Transformationen) des Objektes abnimmt (in Abbildung 6a sind aus Gründen der Vereinfachung nur drei RBF als Gaussverteilungen zweidimensional dargestellt). Solche RBF kann man sich auch als einzelne Neurone vorstellen, welche auf eine bestimmte Ansicht spezialisiert sind („ansichtenspezifische Neurone“). Soll nun eine neue Ansicht des Objektes erkannt werden, so wird diese mit allen gespeicherten Ansichten verglichen. Die Ergebnisse werden gewichtet aufsummiert (siehe Abbildung nächste Folie), was der Gesamtantwort des neuronalen Netzes entspricht („rotationsinvariantes Neuron“). Die Analogie mit Neuronen ist dabei durchaus gerechtfertigt. Einzelzellableitungen im Inferotemporalcortex von Makaken haben nämlich ergeben, dass zahlreiche Nervenzellen ein Antwortverhalten zeigen, welches solchen ansichtsabhängigen RBF ähnelt (Logothetis, Pauls, & Poggio, 1995).

Prof. Dr. Adrian Schwaninger

15

Erkennung durch Interpolation von 2D Repräsentationen (Poggio und Edelman, 1990; Bülthoff & Edelman, 1992 Ansichtenspezifische Neurone

Rotationsinvariantes Neuron

Ansichtenspezifische Neurone

a

Rotationswinkel

b

Inputbild (Stimulus)

(Aus Schwaninger, 2005a) Prof. Dr. Adrian Schwaninger

16

8

Key-Frame Modell (Wallraven & Bülthoff 2001, Schwaninger, Wallraven & Bülthoff, 2004)  



Bei diesem Ansatz ist das visuelle Input nicht ein Bild, sondern ein Videostrom. Von diesem Videostrom werden einzelne Ansichten eines Objektes gespeichert. Dies geschieht folgendermassen: 1. Feature extraction: Vom Bild werden saliente Punkte (corners) detektiert und die 5x5 Pixel Patches um diese Punkte gespeichert (komprimierte Geächtnisrepräsentation). Diese Repräsentation heisst Key Frame. 2. Tracking until feature loss > threshold: Der Videostrom wird mit dem gespeicherten Key Frame verglichen und es wird eine neue Ansicht gespeichert, sobald das Objekt im Videostrom nicht mehr erkannt wird. 3. Die Key Frames werden zeitlich miteinander assoziiert, d.h. im Gedächtnis wird gespeichert, welche Ansicht auf welche folgt. Objekte und Gesichter werden in verschiedenen Ansichten erkannt durch Interpolation (Bülthoff & Edelman, 1992).

Prof. Dr. Adrian Schwaninger

17

Key-Frame Modell (Wallraven & Bülthoff 2001, Schwaninger, Wallraven & Bülthoff, 2004) time

Feature Extraction

Feature Extraction

Feature Extraction

Feature Extraction

Tracking until feature loss > thresh

Keyframe 1

Recognize or Learn?

Prof. Dr. Adrian Schwaninger

Keyframe 2

Database of objects Object 1 Object 1 Object 1 Keyframe Keyframe Keyframe Keyframe Keyframe Keyframe Keyframe Keyframe Keyframe Keyframe Keyframe Keyframe

18

9

Original images

Tracked features between keyframes

Keyframes

Feature trajectories between keyframes

19

Wallraven & Bülthoff (2001); Schwaninger, Wallraven & Bülthoff (2004)

Wallraven, Schwaninger, Schumacher & Bülthoff (2002) 

  





 

Im Experiment lernten die Versuchspersonen 10 Gesichter, welche von vorne (0°) und von der Seite (60°) abgebildet waren. Danach wurden diese Gesichter und 10 Distraktoren in den 15 Winkeln präsentiert (Bedingungen Inter, Extra, Ortho Up, Ortho Down). Die Versuchsperson musste jedes Mal entscheiden, ob es sich um ein gelerntes Gesicht oder um einen Distraktor handelte. Die theoretischen Vorhersagen sind analog zur Studie von Bülthoff und Edelman (1992), welche mit Drahtobjekten und amoebenartigen Objekten durchgeführt worden ist. Wird angenommen, dass Gesichter erkannt werden, indem ein 3D Modell fehlerfrei rotiert werden kann, dann müsste die Erkennung in den Bedingungen Inter, Extra und Ortho etwa gleich gut sein. Die Linearkombination kann verschiedene Rotationen um die Hochachse nachbilden; sie wird aber fehlerhaft, wenn orthogonale Rotationen berechnet werden müssen. Die Vorhersage ist deshalb Inter = Extra > Ortho. Wird angenommen, dass Gesichter mittels Interpolation gespeicherter 2D Ansichten erkannt werden, so müsste die Erkennung in der Inter Bedingung besser als in der Extra und in der Ortho Bedingung sein. Das Key Frame Modell sagt Extra > Ortho voraus, weil durch die Rotation in Ortho Richtung, die visuelle Information eines Gesichtes noch stärker verändert. Wie man der Abbildung auf der nächsten Folie entnehmen kann, ist genau dies eingetreten, es zeigte sich Inter > Extra > Ortho Up = Ortho Down.

Prof. Dr. Adrian Schwaninger

20

10

Wallraven, Schwaninger, Schumacher & Bülthoff (2002) 4.00

-60°

+60° 0° Inter

Extra

Sensitivität d'

Ortho +45°Up 3.00

Inter Extra

2.00

Ortho Up Ortho Down

Ortho Down

1.00 0

a

-45°

b

15

30

45

60

Rotationswinkel (°)

Wallraven & Bülthoff (2001); Schwaninger, Wallraven & Bülthoff (2004) Prof. Dr. Adrian Schwaninger

21

Gesichtserkennung ist sehr orientierungsabhängig

Thompson (1980): „Margareth Thatcher – A New Illusion“ Prof. Dr. Adrian Schwaninger

22

11

Hypothese von Rock

Rock erklärt die Thatcher Täuschung sieben Jahre vor ihrer Entdeckung: "In this situation [of an inverted face], there is a whole set of component figures and figural relationships to be corrected, and it is not possible to succeed in visualizing simultaneously how each of these would look were it to be egocentrically upright." (Rock, 1973, p.60) Prof. Dr. Adrian Schwaninger

23

Hypothese von Rock “Weshalb

ist Gesichtserkennung so orientierungsabhängig?”

Rotierte Gesichter überfordern einen mentalen Rotationsprozess. Rotierte Gesichter werden anhand ihrer Teile verarbeitet.

Prof. Dr. Adrian Schwaninger

24

12

Rock’s Hypothese testen Komponenten

Konfiguration

ändern

ändern

Komponenten Information

Konfigurale Information

Nicht orientierungsabhängig

SEHR orientierungsabhängig

Nach Schwaninger & Mast (1999) Prof. Dr. Adrian Schwaninger

25

Detektion von Komponentenveränderungen

Same or different? 1 sec Blank 3 sec

13

Detektion von Komponentenveränderungen 50 40

Errors (%)

n=32

Component

30 20 10 0 0

30

60

90

120

150

180

Rotation (°)

Detektion konfiguraler Änderungen

Same or Different? 1 sec Blank 3 sec

14

Detektion von Änderungen an Komponenten und Konfiguration 50

Configural Component

Errors (%)

40

n=32

30 20 10 0 0

30

60

90

120

150

180

Rotation Angle (°)

Schlussfolgerung “Weshalb

ist Gesichtserkennung so orientierungsabhängig?”

Rotierte Gesichter überfordern einen mentalen Rotationsprozess. Rotierte Gesichter werden anhand ihrer Teile verarbeitet.



15

Integratives Modell Metric Spatial Relations

?

Dorsal System

Face Identification Unit

Local Part-Based Information „Component“ Relational Information „Configural“

Ventral System

Input Representation Schwaninger, Lobmaier & Collishaw (2002) Schwaninger, Carbon & Leder (2003)

Komponenten und Konfiguration bei Erkennung 

Gesichter wurden oft als Beispiele exklusiver holistischer Verarbeitung bezeichnet. (z.B. Farah et al., 1995; Tanaka & Farah, 1991, 1993; Biederman & Kalocsai, 1997)



In diesem Fall bedeutet holistisch, dass keine Teile (Komponenten) separat gespeichert werden.

Prof. Dr. Adrian Schwaninger

32

16

Werden Teile (Komponenten) separat gespeichert? Enkodierungsbedingung

10 Gesichter nacheinander präsentiert Prof. Dr. Adrian Schwaninger

33

Werden Teile (Komponenten) separat gespeichert? Testbedingung

10 Gesehene Gesichter & 10 Distraktoren Entscheid: Gesehen oder Distraktor? Prof. Dr. Adrian Schwaninger

34

17

Erkennung neu gelernter Gesichter (Experiment 1) Old-New Recognition Unfamiliar (N=36)

Recognition d'

5 4 3 2 1 0

Scrambled

Scrambled & Blurred

Blurred

Schwaninger, Lobmaier & Collishaw (2002)

Komponenten und Konfiguration bei Erkennung Experiment 2  Identisch mit Experiment 1 ausser das die Versuchspesonen die Lerngesichter vom Studium kannten.  Lerngesichter alle bekannt  Distraktoren alle unbekannt 

Prof. Dr. Adrian Schwaninger

36

18

Erkennung bekannter Gesichter (Experiment 2) Old-New Recognition Familiar (N=36)

Recognition d'

5 4 3 2 1 0

Scrambled

Scrambled & Blurred

Blurred

Schwaninger, Lobmaier & Collishaw (2002)

Ergebnisse 1.

Erkennung bekannter und neu gelernter Gesichter beruht auf Komponenten und konfiguraler Information.

2.

Nur quantitative Unterschiede! = Gleiche relative Wichtigkeit von Komponenten und konfiguraler Information

Prof. Dr. Adrian Schwaninger

38

19

Integratives Modell Metric Spatial Relations

?

Dorsal System

Face Identification Unit

Local Part-Based Information „Component“ Relational Information „Configural“

Ventral System

Input Representation Schwaninger, Lobmaier & Collishaw (2002) Schwaninger, Carbon & Leder (2003)

Original images

Tracked features between keyframes

Keyframes

Feature trajectories between keyframes

40

Wallraven & Bülthoff (2001); Schwaninger, Wallraven & Bülthoff (2004)

20

Implementation im Key Frames Modell   

Annahme: Saliente lokale Merkmale sind wichtig Detektion von “Interest Points” in feiner und grober Auflösung (z.B. Corner Detektor) Für jeden Interest Point:  

Image patch: 5x5 Pixel der Umgebung werden gespeichert Distanz Histogramm: Pixel Distanz zu allen anderen Interest Points wird berechnet und gespeichert

Wallraven, Schwaninger & Bülthoff (2004)

41

Implementation im Key Frames Modell 

Komponenteninformation   



Vergleicht Image Patches in detaillierter Auflösung Berechnet Ähnlichkeit zwischen Distanz Histogrammen (χ2 Distanz) nur im Bezug auf die benachbarten Image Patches Enspricht lokalen Clustern von detaillierten Merkmalen

Konfigurale Information   

Vergleicht Image Patches in grober Auflösung Berechnet globale Ähnlichkeit zwischen Distanz Histogrammen (χ2 Distanz) Entspricht globaler Konfiguration von unscharfen Merkmalen

42

21

Implementation im Key Frames Modell  

Gleiche Stimuli wie bei Schwaninger, Lobmaier & Collishaw (2002) Sehr hohe qualitative Ähnlichkeit mit empirischen Daten

Recognition d'

3.50

Component

3.00

Configural

2.50 2.00 1.50 1.00 0.50 0.00 Scrambled

Scramled & Blurred

Blurred

Nach Schwaninger, Wallraven & Bülthoff (2004) 43

Zusammenfassung

Extraction of NAPs

(Aus Graf, Schwaninger, Wallraven & Bülthoff, 2002) Prof. Dr. Adrian Schwaninger

44

22

Dorsaler und ventraler Strom

(Aus Goldstein, 2008) Prof. Dr. Adrian Schwaninger

45

Neurophysiologische Befunde zum ventralen System      

Zunehmende Grösse der rezeptiven Felder Selektivität für komplexe Muster Selektivität trotz Translationen Unterschiedliche Abhängigkeit von Grösse und Orientierung Kolumnare Organisation (Merkmalskarten) Beeinflussbarkeit durch Lernen und Belohnung

Prof. Dr. Adrian Schwaninger

46

23

Objekterkennung

(Nach Knoblich et al., 2002; Riesenhuber & Poggio, 1999) Prof. Dr. Adrian Schwaninger

47

Neurophysiologische Befunde

Prof. Dr. Adrian Schwaninger

48

24

Neurophysiologische Befunde

Prof. Dr. Adrian Schwaninger

Aus Gauthier & Logothetis (1999) 49

Kolumnare Organisation in TE (Merkmalskarten)

(Aus Tanaka, 1996) Prof. Dr. Adrian Schwaninger

50

25

Abhängigkeit von der Grösse

(Nach Tanaka, 1996) Prof. Dr. Adrian Schwaninger

51

Abhängigkeit von der Orientierung

(Aus Tanaka, 1996) Prof. Dr. Adrian Schwaninger

52

26

Repräsentation von Objekten 







Objekte werden durch die Kombination von einfachen und komplexen visuellen Merkmalen repräsentiert (Merkmalskarten). Die Repräsentation im Gedächtnis ist ansichtenbasiert, Objekte werden anhand verschiedener Ansichten gespeichert. Neue Ansichten werden vermutlich mittels Interpolation und durch non-accidental properties erkannt. In Abhängigkeit von der Erkennungsaufgabe werden verschiedene Aspekte visueller Information relevant. Auch könnte die FFA (fusiform face area) nicht speziell für Gesichter sondern genereller für ExemplarErkennung durch Experten zuständig sein.

Prof. Dr. Adrian Schwaninger

53

a

b

c Befunde mit funktioneller Magnetresonanztomographie (functional magnetic resonance tomography , fMRT) beim Menschen. Häuser, Stühle und Gesichter scheinen unterschiedliche Module im Gehirn zu aktivieren (a und b). Eine detailliertere Analyse spricht aber eher für eine Repräsentation anhand von Merkmalskarten und verteilter Aktivität (c). (Nach Ishai et al., 1999) Prof. Dr. Adrian Schwaninger

54

27

Prof. Dr. Adrian Schwaninger

55

28

Suggest Documents