Multimodal Emotion and Stress Recognition

Diss. ETH No. 20086 Multimodal Emotion and Stress Recognition A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented ...
5 downloads 0 Views 54KB Size
Diss. ETH No. 20086

Multimodal Emotion and Stress Recognition

A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by CORNELIA K APPELER-S ETZ MSc EEIT ETH Zurich born September 27, 1979 citizen of Dintikon AG and Schwyz SZ, Switzerland accepted on the recommendation of Prof. Dr. Gerhard Tröster, examiner Prof. Dr. Ulrike Ehlert, co-examiner 2012

Abstract This work aims at automatically determining a person’s emotional state by means of several sensors modalities. Since emotion and stress recognition is most beneficial in unconstrained, everyday life, we gradually moved from a standardized, laboratory experiment to a real-life setting. Data loss due to artifacts is a frequent phenomenon in practical applications. However, such artifacts usually do not affect all the recorded signals at the same time. Discarding the entire feature vector (i.e. all signals), if only a single signal is corrupted, results in a substantial loss of data. This problem has rarely been addressed in previous work on emotion recognition from physiological signals. We therefore investigated two methods for handling missing feature values, in order to reduce artifact-induced data loss: Imputation (missing data is replaced) and reduced-feature models (classification models are reduced such that only the data of valid signals is used). For the reduced-feature models approach, a separate classifier was trained for each signal modality. To obtain a classification result, the results of the single modality classifiers were fused by majority or confidence voting. To test the methods for handling missing feature values, the five emotions amusement, anger, contentment, neutral and sadness were elicited in 20 subjects by standardized films, while six physiological signals (ECG, EMG, EOG, EDA, respiration and finger temperature) were recorded. Results showed that classifier fusion increases the recognition accuracy by up to 16.3% in comparison to a single classifier that uses the features of all signal modalities simultaneously. Moreover, 100% of the data could be analyzed, even though only 47% of the data was completely artifact-free. Next, a more naturalistic emotion elicitation technique was chosen. Using a standardized but interactive laboratory protocol, which resembles a stressful situation of an office worker, mental and social stress was elicited in 33 subjects. Our goal was to distinguish stress from mild cognitive load using physiological and activity signals. The signals were first evaluated separately in order to find suitable features for distinguishing between stress and cognitive load. A separate classifier was then trained for each signal. Similar to the previous experiment, the different signal modalities were combined using classifier fusion. Analysis of the EDA data showed that the distributions of the EDA peak height and the instantaneous peak rate carry information about the stress level of a person. Analysis of the acceleration data revealed, that body language also contains information about stress. Specific stress-related acceleration features have been

xii

CONTENTS

identified for the head, the right hand and the feet. Since different modalities convey different “kinds” of information about stress, they complement each other. A classifier that fuses six modalities (head, right hand, left leg, right leg, heart, EDA) by majority voting yielded an accuracy of 84.6%. This accuracy is 6% higher than the accuracy reached by the best single modality classifier. Finally, the generalization of the chosen features and classifiers to a "realworld" stress situation was investigated in a small office experiment. Classifiers were trained on the data of the laboratory stress experiment described above, and tested on the data of the office experiment. The results indicated, that single modality LDA classifiers using the chosen features exhibit good generalization capabilities. When combining the different modalities, 100% accuracy for distinguishing stress from cognitive load was achieved with majority voting. Going one step further, we investigated emotions in everyday life. Twenty-two subjects watched a soccer game of their favorite team playing during the World Cup. Internet live-ticker data were used to label the recorded physiological and movement data. An unsupervised classifier was trained that used the ticker text to predict the corresponding ticker category (e.g. a goal). From the high accuracy (75% for three ticker categories), we concluded that the ticker category is related to the arousal expressed in the ticker text. Using questionnaires, we further investigated which emotions are elicited and whether specific emotions can be associated with the different ticker categories. The emotions elicited by soccer watching cover each quadrant of the arousalvalence space and their intensities are comparable to the intensities achieved with standardized film stimuli. Furthermore, emotions that are difficult to be elicited with other - ethically uncritical - elicitation techniques are strongly elicited by soccer watching. As expected, positive emotions predominated for a victory of the favorite team, whereas negative emotions predominated for defeats. A recognition accuracy of 79.2% was achieved in discriminating events of high arousal from game minutes without special incidents, and 87.1% was achieved in discriminating “positive” from “negative” events.

Zusammenfassung Das Ziel dieser Arbeit besteht darin, den emotionalen Zustand einer Person mit Hilfe von Sensoren automatisch zu erkennen. Zur Emotions- und Stresserkennung wurden Experimente mit körpergetragenen Sensoren durchgeführt, wobei wir uns schrittweise von einem standardisierten Experiment im Labor zu einer möglichst alltagsnahen Situation bewegten. Signalstörungen (z.B. verursacht durch Bewegung) können physiologische Daten unbrauchbar machen. Gerade in praktischen Anwendungen sind solche Störungen häufig. Allerdings treten die Störungen gewöhnlich nicht in allen Signalen gleichzeitig auf. Verwirft man beim Auftreten einer Störung in einem einzelnen Signal gleich den gesamten Datensatz (d.h. alle Signale), so führt dies zu einem erheblichen Datenverlust. Auf dieses Problem wurde in früheren Arbeiten zum Thema Emotionserkennung aus physiologischen Signalen wenig eingegangen. Daher untersuchten wir in dieser Arbeit zwei Methoden, mit welchen sich der mit Signalstörungen einhergehende Datenverlust vermeiden lässt: “Imputation” (fehlende Daten werden ersetzt) und “reduced-feature models” (Klassifikationsmodelle werden “reduziert”, sodass sie nur Daten von gültigen Signalen verwenden). Für die “reduced-feature models” Methode wurde für jede Signalmodalität ein separater Klassifikator trainiert. Um schliesslich eine Klassifikationsaussage zu erhalten, wurden die Klassifikationsergebnisse der einzelnen Klassifikatoren miteinander kombiniert (entweder durch Mehrheitsentscheid oder mit Hilfe des Vertrauenswertes der Klassifikatoren in ihre Klassifikationsergebnisse). Um die Methoden zur Vermeidung des störungsbedingten Datenverlustes zu validieren, wurden in einem Experiment mit 20 Teilnehmern mithilfe von standardisierten Filmausschnitten die vier Emotionen Erheiterung, Ärger, Zufriedenheit und Traurigkeit, sowie ein emotions-neutraler Zustand hervorgerufen. Dabei wurden sechs physiologische Signale aufgezeichnet (EKG, EMG, EOG, Hautleitfähigkeit, Atmung und Fingertemperatur). Die Emotionserkennungsrate, welche durch die Kombination mehrerer Klassifikatoren erreicht wurde, war bis zu 16.3% höher als die Emotionserkennungsrate eines einzelnen Klassifikators (welcher Merkmale aller Signalmodalitäten gleichzeitig benutzte). Obwohl nur 47% der Datensätze völlig störungsfrei waren, konnten mit den “reduced-feature models” trotzdem alle Datensätze für die Analyse verwendet werden. Im nächsten Schritt wurde eine alltagsnähere Technik zur Emotionsauslösung verwendet. Mit Hilfe eines standardisierten, interaktiven Experimentablaufs wurden 33 Testpersonen unter mentalen und sozialen Stress gesetzt. Die Stresssitua-

xiv

CONTENTS

tion wurde so gewählt, dass sie der eines Büroangestellten ähnelte. Unser Ziel war, mit Hilfe von physiologischen und Bewegungssignalen Stress von geringer kognitiver Belastung zu unterscheiden. Die Signale wurden zuerst einzeln ausgewertet, um geeignete Signalmerkmale für die Unterscheidung von Stress und kognitiver Belastung zu finden. Für jedes Signal wurde ein Klassifikator trainiert. Ähnlich wie im vorhergehenden Experiment wurden die Klassifikationsergebnisse der einzelnen Klassifikatoren miteinander kombiniert. Die Auswertung der Hautleitfähigkeit (EDA) zeigte, dass die Höhe und die Frequenz der EDA-Ausschläge für die Unterscheidung von Stress und kognitiver Belastung relevant sind. Die Auswertung der Bewegungssignale ergab, dass sich die Körpersprache ebenfalls für Stress und kognitive Belastung unterscheidet. Aus dieser Beobachtung konnten wir spezifische stressbezogene Bewegungsmerkmale für den Kopf, die rechte Hand und die Füsse ermitteln. Verschiedene Signalmodalitäten ergänzen sich gegenseitig, weil sie unterschiedliche Informationen über Stress enthalten. Indem die Klassifikationsergebnisse von sechs Klassifikatoren (je einer für die Signalmodalitäten Kopf, rechte Hand, linkes Bein, rechtes Bein, Herz und Hautleitfähigkeit) durch Mehrheitsentscheid miteinander kombiniert wurden, konnte eine Klassifikationsgenauigkeit von 84.6% erreicht werden. Die Kombination der sechs Modalitäten ergab eine um 6% höhere Genauigkeit als eine Klassifikation basierend auf einer einzelnen Modalität. Um die Generalisierungsfähigkeit der gewählten Merkmale und Klassifikatoren im realen Büroalltag zu testen, führten wir ein kleines Experiment im Büro durch. Klassifikatoren, welche mit den Daten des oben beschriebenen LaborStressexperimentes trainiert wurden, wurden auf die Daten des Büroexperimentes angewendet. Für die LDA-Klassifikatoren einzelner Signalmodalitäten konnte mit den gewählten Merkmalen eine gute Generalisierungsfähigkeit gezeigt werden. Durch die Kombination mehrerer Modalitäten resultierte gar eine Klassifikationsgenauigkeit von 100% für die Unterscheidung von Stress und kognitiver Belastung. In einem weiteren Schritt untersuchten wir Emotionen im Alltag. 22 Testpersonen sahen sich dafür ein TV-Fussballspiel ihres Lieblingsteams während der Fussballweltmeisterschaft 2010 an. Live-Ticker Daten aus dem Internet wurden für die Annotation der aufgenommenen physiologischen und Bewegungsdaten verwendet. Ein Klassifikator wurde trainiert, welcher aus dem Live-Ticker Text die zugehörige Ereigniskategorie (z.B. Tor) ermitteln konnte. Aus der hohen Klassifikationsgenauigkeit (75% für 3 Ereigniskategorien) schlossen wir, dass die Ereigniskategorien der Tickereinträge mit der im Text ausgedrückten emotionalen Aktiviertheit in Zusammenhang stehen. Mit Hilfe von Fragebögen untersuchten wir daraufhin, welche Emotionen durch das Ansehen eines Fussballspieles ausgelöst werden und ob den Ereigniskategorien spezifische Emotionen zugeordnet werden können. Die Emotionen, welche durch das Ansehen der Fussballspiele ausgelöst wurden, verteilten sich auf die gesamte Ebene, welche durch die Emotionsdimensionen “Aktiviertheit” und “Valenz” aufgespannt wird. Die Intensität der durch Fussball ausgelösten Emotionen war vergleichbar mit der Intensität von Emotionen, welche durch standardisierte Filmausschnitte ausgelöst wurden. Ausserdem beobachteten wir, dass Emotionen, welche teilweise nur mit ethisch kritischen Methoden zuverlässig ausgelöst werden können, sich durch das Anschauen eines

CONTENTS

xv

Fussballspieles leicht hervorrufen liessen. Erwartungsgemäss überwogen positive Emotionen, wenn das bevorzugte Fussballteam das Spiel gewann, und negative Emotionen, wenn das bevorzugte Team verlor. Für die automatische Unterscheidung von Ereignissen hoher Aktiviertheit und Spielminuten ohne besondere Vorkommnisse wurde eine Klassifikationsgenauigkeit von 79.2% erreicht. Die Unterscheidung von positiven und negativen Ereignissen resultierte in einer Klassifikationsgenauigkeit von 87.1%.

Suggest Documents