Simultaneous Activity Recognition, Indoor Localization and Semantic Mapping using Wearable Sensors

Diss. ETH No. 22744 Simultaneous Activity Recognition, Indoor Localization and Semantic Mapping using Wearable Sensors A thesis submitted to attain ...
8 downloads 1 Views 72KB Size
Diss. ETH No. 22744

Simultaneous Activity Recognition, Indoor Localization and Semantic Mapping using Wearable Sensors

A thesis submitted to attain the degree of DOCTOR OF SCIENCES of ETH ZURICH Dr. Sc. ETH Zurich

presented by

Michael Hardegger MSc. ETH BME born on January 20, 1986 citizen of Zürich, ZH and Wildhaus, SG

accepted on the recommendation of Prof. Dr. Gerhard Tröster, examiner Dr. Patrick Robertson, co-examiner

2015

xi

Abstract The recent proliferation of wearable sensor technology triggered a trend towards monitoring the context of people using body-worn sensor setups. Applications include long-term health and fitness monitoring, as well as real-time support systems that assist people in their daily-life activities. Two important features in such scenarios are the system’s awareness of the user’s location, and of his interactions with the environment. So far, localization and activity recognition were mostly considered as orthogonal problems, with specific setups and signal processing techniques developed for each task. In this work, we introduce three unified approaches for simultaneous activity and location awareness. The key to all presented methods are so-called semantic maps that represent a user’s surroundings as a set of space-fixed objects with type and state attributes. The recognition of an object-related activity indicates that the user is at the location of an object with corresponding type. Vice-versa, if the user is at the place of a particular object, this increases the prior probability of an upcoming activity being an interaction with this object. Based on this idea, we adapted existing particle-filter frameworks to the specific problem of fusing the location and activity information that wearable sensors can provide. This work resulted in the formulation of the following algorithms: • ActionSLAM stands for Action-based Simultaneous Localization And Mapping: This particle-filter algorithm resets dead reckoning position estimations from a foot-mounted inertial measurement unit when location-related actions are recognized. • LocAFusion is a location-activity fusion algorithm that constructs a semantic map of the environment by tagging action recognitions to Cartesian coordinates. At the end of a recording, it uses the accumulated information about a location to discriminate between identical actions performed at different places. Furthermore, LocAFusion can correct recognitions that are unlikely, given the other observations at the same location. • S-SMART, which stands for Simultaneous Semantic Mapping, Activity Recognition and Tracking, simultaneously models the environment state (semantic mapping), localizes the user within

xii

this map (tracking), and recognizes interactions with the environment (activity recognition). The framework identifies which activities the user executes where (e.g., turning a wrist next to a door), and reflects the outcome of these motions by updating the world model (e.g., the door is now open). This in turn conditions the future possibility of executing actions at specific places (e.g., closing the door is likely to be the next action at this location). All of these algorithms are designed for the application with wearable sensor setups, and they do not require any prior infrastructure or information about the layout of the target environment. As a consequence, they support fast deployment to new use scenarios. As standalone systems, they also protect the user’s privacy, given that all the context processing may be done locally on the wearable sensor nodes. In this theses, we perform most of the analyses offline in Matlab, but for demonstration purposes we also implemented an Android version of ActionSLAM. This application provides immediate location-aware feedback from the user’s smartphone. We characterize the three algorithms ActionSLAM, LocAFusion and S-SMART in experimental datasets with people performing dailylife activities at home and in office buildings. Overall, the algorithms robustly map environments with a mean mapping accuracy of 0.59 m (error in positioning objects in the semantic map). They recognize the type of objects in this map with an F1 score of 96%. S-SMART, which can correct activity recognition errors by accumulating information about a location over time, consistently outperforms state-of-the-art wearable systems for independent positioning and activity recognition. The algorithm achieves an F1 score of 69% in real-life experiments with up to 23 activity classes. With the combined, fully wearable approach to location and activity tracking by means of semantic maps, the proposed algorithms provide the fundamentals for the next generation of wearable assistants. Therefore, this work is an important step towards fine-grained life logging and cognitive prostheses, while decreasing the need for ambient sensing.

xiii

Zusammenfassung Die zunehmende Verbreitung tragbarer Sensortechnologie ermöglicht neue Anwendungen im Bereich der Kontextanalyse aus Daten von am Körper getragenen Sensoren. Anwendungen finden sich im Langzeit-Monitoring von Gesundheits- und Fitnessaspekten, sowie in der fortwährenden, kontextabhängigen Unterstützung bei Alltagsaktivitäten. Zu den wichtigsten Eigenschaften in solchen Systeme gehören das Wissen über die Position des Benutzers und seine aktuellen Interaktionen mit der Umgebung. Bis anhin betrachtete man Lokalisierung und Aktivitätserkennung in der Regel als zwei unabhängige Aufgaben, mit spezialisierten Installationen und Signalverarbeitungstechniken für beide Aufgaben. In der vorliegenden Arbeit schlagen wir einen kombinierten Ansatz für die gleichzeitige Aktivitäts- und Positionserkennung vor. Entscheidend bei der neu entwickelten Methode sind sogenannte semantische Karten, welche die Umgebung des Nutzers als eine Liste aus Objekten mit Typ- und Zustandsattributen beschreibt. Objektbezogene Aktivitäten deuten darauf hin, dass sich der Benutzer in der Nähe eines Objekts mit passenden Attributen befindet. Im Gegenzug ändert die Nähe einer Person zu einem bestimmten Objekt die a-priori Wahrscheinlichkeit für eine baldige Interaktion mit diesem Objekt. Wir adaptierten existierende Partikelfilter-Frameworks für das konkrete Problem der gleichzeitigen Positionierung und Aktivitätserkennung aus Sensordaten. Daraus resultierten die folgenden Algorithmen: • ActionSLAM steht für Action-based Simultaneous Localization And Mapping (aktions-basierte simultane Lokalisierung und Kartografierung). Dieser Partikel-Filter Algorithmus korrigiert die aufakkumulierten Fehler eines Koppelnavigationssystems mit fussgetragenem Bewegungssensor, sobald ortsbezogene Aktionen erkannt werden. • LocAFusion kombiniert Positionsverfolgung mit der Erkennung von ortsbezogenen Aktivitäten (Location-Action Fusion), um eine semantische Karte der Umgebung zu erstellen. Am Ende eines Experiments kann aufgrund der gesammelten Information über einen Ort besser bestimmt werden, was für ein Objekt sich an dieser Position befand. Erkannte Aktivitäten, die im Widerspruch zu dieser Entscheidung stehen, können dann

xiv

entsprechend korrigiert werden. Ausserdem ist es möglich, Interaktionen mit Objekten desselben Typs an verschiedenen Orten zu unterscheiden. • S-SMART, steht für Simultaneous Semantic Mapping, Activity Recognition and Tracking (simultane semantische Kartografierung, Aktivitätserkennung und Positionierung). Dieser Algorithmus modelliert gleichzeit die Umgebung (semantische Karte), lokaliert den Benutzer in dieser Karte (Positionierung) und erkennt seine Interaktionen mit der Umgebung (Aktivitätserkennung). Das System identifiziert, was der Nutzer wo macht (zum Beispiel Rotieren des Handgelenks in der Nähe einer Türe), und reflektiert das Ergebnis solcher Aktionen in einem internen Zustandsmodell (im Beispiel ist die Türe als Resultat neu offen). Im Gegenzug ändert dieser Umgebungszustand die zukünftigen a-priori Wahrscheinlichkeiten für die Ausführung bestimmter Aktionen am gegebenen Ort (im Beispiel ist das Schliessen der Türe eine wahrscheinliche nächste Aktion an der Position). Alle drei Algorithmen sind für die Anwendung als eigenständiges, tragbares System entwickelt, und folglich unabhängig von vorinstallierter Infrastruktur beziehungsweise jeglicher externer Information über das Einsatzgelände. Als Folge unterstützen die Algorithmen eine effiziente Installation in neuen Umgebungen. Ausserdem ist die Privatsphäre des Nutzers geschützt, da die Kontexterkennung lokal ausgeführt werden kann und kein Datenaustausch mit Netzwerken erforderlich ist. Die meisten unserer Analysen fanden dennoch offline statt. Wir implementierten allerdings den ActionSLAM-Algorithmus auch in Android für Echtzeitpositionsfeedback von Smartphones. Wir charakterisieren die drei Algorithmen ActionSLAM, LocAFusion und S-SMART in mehreren Datensätzen. Dabei tragen Freiwillige das zugehörige Sensorsetup, während sie Alltagsroutinen in Heimund Bürogebäuden ausführen. Die Algorithmen kartografieren dabei die Umgebungen robust mit einer durchschnittlichen Genauigkeit von 0.59 m in der Positionierung der Objekte. Das F1-Mass für die Objekttypenerkennung liegt bei 96% in unseren Datensätzen. S-SMART kann darüber hinaus Aktivitätserkennungsfehler durch die Akkumulation von positionsgebundener Information korrigieren. Der Algorithmus erreicht ein F1-Mass von 69% in Problemen mit bis zu 23 Klassen und übertrifft damit Referenzsysteme für unabhängige Lokalisierung und Aktivititätserkennung.

xv

Mit dem kombinierten Ansatz zu Lokalisierung und Aktivitätserkennung basierend auf semantischen Karten erfüllen die vorgeschlagenen Algorithmen die Bedingungen für zahlreiche Anwendungsszenarien von Wearables im Alltag. Die vorliegende Arbeit stellt damit einen wichtigen Schritt in Richtung detailliertes Sammeln von persönlichen Aktivitätsdaten dar. Auf solchen Ansätzen könnten in Zukunft sogenannte kognitive Prothesen basieren, die unabhängig von einer Instrumentierung der Umgebung funktionieren.

Suggest Documents