Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler [email protected] Mainz, 5. Juli 2011 Statistik, Datenanalyse und Simulation ...
Author: Viktor Adenauer
10 downloads 2 Views 216KB Size
Statistik, Datenanalyse und Simulation Dr. Michael O. Distler [email protected]

Mainz, 5. Juli 2011

Statistik, Datenanalyse und Simulation

Principal component analysis (PCA)

Zunächst: PCA (Hauptkomponentenanalyse) ist eine mathematische Prozedur, die eine Anzahl von (möglicherweise korrelierten) Variablen in eine kleinere Anzahl, unkorrelierter Variablen transformiert. Dabei wird eine Hauptachsentransformation durchgeführt: Man minimiert die Korrelation mehrdimensionaler Merkmale durch Überführung in einen Vektorraum mit neuer Basis. Die Hauptachsentransformation lässt sich durch eine orthogonale Matrix angeben, die aus den Eigenvektoren der Kovarianzmatrix gebildet wird.

Statistik, Datenanalyse und Simulation

Principal component analysis (PCA) Anwendungsbeispiel: Betrachtet werden Artillerieschiffe des Zweiten Weltkriegs. Sie sind eingeteilt in die Klassen Schlachtschiffe, schwere Kreuzer, leichte Kreuzer und Zerstörer. Es liegen Daten für ca. 200 Schiffe vor. Es wurden die Merkmale Länge, Breite, Wasserverdrängung, Tiefgang, Leistung der Maschinen, Geschwindigkeit (längerfristig mögliche Höchstgeschwindigkeit), Aktionsradius und Mannschaftsstärke erfasst. Eigentlich messen die Merkmale Länge, Breite, Wasserverdrängung und Tiefgang alle einen ähnlichen Sachverhalt. Man könnte hier also von einem Faktor “Größe” sprechen. Die Frage ist, ob noch andere Faktoren die Daten bestimmen. Es gibt tatsächlich noch einen zweiten deutlichen Faktor, der vor allem durch die Leistung der Maschinen und die Höchstgeschwindigkeit bestimmt wird. Man könnte ihn zu einem Faktor “Geschwindigkeit” zusammenfassen. Statistik, Datenanalyse und Simulation

Principal component analysis (PCA) Weiteres Beispiel: Die Position eines Balles, der an einer schwingenden Feder befestigt ist, wird durch drei Kameras beobachtet.

Statistik, Datenanalyse und Simulation

Principal component analysis (PCA)

Jede Kamera bestimmt die Position des Balles (x, y ) über 10 Minuten mit einer Bildrate von 120 Hz. Die Daten werden in 72000 6-dimensionalen Vektoren zusammengefasst:   xA  yA     xB   ~x =   yB     xC  yC Statistik, Datenanalyse und Simulation

Eigenschaften und Grenzen der PCA Theoretisch das optimale lineare Verfahren, um hochdimensionale Daten zu komprimieren. Benutzt keine Parameter. Unabhängig von Hypothesen über die Verteilung der Daten. Die beiden letzten Punkte sind sowohl Vorteile als auch Nachteile. Voraussetzungen: Annahme der Linearität. Mittelwert und Kovarianz sind einzige Kriterien. Große Varianzen deuten auf wichtige Dynamik.

Statistik, Datenanalyse und Simulation

Principal component analysis (PCA) Anwendungsbeispiel: Artillerieschiffe des Zweiten Weltkriegs. Streudiagramme der Merkmale Länge, Breite und Geschwindigkeit:

Statistik, Datenanalyse und Simulation

Principal component analysis (PCA)

Hauptkomponentenanalyse: Faktor A B C Länge 0,862 0,481 −0,159 Breite 0,977 0,083 0,198 Knoten −0,679 0,730 0,082 Vor allem der Beitrag von Länge und Breite zum ersten Faktor ist groß. Beim zweiten Faktor ist vor allem der Beitrag von Knoten groß. Der dritte Faktor ist unklar und wohl auch unerheblich.

Statistik, Datenanalyse und Simulation

Principal component analysis (PCA) Komponentenmatrix für acht Variablen: Wasserverdrängung BRT Länge m Breite m Tiefgang m 1000 PS Knoten sm/h Aktionsradius 100 sm Mannschaftsstärke

1 0,948 0,906 0,977 0,934 0,552 -0,520 0,398 0,955

2 -0,094 0,302 -0,128 -0,276 0,779 0,798 0,311 0,063

3 -0,129 -0,064 -0,031 -0,061 -0,196 -0,157 0,862 -0,052

Komponente 4 5 0,228 0,040 -0,209 0,128 0,032 0,103 0,014 0,074 -0,133 -0,099 0,222 0,109 0,038 0,008 0,108 -0,226

6 0,036 -0,144 -0,017 0,129 0,143 -0,038 0,022 -0,121

7 0,136 -0,007 -0,014 0,154 -0,038 0,071 -0,002 0,067

Varianz der Komponenten Komponente 1 2 3 4 5 6 7 8

Total 5,19 1,54 0,83 0,18 0,11 0,08 0,05 0,02

Eigenwerte % der Varianz 64,88 19,22 10,43 2,22 1,34 0,95 0,67 0,30

Kumulativ 64,88 84,10 94,53 96,74 98,08 99,03 99,70 100,00

Statistik, Datenanalyse und Simulation

8 0,055 -0,050 0,129 -0,038 0,018 0,004 -0,005 0,002

Quellen

Wikipedia: Principal component analysis, http://en. wikipedia.org/w/index.php?title=Principal_ component_analysis&oldid=339311777 Wikipedia: Hauptkomponentenanalyse, http://de.wikipedia.org/w/index.php?title= Hauptkomponentenanalyse&oldid=69161074 Jonathon Shlens: A Tutorial on Principal Component Analysis, http://www.snl.salk.edu/~shlens/pca.pdf

Statistik, Datenanalyse und Simulation