Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Sparse Hauptkomponentenanalyse Referent: Thomas Klein-Heßling LMU M¨ unchen
20. Januar 2017
1 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
1
Einf¨ uhrung
2
Hauptkomponentenanalyse
3
Details der SPCA
4
Anwendung
5
Fazit
2 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Einf¨uhrung
Ziel: vorhandene Datenmenge verstehen → Daten komprimieren Bei der Sparse Hauptkomponentenanalyse (SPCA) handelt es sich um eine spezielle Form der gew¨ ohnlichen Hauptkomponentenanalyse (PCA) ¨ mittels SPCA einen besseren Uberblick u ¨ber die Daten verschaffen → Interpretierbarkeit soll gegen¨ uber PCA gesteigert werden
3 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Anwendungsgebiete
Segmentierung → z.B Industrie (Kunden- oder Marktsegmentierung) oder der Bildsegmentierung Genomforschung S¨amtliche Gebiete, in denen große Datenmengen vorkommen
4 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
1
Einf¨ uhrung
2
Hauptkomponentenanalyse
3
Details der SPCA
4
Anwendung
5
Fazit
5 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Allgemeines Ziel: Dimension der Daten zu verringern ohne zu großen Informationsverlust Bilden von Linearkombinationen: Zj = a1j X1 + a2j X2 + ... + apj Xp = ajT X Zj : Hauptkomponenten X T = (X1 , ..., Xp ): n × p -Datenmatrix ajT = (a1j , ..., apj ): Ladungen Es gilt: P ajT aj = pk=1 akj = 1
und (f¨ ur j > 2) ahT aj = 0, h < j
Hauptkomponenten sind unabh¨angig voneinander 6 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Herleitung der Hauptkomponenten
maximiere Var (ajT X ) (bzw. ¨aquivalent hierzu; maximiere ajT X˜ X˜ T aj , wobei X˜ die zentrierte Datenmatrix darstellt) erste Hauptkomponente Z1 wird gefunden, indem a1 so bestimmt wird, dass Z1 die gr¨ oßtm¨ ogliche Varianz erkl¨art → entspricht dem zum gr¨ oßten Eigenwert von 1 ˜T ˜ Cov (X ) = n−1 orendem Eigenvektor X X geh¨
7 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Herleitung der Hauptkomponenten Definition (Singul¨ arwertzerlegung): Ohne Beschr¨ankung der Allgemeinheit sei der Erwartungswert aller Spalten von X gleich 0. Die Singul¨arwertzerlegung von X sei nun X = UDV T .
(1)
¨ Z = UD beschreibt nun die Hauptkomponenten. Aquivalent dazu ist Z = XV mit V als die dazugeh¨ origen Ladungen der Hauptkomponenten. Die Stichprobenvarianz der i-ten Hauptkomponente wird durch Dii2 /n beschrieben. Bei U und V handelt es sich um orthogonale Matrizen, d.h. es gilt UU T = I bzw. VV T = I . Die Spaltenvektoren von V und U, vi und ui , nennt man Singul¨arvektoren (Eigenvektoren), die Elemente Dii der Diagonalmatrix D sind die Singul¨arwerte (Eigenwerte). 8 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Anzahl der Hauptkomponenten
Bestimme Anteil der erkl¨arenden Varianz der ersten q q P
Hauptkomponenten durch
i=1 p P i=1
Dii2 Dii2
>α
¨ Ubliche Werte f¨ ur α liegen zwischen 0.7 und 0.9
9 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Probleme der Hauptkomponentenanalyse
Interpretation der Hauptkomponenten Linearkombinationen besitzen f¨ ur gew¨ ohnlich keine, bis sehr wenige 0-Eintr¨age f¨ ur die Ladungen → alle p Variablen sind Bestandteil einer Hauptkomponente
10 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
1
Einf¨ uhrung
2
Hauptkomponentenanalyse
3
Details der SPCA
4
Anwendung
5
Fazit
11 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Allgemeines
Bei sparse Hauptkomponenten handelt es sich um Hauptkomponenten, die bei mehreren Variablen eine Ladung von exakt Null aufweisen Interpretierbarkeit soll gegen¨ uber PCA gesteigert werden Regressionsansatz, welcher auf der Idee des LASSOs und des Elastic Nets basiert
12 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
LASSO (Least Absolute Shrinkage and Selection Operator)
Betrachte ein lineares Regressionsmodell mit n Beobachtungen und p Variablen Y = (y1 , ..., yn ) sei der Responsevektor und X = [X1 , ..., Xp ] mit Xj = (x1j , ..., xnj ) die Pr¨adiktoren, j = 1, ..., p Nach Transformation k¨ onnen wir annehmen, dass alle Xj und Y zentriert sind
13 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
LASSO (Least Absolute Shrinkage and Selection Operator) Der LASSO-Sch¨atzer (Least Absolute Shrinkage and Selection Operator) ist derart konstruiert, dass er die Koeffizienten schrumpft Absch¨atzung f¨ ur βˆLASSO durch Minimieren von βˆLASSO = arg min kY − β
p X j=1
Xj βj k22
+λ
p X
|βj |,
j=1
wobei λ positiv ist LASSO-Verfahren verkleinert die Koeffizienten kontinuierlich gegen Null und erreicht die gew¨ unschte Genauigkeit gegen einen Varianzverlust 14 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Elastic Net
Elastic Net ist Spezialfall des LASSO-Verfahrens F¨ ur positive λ1 und λ2 ist das Elastic Net definiert als p p p X X X 2 2 ˆ βEN = (1+λ2 ){arg min kY − Xj βj k2 +λ2 |βj | +λ1 |βj |} β
j=1
j=1
j=1
F¨ ur ein fixes λ2 l¨ost der sogenannte LARS-EN Algorithmus das Problem f¨ ur alle λ1
15 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
SCoTLASS (Simplified Component Technique-LASSO) Vorgestellt von Jolliffe, Trendafilov und Uddin (2003) SCoTLASS ist ein Verfahren, welches durch direkte Anwendung der L1-Norm auf die PCA sparse Ladungen erzielt (basierend auf LASSO-Verfahren) SCoTLASS-Methode maximiert schrittweise die Varianz akT (X T X )ak , wobei akT ak = 1
und (f¨ ur k > 2) ahT ak = 0, h < k, P ur einen mit der Einschr¨ankung, dass pj=1 akj 6 t f¨ Parameter t Hoher Rechenaufwand, da keine Vorgaben f¨ ur die Wahl von t vorhanden sind erstellt h¨ochstens n Ladungen > 0
16 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Sparse Hauptkomponentenanalyse
Regressionsansatz von Zou, Hastie und Tibshirani (2006) Da jede Hauptkomponente eine Linearkombination der p Variablen ist, k¨onnen wir die Ladungen durch Zur¨ uckf¨ uhren der Hauptkomponenten auf die Variablen erhalten
17 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Herleitung der sparse Hauptkomponenten
Theorem 1 F¨ ur jedes i sei Zi = Ui Dii die i-te Hauptkomponente. Betrachte ein positives λ und die Randabsch¨atzung βRidge gegeben durch βˆRidge = arg min kZi − X βk22 + λkβk22 . β
Sei nun vˆ =
βˆRidge , dann gilt: vˆ = Vi kβˆRidge k 2
18 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Herleitung der sparse Hauptkomponenten Das Theorem zeigt den Zusammenhang zwischen PCA und Regression Durch Hinzuf¨ ugen des L1-Fehlerterm erhalten wir: βˆ = arg min kZi − X βk22 + λkβk22 + λ1 kβk1 β
βˆ Approximation f¨ ur die Ladungen der i-ten sparse ˆ 2 kβk Hauptkomponente → h¨angt von den Ergebnissen der gew¨ ohnlichen PCA ab und stellt somit keine optimalen L¨ osungsweg dar Vˆi =
19 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Herleitung der sparse Hauptkomponenten
Theorem 2 F¨ ur jedes λ > 0 sei ˆ = arg min (ˆ α, β) α,β
n X
kxi − αβ T xi k22 + λkβk22 ,
(2)
i=1
wobei kαk22 = 1 gilt. Dann gilt βˆ ∝ V1
20 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Herleitung der sparse Hauptkomponenten
Theorem 3 Angenommen wir betrachten die ersten k Hauptkomponenten. Sei Ap×k = [α1 , ..., αk ] und Bp×k = [β1 , ..., βk ]. F¨ ur jedes λ > 0 sei ˆ B) ˆ = arg min (A, A,B
n X i=1
kxi − AB
T
xi k22
+λ
k X
kβj k22 ,
(3)
j=1
mit AT A = Ik×k . Dann gilt βˆj ∝ Vj , f¨ ur j = 1, ..., k.
21 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Herleitung der sparse Hauptkomponenten Theoreme 2 und 3 wandeln das PCA Problem zu einem Regressionsproblem um Indem wir einen LASSO-Fehlerterm hinzuf¨ ugen, wird der Zusammenhang zwischen PCA und Regression weiter verst¨arkt, womit wir auf folgendes Optimierungsproblem kommen: ˆ B) ˆ = arg min (A, A,B
n X i=1
kxi −AB T xi k22 +λ
k X j=1
kβj k22 +λ1,j
k X
kβj k1 ,
j=1
wobei AT A = Ik×k gilt Um die Gleichung zu l¨ osen, wird ein Algorithmus ben¨otigt, welcher eine numerische L¨ osung liefert 22 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
SPCA Algorithmus
F¨ ur ein festes A: F¨ ur jedes j, sei Yj∗ = X αj . So gilt: βˆj = arg min kYj∗ − X βj k22 + λkβj k22 + λ1,j kβj k1 , βj
mit Bˆ = [βˆ1 , ..., βˆk ]. Dies entspricht eine Absch¨atzung des Elastic Nets
23 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
SPCA Algorithmus F¨ ur ein festes B: Falls B gegeben ist, kann der Bestrafungsterm aus Gleichung (3) P ignoriert werden, womit wir lediglich versuchen m¨ ussen den Term ni=1 kxi − AB T xi k22 = kX − XBAT k22 zu minimieren, wobei AT A = Ik×k . Die L¨ osung ist dann gegeben durch eine Reduced Rank-Form der Procrustes Rotation, welche im folgendem Theorem 4 gezeigt wird. Wir berechnen die Singul¨arwertzerlegung durch: (X T X )B = UDV T
(4)
und setzen Aˆ = UV T
24 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Herleitung der sparse Hauptkomponenten
Theorem 4 (Reduced Rank Procrustes Rotation) Seien Mn×p und Nn×k zwei Matrizen. Betrachte das eingeschr¨ankte Minimierungsproblem Aˆ = arg min kM − NAT k22 ,
(5)
A
mit AT A = Ik×k . Sei weiter die Singul¨arwertzerlegung von M T N gleich UDV T . Dann gilt Aˆ = UV T
25 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
SPCA Algorithmus 1. Setze A = [v1 , ..., vk ], also die ersten k Ladungen der gew¨ohnlichen PCA 2. F¨ ur ein festes A = [α1 , ...αk ], l¨ ose das folgende Elastic Net Problem f¨ ur alle j = 1, ..., k: βˆj = arg min (αj − β)T X T X (αj − β) + λkβk22 + λ1,j kβk1 , β
3. F¨ ur ein festes B = [β1 , ..., βk ], berechne die Singul¨arwertzerlegung von X T XB = UDV T und setze A = UV T 4. Wiederhole die Schritte 2 und 3 solange bis Konvergenz zu einem lokalen Optimum erreicht wird β , j = 1, ..., k 5. Normiere Vˆj = kβk2
26 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
1
Einf¨ uhrung
2
Hauptkomponentenanalyse
3
Details der SPCA
4
Anwendung
5
Fazit
27 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Allgemeines
Vergleich der gew¨ ohnlichen PCA mit SPCA Untersuchung an simuliertem und an realem Datensatz R-package: elasticnet
28 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Simulation Betrachte Datensatz mit 10 Variablen und 100000 Beobachtungen Variablen werden generiert durch drei zugrundeliegende Faktoren von der Form: V1 ∼ N(0, 20),
V2 ∼ N(0, 30)
V3 = −0.5V1 + 0.8V2 + ,
∼ N(0, 1)
Die Variablen werden nun generiert durch: Xi = V1 + i ,
i ∼ N(0, 1),
i = 1, 2, 3, 4
Xi = V2 + i ,
i ∼ N(0, 1),
i = 5, 6, 7, 8
Xi = V3 + i ,
i ∼ N(0, 1),
i = 9, 10 29 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Simulation
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 adjustierte Varianz (in %)
PCA PC1 0.046 0.046 0.046 0.046 -0.426 -0.426 -0.426 -0.426 -0.364 -0.364
PC2 -0.476 -0.475 -0.476 -0.476 -0.114 -0.114 -0.114 -0.114 0.147 0.146
SPCA PC1 0 0 0 0 0.502 0.482 0.506 0.510 0 0
PC2 -0.506 -0.474 -0.501 -0.518 0 0 0 0 0 0
73.3
26.2
54.6
24.3
Tabelle: Ladungen der Hauptkomponenten der PCA und SPCA
30 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Zahlenerkennung
Datensatz, welcher 60000 per Hand geschriebene Zahlen 0-9 enth¨alt 6131 Beobachtungen f¨ ur die Zahl 3 Jedes Bild enth¨alt 28 × 28 Pixel → Datenmatrix der Dimension 6131 × 784
31 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Zahlenerkennung
Abbildung: Unterschiedliche Ausf¨ uhrungen der Zahl 3
32 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Zahlenerkennung
Abbildung: Vergleich der PCA (obere Reihe) mit der SPCA (untere Reihe) auf einen Datensatz mit handgeschriebenen Dreien 33 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Zahlenerkennung
Ergebnisse der SPCA lassen sich visuell besser interpretieren Die ersten 4 Hauptkomponenten der PCA erkl¨aren eine Varianz von 35.1%, die ersten 4 Hauptkomponenten der SPCA erkl¨aren nur eine Varianz von 10.6%
34 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Fazit
Hauptkomponentenanalyse ist eine relativ einfache Methode, um Datens¨atze zu verkleinern Sparse Hauptkomponentenanalyse steigert die Interpretierbarkeit gegen einen Varianzverlust SPCA h¨angt stark von der Wahl von λ ab
35 / 36
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit
Vielen Dank f¨ur die Aufmerksamkeit!
36 / 36