Sparse Hauptkomponentenanalyse

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit Sparse Hauptkomponentenanalyse Referent: Thomas Klein-Heßling LMU M¨ unchen 20...
Author: Johann Bösch
9 downloads 0 Views 283KB Size
Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Sparse Hauptkomponentenanalyse Referent: Thomas Klein-Heßling LMU M¨ unchen

20. Januar 2017

1 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

1

Einf¨ uhrung

2

Hauptkomponentenanalyse

3

Details der SPCA

4

Anwendung

5

Fazit

2 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Einf¨uhrung

Ziel: vorhandene Datenmenge verstehen → Daten komprimieren Bei der Sparse Hauptkomponentenanalyse (SPCA) handelt es sich um eine spezielle Form der gew¨ ohnlichen Hauptkomponentenanalyse (PCA) ¨ mittels SPCA einen besseren Uberblick u ¨ber die Daten verschaffen → Interpretierbarkeit soll gegen¨ uber PCA gesteigert werden

3 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Anwendungsgebiete

Segmentierung → z.B Industrie (Kunden- oder Marktsegmentierung) oder der Bildsegmentierung Genomforschung S¨amtliche Gebiete, in denen große Datenmengen vorkommen

4 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

1

Einf¨ uhrung

2

Hauptkomponentenanalyse

3

Details der SPCA

4

Anwendung

5

Fazit

5 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Allgemeines Ziel: Dimension der Daten zu verringern ohne zu großen Informationsverlust Bilden von Linearkombinationen: Zj = a1j X1 + a2j X2 + ... + apj Xp = ajT X Zj : Hauptkomponenten X T = (X1 , ..., Xp ): n × p -Datenmatrix ajT = (a1j , ..., apj ): Ladungen Es gilt: P ajT aj = pk=1 akj = 1

und (f¨ ur j > 2) ahT aj = 0, h < j

Hauptkomponenten sind unabh¨angig voneinander 6 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Herleitung der Hauptkomponenten

maximiere Var (ajT X ) (bzw. ¨aquivalent hierzu; maximiere ajT X˜ X˜ T aj , wobei X˜ die zentrierte Datenmatrix darstellt) erste Hauptkomponente Z1 wird gefunden, indem a1 so bestimmt wird, dass Z1 die gr¨ oßtm¨ ogliche Varianz erkl¨art → entspricht dem zum gr¨ oßten Eigenwert von 1 ˜T ˜ Cov (X ) = n−1 orendem Eigenvektor X X geh¨

7 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Herleitung der Hauptkomponenten Definition (Singul¨ arwertzerlegung): Ohne Beschr¨ankung der Allgemeinheit sei der Erwartungswert aller Spalten von X gleich 0. Die Singul¨arwertzerlegung von X sei nun X = UDV T .

(1)

¨ Z = UD beschreibt nun die Hauptkomponenten. Aquivalent dazu ist Z = XV mit V als die dazugeh¨ origen Ladungen der Hauptkomponenten. Die Stichprobenvarianz der i-ten Hauptkomponente wird durch Dii2 /n beschrieben. Bei U und V handelt es sich um orthogonale Matrizen, d.h. es gilt UU T = I bzw. VV T = I . Die Spaltenvektoren von V und U, vi und ui , nennt man Singul¨arvektoren (Eigenvektoren), die Elemente Dii der Diagonalmatrix D sind die Singul¨arwerte (Eigenwerte). 8 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Anzahl der Hauptkomponenten

Bestimme Anteil der erkl¨arenden Varianz der ersten q q P

Hauptkomponenten durch

i=1 p P i=1

Dii2 Dii2



¨ Ubliche Werte f¨ ur α liegen zwischen 0.7 und 0.9

9 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Probleme der Hauptkomponentenanalyse

Interpretation der Hauptkomponenten Linearkombinationen besitzen f¨ ur gew¨ ohnlich keine, bis sehr wenige 0-Eintr¨age f¨ ur die Ladungen → alle p Variablen sind Bestandteil einer Hauptkomponente

10 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

1

Einf¨ uhrung

2

Hauptkomponentenanalyse

3

Details der SPCA

4

Anwendung

5

Fazit

11 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Allgemeines

Bei sparse Hauptkomponenten handelt es sich um Hauptkomponenten, die bei mehreren Variablen eine Ladung von exakt Null aufweisen Interpretierbarkeit soll gegen¨ uber PCA gesteigert werden Regressionsansatz, welcher auf der Idee des LASSOs und des Elastic Nets basiert

12 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

LASSO (Least Absolute Shrinkage and Selection Operator)

Betrachte ein lineares Regressionsmodell mit n Beobachtungen und p Variablen Y = (y1 , ..., yn ) sei der Responsevektor und X = [X1 , ..., Xp ] mit Xj = (x1j , ..., xnj ) die Pr¨adiktoren, j = 1, ..., p Nach Transformation k¨ onnen wir annehmen, dass alle Xj und Y zentriert sind

13 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

LASSO (Least Absolute Shrinkage and Selection Operator) Der LASSO-Sch¨atzer (Least Absolute Shrinkage and Selection Operator) ist derart konstruiert, dass er die Koeffizienten schrumpft Absch¨atzung f¨ ur βˆLASSO durch Minimieren von βˆLASSO = arg min kY − β

p X j=1

Xj βj k22



p X

|βj |,

j=1

wobei λ positiv ist LASSO-Verfahren verkleinert die Koeffizienten kontinuierlich gegen Null und erreicht die gew¨ unschte Genauigkeit gegen einen Varianzverlust 14 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Elastic Net

Elastic Net ist Spezialfall des LASSO-Verfahrens F¨ ur positive λ1 und λ2 ist das Elastic Net definiert als p p p X X X 2 2 ˆ βEN = (1+λ2 ){arg min kY − Xj βj k2 +λ2 |βj | +λ1 |βj |} β

j=1

j=1

j=1

F¨ ur ein fixes λ2 l¨ost der sogenannte LARS-EN Algorithmus das Problem f¨ ur alle λ1

15 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

SCoTLASS (Simplified Component Technique-LASSO) Vorgestellt von Jolliffe, Trendafilov und Uddin (2003) SCoTLASS ist ein Verfahren, welches durch direkte Anwendung der L1-Norm auf die PCA sparse Ladungen erzielt (basierend auf LASSO-Verfahren) SCoTLASS-Methode maximiert schrittweise die Varianz akT (X T X )ak , wobei akT ak = 1

und (f¨ ur k > 2) ahT ak = 0, h < k, P ur einen mit der Einschr¨ankung, dass pj=1 akj 6 t f¨ Parameter t Hoher Rechenaufwand, da keine Vorgaben f¨ ur die Wahl von t vorhanden sind erstellt h¨ochstens n Ladungen > 0

16 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Sparse Hauptkomponentenanalyse

Regressionsansatz von Zou, Hastie und Tibshirani (2006) Da jede Hauptkomponente eine Linearkombination der p Variablen ist, k¨onnen wir die Ladungen durch Zur¨ uckf¨ uhren der Hauptkomponenten auf die Variablen erhalten

17 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Herleitung der sparse Hauptkomponenten

Theorem 1 F¨ ur jedes i sei Zi = Ui Dii die i-te Hauptkomponente. Betrachte ein positives λ und die Randabsch¨atzung βRidge gegeben durch βˆRidge = arg min kZi − X βk22 + λkβk22 . β

Sei nun vˆ =

βˆRidge , dann gilt: vˆ = Vi kβˆRidge k 2

18 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Herleitung der sparse Hauptkomponenten Das Theorem zeigt den Zusammenhang zwischen PCA und Regression Durch Hinzuf¨ ugen des L1-Fehlerterm erhalten wir: βˆ = arg min kZi − X βk22 + λkβk22 + λ1 kβk1 β

βˆ Approximation f¨ ur die Ladungen der i-ten sparse ˆ 2 kβk Hauptkomponente → h¨angt von den Ergebnissen der gew¨ ohnlichen PCA ab und stellt somit keine optimalen L¨ osungsweg dar Vˆi =

19 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Herleitung der sparse Hauptkomponenten

Theorem 2 F¨ ur jedes λ > 0 sei ˆ = arg min (ˆ α, β) α,β

n X

kxi − αβ T xi k22 + λkβk22 ,

(2)

i=1

wobei kαk22 = 1 gilt. Dann gilt βˆ ∝ V1

20 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Herleitung der sparse Hauptkomponenten

Theorem 3 Angenommen wir betrachten die ersten k Hauptkomponenten. Sei Ap×k = [α1 , ..., αk ] und Bp×k = [β1 , ..., βk ]. F¨ ur jedes λ > 0 sei ˆ B) ˆ = arg min (A, A,B

n X i=1

kxi − AB

T

xi k22



k X

kβj k22 ,

(3)

j=1

mit AT A = Ik×k . Dann gilt βˆj ∝ Vj , f¨ ur j = 1, ..., k.

21 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Herleitung der sparse Hauptkomponenten Theoreme 2 und 3 wandeln das PCA Problem zu einem Regressionsproblem um Indem wir einen LASSO-Fehlerterm hinzuf¨ ugen, wird der Zusammenhang zwischen PCA und Regression weiter verst¨arkt, womit wir auf folgendes Optimierungsproblem kommen: ˆ B) ˆ = arg min (A, A,B

n X i=1

kxi −AB T xi k22 +λ

k X j=1

kβj k22 +λ1,j

k X

kβj k1 ,

j=1

wobei AT A = Ik×k gilt Um die Gleichung zu l¨ osen, wird ein Algorithmus ben¨otigt, welcher eine numerische L¨ osung liefert 22 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

SPCA Algorithmus

F¨ ur ein festes A: F¨ ur jedes j, sei Yj∗ = X αj . So gilt: βˆj = arg min kYj∗ − X βj k22 + λkβj k22 + λ1,j kβj k1 , βj

mit Bˆ = [βˆ1 , ..., βˆk ]. Dies entspricht eine Absch¨atzung des Elastic Nets

23 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

SPCA Algorithmus F¨ ur ein festes B: Falls B gegeben ist, kann der Bestrafungsterm aus Gleichung (3) P ignoriert werden, womit wir lediglich versuchen m¨ ussen den Term ni=1 kxi − AB T xi k22 = kX − XBAT k22 zu minimieren, wobei AT A = Ik×k . Die L¨ osung ist dann gegeben durch eine Reduced Rank-Form der Procrustes Rotation, welche im folgendem Theorem 4 gezeigt wird. Wir berechnen die Singul¨arwertzerlegung durch: (X T X )B = UDV T

(4)

und setzen Aˆ = UV T

24 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Herleitung der sparse Hauptkomponenten

Theorem 4 (Reduced Rank Procrustes Rotation) Seien Mn×p und Nn×k zwei Matrizen. Betrachte das eingeschr¨ankte Minimierungsproblem Aˆ = arg min kM − NAT k22 ,

(5)

A

mit AT A = Ik×k . Sei weiter die Singul¨arwertzerlegung von M T N gleich UDV T . Dann gilt Aˆ = UV T

25 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

SPCA Algorithmus 1. Setze A = [v1 , ..., vk ], also die ersten k Ladungen der gew¨ohnlichen PCA 2. F¨ ur ein festes A = [α1 , ...αk ], l¨ ose das folgende Elastic Net Problem f¨ ur alle j = 1, ..., k: βˆj = arg min (αj − β)T X T X (αj − β) + λkβk22 + λ1,j kβk1 , β

3. F¨ ur ein festes B = [β1 , ..., βk ], berechne die Singul¨arwertzerlegung von X T XB = UDV T und setze A = UV T 4. Wiederhole die Schritte 2 und 3 solange bis Konvergenz zu einem lokalen Optimum erreicht wird β , j = 1, ..., k 5. Normiere Vˆj = kβk2

26 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

1

Einf¨ uhrung

2

Hauptkomponentenanalyse

3

Details der SPCA

4

Anwendung

5

Fazit

27 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Allgemeines

Vergleich der gew¨ ohnlichen PCA mit SPCA Untersuchung an simuliertem und an realem Datensatz R-package: elasticnet

28 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Simulation Betrachte Datensatz mit 10 Variablen und 100000 Beobachtungen Variablen werden generiert durch drei zugrundeliegende Faktoren von der Form: V1 ∼ N(0, 20),

V2 ∼ N(0, 30)

V3 = −0.5V1 + 0.8V2 + ,

 ∼ N(0, 1)

Die Variablen werden nun generiert durch: Xi = V1 + i ,

i ∼ N(0, 1),

i = 1, 2, 3, 4

Xi = V2 + i ,

i ∼ N(0, 1),

i = 5, 6, 7, 8

Xi = V3 + i ,

i ∼ N(0, 1),

i = 9, 10 29 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Simulation

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 adjustierte Varianz (in %)

PCA PC1 0.046 0.046 0.046 0.046 -0.426 -0.426 -0.426 -0.426 -0.364 -0.364

PC2 -0.476 -0.475 -0.476 -0.476 -0.114 -0.114 -0.114 -0.114 0.147 0.146

SPCA PC1 0 0 0 0 0.502 0.482 0.506 0.510 0 0

PC2 -0.506 -0.474 -0.501 -0.518 0 0 0 0 0 0

73.3

26.2

54.6

24.3

Tabelle: Ladungen der Hauptkomponenten der PCA und SPCA

30 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Zahlenerkennung

Datensatz, welcher 60000 per Hand geschriebene Zahlen 0-9 enth¨alt 6131 Beobachtungen f¨ ur die Zahl 3 Jedes Bild enth¨alt 28 × 28 Pixel → Datenmatrix der Dimension 6131 × 784

31 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Zahlenerkennung

Abbildung: Unterschiedliche Ausf¨ uhrungen der Zahl 3

32 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Zahlenerkennung

Abbildung: Vergleich der PCA (obere Reihe) mit der SPCA (untere Reihe) auf einen Datensatz mit handgeschriebenen Dreien 33 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Zahlenerkennung

Ergebnisse der SPCA lassen sich visuell besser interpretieren Die ersten 4 Hauptkomponenten der PCA erkl¨aren eine Varianz von 35.1%, die ersten 4 Hauptkomponenten der SPCA erkl¨aren nur eine Varianz von 10.6%

34 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Fazit

Hauptkomponentenanalyse ist eine relativ einfache Methode, um Datens¨atze zu verkleinern Sparse Hauptkomponentenanalyse steigert die Interpretierbarkeit gegen einen Varianzverlust SPCA h¨angt stark von der Wahl von λ ab

35 / 36

Einf¨ uhrung Hauptkomponentenanalyse Details der SPCA Anwendung Fazit

Vielen Dank f¨ur die Aufmerksamkeit!

36 / 36