2017. U. Mortensen

· Kurze Einfu ¨ hrung in die Vektor- und Matrixrechnung fu ¨ r die Multivariate Statistik · WS 2016/2017 U. Mortensen · 11. 07. 2017 1 Inhaltsver...
8 downloads 1 Views 633KB Size
·

Kurze Einfu ¨ hrung in die Vektor- und Matrixrechnung fu ¨ r die Multivariate Statistik · WS 2016/2017

U. Mortensen · 11. 07. 2017

1

Inhaltsverzeichnis 1 Vektoren und Vektorr¨ aume

4

1.1

Punktr¨aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.2

Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.3

Vektorr¨aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.4

Lineare Abh¨angigkeit und Unabh¨angigkeit . . . . . . . . . . . . . . 15

1.5

Basen von Vektorr¨aumen . . . . . . . . . . . . . . . . . . . . . . . 19

2 Matrizen

25

2.1

Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2

Operationen mit Matrizen . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.1

Multiplikation einer Matrix mit einem Vektor . . . . . . . . 26

2.2.2

Multiplikation einer Matrix mit einer Matrix . . . . . . . . 28

2.2.3

Varianz-Kovarianz-Matrizen . . . . . . . . . . . . . . . . . . 29

2.3

Der Rang einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.4

Die Inverse einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . 34

2.5

Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . 36

2.6

Rotationen, Quadratische Formen und Eigenvektoren . . . . . . . . 37

2.7

2.6.1

Rotationen . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.6.2

Quadratische Formen und Eigenvektoren

2.6.3

Der Rayleigh-Quotient . . . . . . . . . . . . . . . . . . . . . 47

2.6.4

Bestimmung einer Basis . . . . . . . . . . . . . . . . . . . . 49

2.6.5

Basiswechsel . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.6.6

Die Inverse und die Wurzel einer symmetrischen Matrix . . 54

2.6.7

Die Singularwertzerlegung einer Matrix . . . . . . . . . . . 54

2.6.8

Faktorwerte und Ladungen . . . . . . . . . . . . . . . . . . 56

. . . . . . . . . . 39

Projektionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 2.7.1

Orthogonale Projektion eines Vektors auf einen anderen . . 59

2.7.2

Projektionen auf Hauptachsen . . . . . . . . . . . . . . . . 60

3 Anhang

61

3.1

Zur Berechnung von Ellipsen f¨ ur eine Punktekonfiguration . . . . . 61

3.2

Die Differentiation von Vektoren . . . . . . . . . . . . . . . . . . . 62 2

3.3

3.2.1

Die allgemeine Differentiationsformel . . . . . . . . . . . . . 62

3.2.2

Die Differentiation quadratischer Formen . . . . . . . . . . 63

3.2.3

Extrema unter Nebenbedingungen . . . . . . . . . . . . . . 64

Transformationen und Abbildungen

. . . . . . . . . . . . . . . . . 67

Literatur

71

Index

72

3

1 1.1

Vektoren und Vektorr¨ aume Punktr¨ aume

Mit dem Symbol R wird die Menge der reellen Zahlen bezeichnet1 . Die Zahl x ∈ R heißt auch Skalar, weil sie auf der ”Skala” von −∞ bis +∞ liegt. Eine Ebene wird durch das Cartesische Produkt R × R = R2 definiert: R2 = {(x, y)|x, y ∈ R}, d.h. durch die Menge aller Paare von reellen Zahlen. Das Paar (x, y) ∈ R2 kann als Paar von Koordinaten eines Punktes interpretiert werden. Analog dazu bezeichnet R×R×R = R3 die Menge aller Tripel (x, y, z) mit x, y, z ∈ R, die als Koordinaten eines Punktes im 3-dimensionalen Raum betrachtet werden k¨onnen. Analog dazu wird mit Rn = {(x1 , x2 , . . . , xn )|x1 , x2 , . . . , xn ∈ R}, n ∈ N (1.1) der n-dimensionale Punktraum bezeichnet. Wiederum in Analogie zu den anschaulichen R¨aumen mit n ≤ 3 lassen sich die x1 , x2 , . . . , xn als Koordinaten eines ”Punktes” auffassen. x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ) seien irgendzwei Punkte im Rn . Die Punkte sind durch eine Distanz d(x, y) voneinander getrennt. Was mit einer Distanz gemeint ist, wird durch die folgenden Axiome festgelegt: 1. d(x, y) ≥ 0, 2. d(x, y) = d(y, x) (Reflexivit¨ at) 3. d(x, z) ≤ d(x, y) + d(y, z) (Dreiecksungleichung). Die Axiome definieren eine Metrik. Die Forderung, dass eine Distanz d(x, y) nicht negativ sein darf, entspricht dem umgangssprachlichen Begriff von ”Distanz”. Die Forderung der Reflexivit¨at d(x, y) = d(y, x) stellt eine Einschr¨ankung dar: will man in einer Stadt mit dem Auto von der Adresse A1 zu Adresse A2 fahren, so kann wegen eines Einbahnstrassensystems die Distanz d(A1 , A2 ) gr¨oßer als die Distanz d(A2 , A1 ) sein. Die Dreiecksungleichung ist wiederum intuitiv einleuchtend. Sind A1 , A2 und A3 drei Adressen in einer Stadt, so ist es m¨oglich, dass es zwischen A1 und A3 keinen direkten Weg gibt und man immer u ¨ber die Adresse A2 fahren muß; dann gilt eben d(A1 , A3 ) = d(A1 , A2 ) + d(A2 , A3 ). Es wird aber nie d(A1 , A3 ) > d(A1 , A2 ) + d(A2 , A3 ) gelten. Nach Euklid soll gelten, dass die k¨ urzeste Verbindung zwischen zwei Punkten eine Gerade ist. F¨ ur irgendzwei Punkte x und y gilt dann v [ n ]1 u n 2 ∑ u∑ (xi − yi )2 . (1.2) d(x, y) = t (xi − yi )2 = i=1

i=1

1 Das sind die nat¨ urlichen Zahlen N = 0, 1, 2, . . ., die rationalen Zahlen Q = {p/q|, p, q ∈ N, q ̸= 0}, und die irrationalen Zahlen, die sich nicht als Quotient p/q mit p, q ∈ N darstellen lassen (lat. ratio = Bruch, Quotient). √ Bekannte irrationale Zahlen sind π, die Eulersche Zahl e (Basis des nat¨ urlichen Logarithmus), 2, etc.

4

Dies ist der Satz des Pythagoras f¨ ur den n-dimensionalen Raum. Ist die Metrik eines Raums durch (1.2) definiert, so heißt der Raum euklidisch. Euklidische R¨aume wurden lange Zeit als ”nat¨ urliche” R¨aume betrachtet. Isaac Newton (1642 – 1727) nahm implizit eine euklidische Struktur des physikalischen Raumes an, und der Philosoph Immanuel Kant (1724 – 1804) erkl¨arte, der euklidische Raum sei eine notwendige Vorstellung a priori. So notwendig wie von Kant angenommen ist diese Vorstellung allerdings nicht, schon in der ersten H¨alfte des 19-ten Jahrhunderts schlugen der ungarische Mathematiker J´anos Bolyai (1802 – 1860), der russische Mathematiker Nikolai Iwanowitsch Lobatschewski (1792 – 1856) und der deutsche Mathematiker Carl Friederich Gauß (1777 - 1855) nicht-euklidische Geometrien vor. Der deutsche Mathematiker Bernhard Riemann (1826 – 1866) hielt 1850 seinen Habilitationsvortrag u ¨ber eine nicht-euklidische Geometrie, die sp¨ater f¨ ur die Weiterentwicklung der Relativit¨atstheorie wichtig wurde. Der polnisch-deutsche Mathematiker Hermann Minkowski (1864 – 1909) modifizierte ebenfalls im Zusammenhang mit der Relativit¨atstheorie die Begriffe von Raum und Zeit (Raum-Zeit-Kontiuum) und definierte eine Metrik – die Minkowski-Metrik –, die durch [ d(x, y) =

n ∑

]1

p

|xi − yi |

p

,

p > 0, p ∈ R

(1.3)

i=1

definiert ist. F¨ ur p = 2 ergibt sich die euklidische Metrik (1.2), und die MinkowskiMetrik kann als Verallgemeinerung der euklidischen Metrik angesehen werden. F¨ ur p = 1 ergibt sich die City-Block-Metrik oder Manhattan-Metrik, weil man von A1 nach A2 gelangt, indem man rechtwinklig zueinander liegende Strassenabschnitte durchfahren oder durchlaufen muß. Die Minkowski-Metrik erlaubt es, psychologische Distanzen, etwa zwischen Begriffen, Stereotypen etc, zu modellieren, f¨ ur die sich die euklidische Metrik oft als inad¨aquat erweist. Die MinkowskiMetrik wird im Zusammenhang mit der multidimensionalen Skalierung behandelt. In vielen Untersuchungen werden an jeweils einer Person (allgemein: einem ”Fall”) mehrere Merkmale gemessen und die Korrelationen zwischen den Merkmalen berechnet. Man kann die Messungen als Koordinaten eines Punktes interpretieren, der dann den Fall repr¨asentiert. Auf diese Weise entsteht eine Punktekonfiguration (”Punktwolke”). Die Distanzen zwischen den Punkten reflektieren die Relationen zwischen den F¨allen. Mit dem Distanzbegriff ist aber der Begriff der Orientierung nicht verbunden, der wiederum f¨ ur Fragen der Interpretation von Interesse ist. Deswegen wird der Begriff des Vektors eingef¨ uhrt. Sind P und Q zwei Punkte der Konfiguration, so sei die euklidische Distanz durch d(P, Q) ge−−→ geben. Zu dieser Distanz korrespondiert ein Vektor P Q, der durch eine L¨ange und eine Orientierung definiert ist; f¨ ur maximal drei Dimensionen (3 Variablen) kann er graphisch durch einen Pfeil repr¨asentiert werden (s. Abbildung 2). Die L¨ange des Vektors ist durch die Distanz d(P, Q) gegeben, seine Orientierung ist durch das Verh¨altnis der Komponenten zueinander definiert; die Orientierung h¨angt von 5

Abbildung 1: Punktekonfiguration: (a) jeder Punkt entspricht einer Person, die Koordinaten sind (zentriert) (i) K¨orperl¨ange, (ii) K¨orpergewicht, (b) hypothetische ”latente” Dimensionen L1 und L2 , L1 ist durch maximale Ausdehnung der Konfiguration bestimmt, L2 zu L1 orthogonal, (c) Darstellung der Konfiguration im L1 × L2 -System. (a)

(b)

(c) L1

X2

4 62 9

21 4348 423 13 6 35 1 16 3 35435 14 53185519 4 5 41 5250 5 19 4 6 3 2 396 5 4733 4 3 2 70 2516152 8 63 67 66 3 5 225647 2 1 4130 4 9 1602 17 483 127 5289 27

L2

L2

X1 (Körperlänge)

X1

21 35 4236 4 23 11 2 45 53 65 51 26 57 5954 6 34 25 38 13 1633 18 24 17 61 40 44 30 5 1 3 19 4737 50 10 46 32 9 31 71528 27 20 56 68 55 39 52 66 29 14 12 43 63 58 48 67 8 60 41

L1 49 62

Ausreisser

22

58 60

Ausreisser

22

58 60

61

61

68

68

40

40

21 4348 423 13 6 35 1 16 3 35435 14 53185519 4 5 41 5250 5 19 4 6 3 2 396 5 4733 4 3 2 70 2516152 8 6 673 66 3 5 225647 2 1 4130 4 9 1602 17 483 127 5289 27

(Körpergewicht)

4 62 9

X2

22 Ausreisser

gew¨ ahlten Koordinatensystem ab. Insbesondere lassen sich Abh¨angigkeiten zwischen Variablen leicht mittels des Vektorbegriffs darstellen und latente, also nicht direkt gemessene Variablen, zur Erkl¨arung von Korrelationen zwischen Variablen bestimmen. Analog zum Punktraum kann dann der Begriff des Vektorraums eingef¨ uhrt werden, der isomorph zum jeweiligen Punktraum ist. Je nach Perspektive macht man in der multivariaten Analyse sowohl vom Begriff des Punkt- wie des Vektorraums Gebrauch. In den folgenden Abschnitten wird der Begriff des Vektors und der des Vektorraums eingef¨ uhrt und einige Resultate aus der Vektorund Matrixrechung vorgestellt, soweit sie f¨ ur die u ¨blichen multivariaten Verfahren notwendig sind. Neuere Verfahren wie zum Beispiel Klassifikation anhand von SVMs (Support Vector Machines) erfordern mathematische Grundlagen, die in einem gesonderten Skript vorgestellt werden.

1.2

Vektoren

Es werden nur endliche Vektorr¨aume u ¨ber R betrachtet. Definition 1.1 Ein n-dimensionaler Vektor ist ein n-Tupel reeller Zahlen:   x1  x2    (1.4) x =  . ,  ..  xn die x1 , . . . , xn heißen Komponenten des Vektors, und es kommt auf die Reihen6

folge der Komponenten an. Es wird auch x ∈ Rn geschrieben.2 Dementsprechend sind



 1 x1 =  2  , 3



 2 x2 =  1  3

verschiedene 3-dimensionale Vektoren. Ein Vektor heißt gest¨ urzt oder transponiert, wenn er als Zeile angeschrieben wird: x′ = (x1 , x2 , . . . , xn ). (1.5) Andere Schreibweisen sind xt , xT oder x⊤ . Eine platzsparende Schreibweise ist x = (x1 , x2 , . . . , xn )′ . Vektoren werden graphisch oft durch Pfeile bestimmter L¨ange und bestimmter Orientierung repr¨asentiert; dem entspricht die Redeweise von Vektoren als ’gerichteten Gr¨oßen’; in der Physik werden z.B. Kr¨afte durch derartige Vektoren (Pfeile) dargestellt: die L¨ange des Vektors entspricht der Gr¨oße der Kraft, die Orientierung der Richtung, in der die Kraft wirkt. Der Anfangspunkt des Pfeils hat die Koordinaten a, . . . , an , der Endpunkt hat die Koordinaten b1 , . . . , bn , und die Komponenten sind durch x i = b i − ai ,

i = 1, . . . , n

(1.6)

gegeben, s. a. Abb. 2. Die xi definieren damit nur die L¨ange (s. unten) und die Orientierung, nicht aber den genauen Ort des repr¨asentierenden Pfeils. Dementsprechend ist auch die Schreibweise ⃗x f¨ ur einen Vektor u ¨blich, also x = ⃗x. Da ein Vektor durch ein Zahlentupel (x1 , . . . , xn ) definiert ist, korrespondiert ein Vektor offenbar zu einem Punkt im n-dimensionalen Punktraum. Gleichwohl sind verschiedene Vorstellungen mit dem Punktebegriff einerseits und dem Vektorbegriff andererseits verbunden: da die Komponenten als Differenzen zwischen den Koordinaten des Anfangs- und des Endpunktes des Vektors definiert sind, fallen der Punkt mit den Koordinaten (x1 , . . . , xn ) und der Vektor genau dann zusammen, wenn der Anfangspunkt in den Nullpunkt des Koordinatensystems gelegt werden kann. Spezielle Vektoren: Es seien ⃗0 = (0, 0, . . . , 0)′ ⃗1 = (1, 1, . . . , 1)′ ej

(1.7) (1.8) ′

= (0, . . . , 0, 1, 0, . . . , 0) , j = 1, . . . , n

(1.9)

2 Es gibt eine allgemeinere Definition des Vektorbegriffs. Die hier gegebenen Definitionen (Vektor, Vektorraum, etc) beziehen sich sich auf die in der multivariaten Statistik ben¨ otigten Anwendungen der linearen Algebra.

7

Abbildung 2: Ein Vektor und seine Komponenten

⃗0 heißt der Nullvektor, ⃗1 heißt Einsvektor, ej ist der j-te Einheitsvektor; seine Komponenten sind alle gleich Null bis auf die j-te Komponente, die gleich 1 ist. Multiplikation mit einem Skalar: Es bedeutet     x1 λx1  x2   λx2      λx = λ  .  =  .  ,  ..   ..  xn

λ∈R

(1.10)

λxn

λ heißt Skalar, weil λ ein Wert der ”Skala”, d.h. der reellen Zahlen zwischen −∞ und ∞ ist. Man kann λ als einkomponentigen Vektor auffassen. Addition von Vektoren Es seien x und y zwei n-dimensionale Vektoren. Dann heißt     x 1 + y1 z1  x2 + y2   z2      z=x+y= (1.11)  =  ..  ..    .  . x n + yn

zn

die Summe der Vektoren x und y. Vektoren k¨onnen also nur addiert werden, wenn sie dieselbe Anzahl von Komponenten haben. Abb. 3 zeigt ein sicherlich stark vereinfachtes Beispiel f¨ ur die Summe zweier Vektoren, die bestimmte F¨ahigkeiten repr¨asentieren: Sprachliches Verm¨ogen plus Phantasie ergeben poetisches Verm¨ogen. Interpretiert man die L¨ange eines Vektors als Maß f¨ ur die Auspr¨agung des durch den Vektor repr¨asentierten Merkmals, so bedeutet die vektorielle Addition offenbar, dass die Auspr¨agung des durch die Summe repr¨asentierten Merkmals (poetisches Verm¨ogen) nicht gleich der Summe der Auspr¨agungen der Merkmale ist, die vektoriell addiert werden. Definition 1.2 Die Summe x = a1 x1 + a2 x2 + · · · + ap xp , 8

(1.12)

Abbildung 3: Addition von Vektoren, analog zur Addition von Kr¨aften in der Physik

der p n-dimensionalen Vektoren, aj ∈ R Skalare, 1 ≤ j ≤ p heißt Linearkombination der x1 , . . . , xp . Beispiel 1.1 Multiple Regression Es wird angenommen, dass der Wert einer Variablen Y durch drei Pr¨adiktorvariablen X1 , X2 und X3 bis einen einen zuf¨alligen Fehler ”vorhergesagt” werden kann: Yi = a1 Xi1 + a2 Xi2 + a3 Xi3 + ei ,

i = 1, . . . , m

(1.13)

F¨ ur die i-te Person sind also die Messungen Yi , Xi1 , Xi2 und Xi3 gegeben und die Yi sollen anhand der Xij , j = 1, . . . , 3 vorhergesagt werden; ei ist ein Fehlerterm; er repr¨asentiert alle Effekte in Yi , die nicht durch die drei Pr¨adiktorvariablen definiert werden. In ausgeschrieben erh¨alt man           Y1 X11 X12 X13 e1  Y2   X21   X22   X23   e2            (1.14)  ..  = a1  ..  + a2  ..  + a3  ..  +  ..   .   .   .   .   .  Ym

xm1

xm2

xm3

em

Bei dieser Schreibweise ist von dem Sachverhalt Gebrauch gemacht worden, dass die Koeffizienten aj f¨ ur alle Xij identisch sind. Die Xij k¨onnen als Komponenten eines Vektors xj aufgefasst werden, ebenso die ei , so dass man abk¨ urzend y = a1 x1 + a2 x2 + a3 x3 + e

(1.15)

schreiben kann. y erscheint hier als Linearkombination der xj und e. Die Vektorschreibweise erscheint hier zun¨achst als vereinfachte Schreibweise; die ”operativen Implikationen” dieser Schreibweise zeigen sich im Folgenden. Man bemerke, dass y als Addition von Vektoren analog zum in Abbildung 3 gezeigten Beispiel defi¨ niert ist; es handelt sich nicht um eine unziemliche Ubertragung der Physik auf die Psychologie. Vielmehr sind die Addition von Kr¨aften einerseits und die multiple Regression strukturgleiche Modelle. Dem Modell zufolge ist das ”poetische 9

Verm¨ogen” eine additive Mischung von ”verbalem Verm¨ogen” und ”Phantasie”, die durch einen um einen Fehlervektor e erweiterten Regressionsansatz y = a1 x1 + a2 x2 + e repr¨asentiert wird. e repr¨aentiert zuf¨allige Effekte und alle Aspekte von poetischem Vermn¨ogen, die nicht zu ”verbalem Verm¨ogen” oder ”Phantasie” geh¨oren. Die Komponenten xij beziehen sich auf ein Koordinatensystem, dass in Abb. 3 nicht eingezeichnet wurde; die Wahl eines speziellen Koordinatensystems ist f¨ ur die Vektoraddition nicht wesentlich. Ob dieser Ansatz vern¨ unftig ist, ist eine empirische Frage.  Vektoren k¨onnen auch miteinander ”multipliziert” werden. Es gibt verschiedene Definitionen von Vektorprodukten. Hier werden nur die eingef¨ uhrt, die in der Multivariaten Statistik verwendet werden. Definition 1.3 Es seien x und y  y1  y2  x′ y = (x1 , x2 , . . . , xn )  .  ..

n-dimensionale Vektoren. Dann heißt  n  ∑  xi yi  = x1 y1 + · · · + xn yn = 

(1.16)

i=1

yn das Skalarprodukt oder inneres Produkt von x und y. Nun sei y m-dimensional     x1 x1 y1 x1 y2 · · · x1 ym  x2   x2 y1 x2 y2 · · · x2 ym      xy′ =  .  (y1 , . . . , ym ) =  . (1.17) .. ..  . . . .  .   . . . .  xn y1 xn y2 · · ·

xn

xn ym

heißt dyadisches Produkt oder ¨außeres Produkt von x und y; nat¨ urlich ist m = n m¨ oglich. W¨ahrend also das Skalarprodukt zweier Vektoren x und y eine einzelne reelle Zahl ist und voraussetzt, dass x und y dieselbe Anzahl von Komponenten haben, ist das dyadische Produkt eine Matrix und x und y m¨ ussen nicht dieselbe Anzahl von Komponenten haben. ⟨x, y⟩ und x · y sind alternative Schreibweisen f¨ ur das Skalarprodukt x′ y. Der Name ’Skalarprodukt’ erkl¨art sich aus dem Sachverhalt, dass x′ y ∈ R ein Skalar ist. Skalare sind einzelne reelle Zahlen, der Ausdruck leitet sich aus der Bezeichnung ’Skala’ f¨ ur die Menge der reellen Zahlen zwischen −∞ und +∞ ab. Norm eines Vektors F¨ ur y = x ergibt sich als Skalarprodukt ′

xx=

n ∑ i=1

10

x2i .

(1.18)

F¨ ur x′ x ist auch die Schreibweise ∥x∥2 gebr¨auchlich. ∥x∥2 ist das Quadrat der L¨ange von x, d.h. √ x′ x = ∥x∥ (1.19) ist die L¨ange von x (Satz des Pythagoras). F¨ ur λ ∈ R folgt sofort ∥λx∥ = λ∥x∥,d.h. die Multiplikation eines Vektors mit einem Skalar bedeutet die Skalierung der L¨ange des Vektors; f¨ ur λ < 1 erh¨alt man eine Stauchung, d.h. Verk¨ urzung des Vektors, f¨ ur λ > 1 eine Dehnung oder Verl¨angerung. Es werde λ so gew¨ ahlt, dass ∥λx∥ = λ∥x∥ = 1. Dann folgt λ= (

Der Vektor

1 . ∥x∥

(1.20)

1 1 1 x1 , x2 , . . . , xn ∥x∥ ∥x∥ ∥x∥

)′ (1.21)

heißt dann normiert, d.h. er hat die L¨ange 1. ∥x∥ heißt auch die Norm des Vektors x. Zentrierte Vektoren Es sei X = (X1 , X2 , . . . , Xn )′ und 1 ′⃗ 1 1∑ X 1 = ⃗1′ X = Xi n n n n

x ¯=

i=1

sei das arithmetische Mittel der Komponenten Xi von X. Dann heißt     X1 x ¯  X2   x     ¯  ⃗ x=X −x ¯1 =  .  −  .   ..   ..  Xn

(1.22)

x ¯

zentrierter Vektor. Offenbar ist n ∑ (Xi − x ¯) = x′⃗1 = 0, i=1

und wenn y ein ebenfalls zentrierter n-dimensionaler Vektor ist, so ist Kov =

1 ′ 1∑ 1∑ xy= xi yi = (Xi − x ¯)(Yi − y¯) n n n n

n

i=1

i=1

(1.23)

die Kovarianz der Messwerte Xi , Yi , und f¨ ur x = y erh¨alt man s2x =

1 ′ 1 x x = ∥x∥2 n n 11

(1.24)

Abbildung 4: Zum Kosinussatz a2 = b2 + c2 − 2bc cos α (a)

(b) C

b

x-y

a h θ

A

α d

e

P c (= d + e)

B

f¨ ur die Varianz; s2y ist analog definiert. Dann ist rxy =

x′ y ∥x∥∥y∥

(1.25)

die Produkt-Moment-Korrelation der Messwerte Xi und Yi . Der Kosinussatz:3 Es gilt ∥x − y∥2 = ∥x∥2 + ∥y∥2 − 2∥x∥∥y∥ cos θ

(1.26)

(vergl. Abbildung 4 (b)). F¨ ur θ = π/2, also f¨ ur einen Winkel von 900 , folgt cos θ = 0 und es ergibt sich der Satz des Pythagoras in Vektorschreibweise. Hieraus folgt eine Beziehung zwischen dem Skalarprodukt x′ y und dem Kosinus des Winkels θ: es ist ∑ ∑ ∑ ∑ ∥x − y∥2 = (xi − yi )2 = x2i + yi2 − 2 x i yi i

i

i

i ′

= ∥x∥ + ∥y∥ − 2x y. 2

2

Setzt man diesen Ausdruck f¨ ur ∥x − y∥2 in (1.26) ein, so wird man auf die Beziehung x′ y = ∥x∥y∥ cos θ (1.27) gef¨ uhrt. Mit Bezug auf (1.25) folgt daraus cos θ =

x′ y = rxy . ∥x∥∥y∥

(1.28)

Die Korrelation rxy ist gleich dem Kos´ınus des Winkels θ zwischen den Vektoren x und y. Diese Gleichung impliziert die Cauchy-Schwarzsche Ungleichung: 3

Beweis: h ist das von Punkt C auf die Verbindungslinie c = AB gef¨ allte Lot (P). Es ist d = AP , e = P B. Nach dem Satz des Pythagoras ist a2 = h2 + e2 und b2 = h2 + d2 , d.h. h2 = b2 − d2 , und nach Abb. 4 ist e2 = (c − d)2 , so dass a2 = h2 + e2 = b2 − d2 + (c − d)2 = b2 + c2 − 2cd folgt. Weiter gilt cos α = d/b, dh d = b cos α. Damit erh¨ alt man a2 = b2 + c2 − 2bc cos α.

12



Satz 1.1 Es seien x und y zwei n-dimensionale Vektoren; dann gilt

Beweis: Es gilt

(x′ y)2 ≤ ∥x∥2 ∥y∥2 .

(1.29)

x′ y = ∥x∥∥y∥ cos θ,

(1.30)

vergl. (1.27), so dass auch (x′ y)2 = ∥x∥2 ∥y∥2 cos2 θ gilt. Wegen −1 ≤ cos θ ≤ 1 gilt cos2 θ ≤ 1. Dann folgt (1.29).



(1.29) ist die Cauchy-Schwarzsche Ungleichung. Sie wird oft in der Form 2 n n n ∑ ∑ ∑ 2 x y ≤ x yi2 i i i i=1

i=1

(1.31)

i=1

angeschrieben. Es sei insbesondere y = λx, λ ∈ R. Dann ist θ = 0 und cos2 θ = 1, so dass in diesem Fall n 2 n n ∑ ∑ ∑ (x′ y)2 = ∥x∥∥y∥, d.h. x i yi = x2i yi2 (1.32) i=1

i=1

i=1

gilt (s.a. (1.30)). F¨ ur θ = π/2 (90o ) ist cos θ = 0; (1.27) impliziert dann x′ y = 0; die Vektoren x und y sind dann orthogonal. Variablen X und Y , deren Korrelation gleich Null ist, werden durch orthogonale Vektoren x und y repr¨asentiert. Anmerkung: Ist eine Korrelation rxy = 0 so folgt noch nicht, dass die Variablen auch stochastisch unabh¨angig sind; es lassen sich Variablen definieren, die deterministisch miteinander verkn¨ upft sind, deren Korrelationskoeffizient gleichwohl Null ist. Die Beziehung zwischen dem Korrelationskoeffizienten und der Abh¨angigkeit zwischen zwei Variablen h¨angt von der Wahrscheinlichkeitsverteilung bzw. - dichte ab. So seien x und y 2-dimensional normalverteilt, so dass [ ] 1 1 2 2 √ exp − (z + zy − 2rzx zy ) (1.33) f (x, y) = 2(1 − r2 ) x 2πσx σy 1 − r2 mit zx = (x − µx )/σx , zy = (y − µy )/σy . F¨ ur r = 1 folgt f (x, y) = g(x)h(y), d.h. x und y sind stochastisch unabh¨angig. F¨ ur andere Dichten muß diese Folgerung nicht gelten.

13

1.3

Vektorr¨ aume

Definition 1.4 Es sei V = {x|x ∈ Rn } eine Menge n-dimensionaler Vektoren, und f¨ ur beliebige x1 , x2 ∈ V gelte x = a1 x1 + a2 x2 ∈ V mit a1 , a2 ∈ R; dann heißt V n-dimensionaler Vektorraum.4 Definition 1.5 Es sei V ein n-dimensionaler Vektorraum und U ⊂ V sei eine Teilmenge von Vektoren aus V . F¨ ur beliebige Vektoren x1 , x2 ∈ U gelte x = a1 x1 + a2 x2 ∈ U . Dann heißt U Teilvektorraum von V . Beispiel 1.2 Es seien x1 , x2 ∈ Rn irgendzwei parallele Vektoren; diese beiden Vektoren definieren eine Gerade, d.h. einen 1-dimensionalen Teilraum von V = Rn . Denn es gilt nun x2 = ax1 , a ∈ R. Dann folgt mit a1 , a2 ∈ R x = as1 x1 + a2 x2 = a1 x1 + aa2 x1 = (a1 + aa2 )x1 ,

a1 + aa2 ∈ R

d.h. x ist wieder parallel zu x1 und x2 , d.h. er liegt auf derselben Geraden wie x1 und x2 . Die Gerade ist ein Teilraum des Rn . Es sei n ≥ 3 und x1 und x2 seien nicht parallel. Sie definieren dann eine Ebene E im Rn und damit einen 2-dimensionalen Teilraum von Rn . Denn es sei n ein Vektor, der senkrecht auf x1 und x2 steht, d.h. der orthogonal zu diesen beiden Vektoren ist, und es sei x eine Linearkombination von x1 und x2 , also x = a1 x1 + a2 x2 . Dann folgt n′ x = a1 n′ x1 + a2 n′ x2 = 0,

(1.34)

da ja nach Definition von n die Beziehungen n′ x1 = n′ x2 = 0 gelten. n heißt Normalenvektor f¨ ur E; die Orientierung von n bestimmt die Orientierung der Ebene; der Nachweis, dass ein solcher Vektor existiert, wird auf Seite 24 gef¨ uhrt werden. Man erh¨alt die Ebenengleichung n′ x = n1 x1 + n2 x2 + · · · + nn xn = 0.

(1.35)

Alle Punkte mit Koordinaten x1 , x2 , . . . , xn , die f¨ ur festen Vektor n dieser Gleichung gen¨ ugen, liegen in der Ebene E. (1.35) ist die Gleichung einer Ebene im Rn . E geht durch den Nullpunkt des Koordinatensystems5 . E ist ein Teilraum des Vektorraums V = Rn . Denn es seien y1 = a1 x1 + a2 x2

(1.36)

y2 = b1 x1 + b2 x2

(1.37)

4

Diese Definition ist im Vergleich zur entsprechenden Definition in Lehrb¨ uchern der Linearen Algebra stark vereinfacht; es wird nur die f¨ ur die Zwecke dieses Skriptums wesentliche Eigenschaft von Vektorr¨ aumen genannt. 5 Diese Definition l¨ aßt sich f¨ ur Ebenen, die nicht durch den Nullpunkte gehen, verallgemeinern, aber diese allgemeine Definition wird im Folgenden nicht ben¨ otigt.

14

irgendzwei Linearkombinationen von x1 und x2 . Dann ist auch die Linearkombination y = c1 y1 + c2 y2 wieder ein Element von E, denn y = c1 (a1 x1 + a2 x2 ) + c2 (b1 x1 + b2 x2 ) = d1 x1 + d2 x2 , mit d1 = c1 a1 + c2 b1 ,

d2 = c1 a2 + c2 b2 ,

n′ y

und = 0, analog zu (1.35). Auf die oben gemachte Voraussetzung, dass x1 und x2 nicht parallel sind, d.h. nicht dieselbe Orientierung (in Zeichen: ∦) haben, wird im Folgenden eingegangen. Die Vektoren x1 und x2 bilden eine m¨ogliche Basis oder ein m¨ogliches Erzeugendensystem f¨ ur den Teilraum E. Die Basis ist nicht eindeutig, denn irgendzwei andere, nicht parallele Vektoren y1 und y2 aus E erlauben ebenfalls, alle Vektoren aus E zu erzeugen. Nun sei x1 ∦ x2 und n ⊥ x1 und n ⊥ x2 , wobei ∦ f¨ ur ’nicht parallel’ und ⊥ f¨ ur ”ist orthgonal zu” stehen. Dann lassen sich alle 3dimensionalen Vektoren x als Linearkombinationen von x1 , x2 und n darstellen, d.h es existieren Koeffizienten a1 , a2 und a3 derart, dass6 x = a1 x1 + a2 x2 + a3 n,

∀ x ∈ R3 , x ̸= ⃗0

(1.38) 

1.4

Lineare Abh¨ angigkeit und Unabh¨ angigkeit

Es seien xj ∈ Rn , 1 ≤ j ≤ p, xj ̸= ⃗0, und es werde die Darstellung des Nullvektors ⃗0 als Linearkombination der xj betrachtet: ⃗0 = a1 x1 + · · · + ap xp .

(1.39)

Man kann die a1 , . . . , ap als Unbekannte eines Gleichungssystems betrachten. Es existiert stets eine L¨osung f¨ ur diese Gleichung: a1 = a2 = · · · = ap = 0.

(1.40)

Weil diese L¨osung stets eine L¨osungs ist, kann man sie als triviale L¨osung bezeichnen. Die Frage ist nun, ob auch andere L¨osungen existieren, bei denen mindestens ein Koeffizient aj ̸= 0 ist, – dann ist ist mindestens ein weiterer Koeffizient ungleich Null, wie man sich leicht u ¨berlegt. Es sei etwa ap ̸= 0, z.B. ap = 1,. Dann existiert mindestens ein weiterer Koeffizient aj ̸= 0, 1 ≤ j ≤ p − 1 (w¨are dies nicht so, w¨ urde entgegen der Voraussetzung ap = 0 folgen), und man erh¨alt xp = a1 x1 + · · · + ap−1 xp−1 Man hat dann die 6

∀ steht f¨ ur ”f¨ ur alle”.

15

(1.41)

Definition 1.6 Gilt (1.39) und gilt, dass nicht alle aj = 0, so heißen die xj linear abh¨angig. Ist dagegen (1.40) die einzige L¨ osung f¨ ur die aj , so heißen die xj linear unabh¨angig. Sind also die xj , j = 1, . . . , p linear unabh¨angig, so kann keiner von ihnen als Linearkombination der u ¨brigen dargestellt werden. Beispiel 1.3 Die Frage nach linearer Abh¨angigkeit bzw. Unabh¨angigkeit ist eng mit der Frage nach der L¨osbarkeit linearer Gleichungssysteme verbunden. Der Einfachheit halber wird hier der Fall 2-dimensionaler Vektoren betrachtet. Gegeben seien drei 2-dimensionale Vektoren y, x1 und x2 . Die Frage sei, ob sich y als Linearkombination der Vektoren x1 und x2 darstellen l¨aßt, d.h. ob Koeffizienten a1 , a2 ∈ R existieren derart, dass ( ) ( ) ( ) y1 x11 x12 y= = a1 x1 + a2 x2 = a1 + a2 (1.42) y2 x212 x22 gilt. Schreibt man die rechte Seite aus ergibt sich das System von Gleichungen y1 = a1 x11 + a2 x12

(1.43)

y2 = a1 x21 + a2 x22

(1.44)

mit y = (y1 , y2 )′ , x1 = (x11 , x21 )′ , x2 = (x12 , x22 )′ . Man findet a1 = a2 =

y1 x22 − y2 x12 x11 x22 − x12 x21 y2 x11 − y1 x21 x11 x22 − x12 x21

(1.45) (1.46)

Es wird deutlich, dass eine notwendige Bedingung f¨ ur die Existenz einer L¨osung ′ a = (a1 , a2 ) durch x11 x22 − x12 x21 ̸= 0 (1.47) gegeben ist. Denn x11 x22 − x12 x21 = 0 w¨ urde bedeuten, dass durch 0 dividiert werden muß, damit man eine L¨osung erh¨alt, – und diese Operation macht bekanntlich keinen Sinn. Nun betrachte man den Fall

Er impliziert

x11 x22 − x12 x21 = 0.

(1.48)

x21 x22 = x11 x12

(1.49)

Aber x21 /x11 = tan θ, θ der Winkel, der die Orientierung von x1 angibt, und (1.49) besagt, dass dieser Winkel auch die Orientierung von x2 definiert. Daraus folgt, dass (1.48) dann erf¨ ullt ist, wenn x1 und x2 parallel sind; man sagt dann, 16

x1 und x2 seien kollinear. Dann gilt x2 = λx1 und die Gleichung (1.42) geht u ¨ber in die Gleichung y = a1 x1 + a2 x2 = a1 x1 + a2 λx1 = (a1 + a2 λ)x1 , aus der sofort hervorgeht, dass (1.42) nur dann eine L¨osung hat, wenn y tats¨achlich dieselbe Orientierung wie x1 hat. Diese Betrachtung illustriert die Tatsache, dass es nicht m¨oglich ist, aus zwei Vektoren mit identischer Orientierung einen Vektor zu erzeugen, der eine andere Orientierung hat. Man kann die Diskussion zusammenfassen. Existieren die Koeffizienten a1 und a2 nicht, so kann y nicht als Linearkombination der Vektoren x1 und x2 dargestellt werden und es gilt ⃗0 = a1 x1 + a2 x2 + a3 y

(1.50)

dann und nur dann, wenn a1 = a2 = a3 = 0. y, x1 und x2 sind dann linear unabh¨angig. Ist dagegen der beliebig gew¨ahlte Vektor y als Linearkombination von x1 und x2 darstellbar, so sind offenbar nicht alle ai in (1.50) gleich Null und die Vektoren sind linear abh¨angig.  Satz 1.2 Es sei y = a1 x1 + · · · + ap xp . Sind die x1 , . . . , xp linear unabh¨ angig, so sind die a1 , . . . , ap eindeutig bestimmt. Beweis: Die lineare Unabh¨angigkeit der xj impliziert a1 x1 + · · · + ap xp = ⃗0 nur dann, wenn a1 = · · · = ap = 0. Nun gelte y = a1 x1 + · · · + ap xp y = b1 x1 + · · · + bp xp Dann ist ⃗0 = (a1 − b1 )x1 + · · · (ap − bp )xp , und wegen der linearen Unabh¨angigkeit der xj muß aj − bj = 0 gelten f¨ ur j = 1, . . . , p. Das heißt aber aj = bj , d.h. die Koeffizienten sind eindeutig bestimmt.  Satz 1.3 Die Vektoren x1 , . . . , xn , xj ̸= ⃗0 f¨ ur alle j, seien paarweise orthogonal. Dann sind sie linear unabh¨ angig. Beweis: Es sei ⃗0 = a1 x1 + a2 x2 + · · · + an xn . Dann gilt x′j⃗0 = 0 = a1 x′j x1 + a2 x′j x2 + · · · + aj x′j xj + · · · + an x′j xn 17

und es folgt x′j xk = 0 f¨ ur alle j ̸= k wegen der vorausgesetzten Orthogonalit¨at der xj und xk , j ̸= k. Dann muß aber auch 0 = aj x′j xj = aj ∥xj ∥2 f¨ ur alle j gelten. Wegen ∥xj ∥2 > 0 folgt aj = 0 f¨ ur alle j, also sind die xj linear unabh¨angig.  Die Umkehrung – linear unabh¨angige Vektoren sind paarweise orthogonal – gilt nicht. Satz 1.4 Die Einheitsvektoren e1 , . . . , en sind paarweise orthogonal. Beweis: Es gilt e′j ek

{ =

1, j = k 0, j = ̸ k

(1.51) 

wie man unmittelbar verifziert. Nach Satz 1.3 sind die ej , j = 1, . . . , n linear unabh¨angig.

Satz 1.5 Es sei x ein beliebiger n-dimensionaler Vektor. Dann ist x als Linearkombination der ej darstellbar. Beweis: Es ist    x= 

x1 x2 .. . xn





    = x  1  

1 0 .. .





    + x  2  

0

0 1 .. . 0





    + · · · + x  n  

0 0 .. .

   . 

1

Da die xi ∈ R beliebig gew¨ahlt werden k¨onnen, kann jeder Vektor aus Rn auf diese Weise dargestellt werden.  Korollar: Um einen beliebigen n-dimensionalen Vektor als Linearkombination linear unabh¨angiger Vektoren darzustellen, werden maximal n linear unabh¨angige Vektoren ben¨otigt. Denn l¨aßt man einen Vektor ej weg, so ist die entsprechende Komponente xj nicht definiert. Wie sich im Folgenden zeigt, m¨ ussen diese linear unabh¨angigen Vektoren aber nicht die Einheitsvektoren ej sein. Der letzte Satz in diesem Abschnitt erweist sich als n¨ utzlich f¨ ur manche Beweise bzw. Herleitungen: Satz 1.6 Es sei {x1 , . . . , xp } eine Menge von Vektoren. Ist einer von ihnen der Nullvektor, so sind die xj , j = 1, . . . , p linear abh¨ angig.

18

Beweis: Die Vektoren x1 , . . . , xp−1 seien linear unabh¨angig, und xp = ⃗0. Weiter sei a1 x1 + · · · + ap−1 xp−1 + ap xp = ⃗0 f¨ ur a1 = . . . = ap−1 = 0, ap ̸= 0, da ap⃗0 = ⃗0 auch f¨ ur ap ̸= 0. Also ist die Menge {x1 , . . . , xp } von Vektoren linear abh¨angig.  Beispiel 1.4 Lineare Abh¨ angigkeit und Skalarprodukt: Gegeben seien zwei n-dimensionale Vektoren x und y. Der Winkel zwischen ihnen sei θ. x und y sind linear abh¨angig genau dann, wenn θ = 0, d.h. wenn cos θ = rxy = 1. Denn es sei cos θ =

x′ y = 1. ∥x∥∥y∥

Dann ist θ = 0, d.h. x und y sind parallel (x∥y), so dass ein a ∈ R existiert ¯ derart, dass y = ax, d.h. die beiden Vektoren sind linear abh¨angig. Umgekehrt sei y = ax, a ∈ R. Dann sind x und y linear abh¨angig (vergl. Beispiel 1.3) und es ist ax′ x = 1, a∥x∥2 d.h. cos θ = 1. Nun sei x ∦ y (x und y seien nicht parallel). Dann kann y nicht als Linearkombination von x berechnet werden (und umgekehrt, x kann nicht als Linearkombination von y berechnet werden). Also sind die Vektoren linear unabh¨angig und es ist θ ̸= 0 und cos θ < 1.  Beispiel 1.5 Lineare Abh¨ angigkeit und Korrelationen: Gegeben seien zwei Merkmale, die durch die Vektoren x0 und ax0 , a ∈ R, repr¨asentiert werden, – wenn die Messungen der zu den Merkmalen korrespondierenden Variablen messfehlerfrei w¨aren, was sie im Allgemeinen nicht sind. Den Messungen entsprechend hat man x = x0 + ε1 , y = ax0 + ε2 . Der Korrelationskoeffizient rxy entspricht dann − 1 < rxy = cos θxy =

(x0 + ε1 )′ (ax0 + ε2 ) < 1, ∥x0 + ε1 ∥|∥ax0 + ε1 ∥

ε1 , ε2 ̸= 0

(1.52)

Nur f¨ ur den Spezialfall ε1 , ε2 = 0 w¨ urde man den Fall rxy = cos θxy = 1 erhalten, und der hat die Wahrscheinlichkeit 0. F¨ ur die gemessenen Vektoren xj , j = 1, . . . , b heißt dies, dass rechnerisch alle Vektoren linear unabh¨angig sind. 

1.5

Basen von Vektorr¨ aumen

Definition 1.7 Es sei M = {x1 , . . . , xm } eine Menge von n-dimensinoalen Vektoren. Es sei L(M ) = {x|x = a1 x1 + · · · , am xm }, (1.53) 19

d.h. L(M ) sei die Menge aller Linearkombinationen der Vektoren aus M . Dann heißt L(M ) die lineare H¨ ulle von M . Es sei M ⊆ V ; M muß kein Teilraum sein, aber es gilt der Satz 1.7 Es sei V ein Vektorraum und M = {x1 , . . . , xm } sei eine Teilmenge von Vektoren aus V . Dann ist L(M ) ein (Teil-)Vektorraum von V . Beweis: Es seien x und y Linearkombinationen von Vektoren aus M , x=

m ∑

aj xj ,

y=

j=1

m ∑

bj xj .

j=1

Dann folgt λx + µy = λ

m ∑

aj xj + µ

j=1

m ∑

bj xj =

j=1

m ∑

cj xj , cj = λaj + µbj

j=1

d.h. λx + µy ist ebenfalls eine Linearkombination der xj und damit Element von L(M ).  Definition 1.8 Es sei Vn ein n-dimensionaler Vektorraum. Die Menge B = {b1 , . . . , bn } aus Vn heißt Basis von Vn , wenn gilt (i) die b1 , . . . , bn sind linear unabh¨ angig, (ii) V = L(B), dh. Vn ist die lineare H¨ ulle von b1 , . . . , bn . Die Teilmenge b1 , . . . , br mit r < n bildet eine Teilbasis von L. (iii) Es sei v ∈ Vn und es gelte v = a1 b1 + a2 b2 + · · · + an bn .

(1.54)

Die Koeffizienten a1 , . . . , an heißen Koordinaten von v bez¨ uglich B. Anmerkung: Es sei v = (v1 , . . . , vn )′ ; nach (1.54) gilt dann f¨ ur die i-te Komponente vi = a1 bi1 + · · · + an bin , (1.55) wobei die bij die i-ten Komponenten der bj sind. W¨ahlt man eine andere Basis als die b1 , . . . , bn , so m¨ ussen auch die Koeffizienten a1 , . . . , an entsprechend gew¨ ahlt werden, damit die vi berechnet werden k¨onnen, d.h. diese Koeffizienten h¨angen von der gew¨ahlten Basis ab. Dies erkl¨art den Ausdruck Koordinaten von v bez¨ uglich B f¨ ur die Koeffizienten aj .  Der Begriff der Basis ist intuitiv schon am Ende des Beispiels 1.2 eingef¨ uhrt worden. V = L(B) bedeutet, dass jeder Vektor aus V als Linearkombination 20

der Basisvektoren b1 , . . . , bn darstellbar ist, d.h. f¨ ur eine gegebene Basis B = {b1 , . . . , bn } existieren f¨ ur jeden Vektor v ∈ L Koeffizienten a1 , . . . , an (also ein Vektor a = (a1 , . . . , an )′ ) derart, dass die Darstellung eines Vektors v ∈ V wie in (1.54) m¨oglich ist. L(b1 , . . . , br ) mit r < n definiert einen Teilraum von V (vergl. Satz 1.7). Definition 1.9 Es sei V ein Vektorraum mit der Basis B = {b1 , . . . , bn }. Dann heißt V n-dimensionaler Vektorraum; man schreibt auch Vn , um die Anzahl der Vektoren in einer Basis von V anzuzeigen. n heißt Dimension des Vektorraums. Anmerkung: In Definition 1.9 wird der Begriff des n-dimensionalen Vektorraums durch die Anzahl der Basisvektoren definiert. In der Tat existiert ein Zusammenhang zwischen der Anzahl n < ∞ der Komponenten der Vektoren eines Vektorraums V und der Anzahl der Basisvektoren, die notwendig sind, um alle Vektoren von V zu erzeugen. Dieser Zusammenhang wird im Folgenden elaboriert. Zuvor wird aber der Begriff der orthogonalen Basis eingef¨ uhrt.  Linear unabh¨angige Vektoren sind nicht notwendig auch paarweise orthogonal zueinander, aber paarweise orthogonale Vektoren sind notwendig linear unabh¨angig. Orthogonale Vektoren k¨onnen demnach als Basisvektoren gew¨ahlt werden. Dieser Fall ist besonders wichtig, weshalb eine eigene Definition daf¨ ur eingef¨ uhrt wird: Definition 1.10 Es sei V ein n-dimensionaler Vektorraum. Eine Basis B = (b1 , . . . , bn ) von V heißt Orthonormalbasis (ONB) (oder orthonormale Basis), wenn die bj auf die L¨ ange 1 normiert und paarweise orthogonal sind, d.h. wenn { 0, j ̸= k ′ bj bk = , j, k = 1, . . . , n (1.56) 1, j = k gilt. Die Basis Br = (b1 , . . . , br ) mit r < n heißt orthonormale Teilbasis. Die n-dimensionalen Einheitsvektoren sind ein Beispiel f¨ ur eine orthonormale Basis: Satz 1.8 Die n-dimensionalen Einheitsvektoren e1 , . . . , en mit ei = (0, . . . , 0, 1, 0, . . . , 0)′ der i-te n-dimensionale Einheitsvektor, bilden eine orthonormale Basis des Vn ; sie heißt die kanonische Basis des Vn . Beweis: Die Einheitsvektoren sind linear unabh¨angig, denn ⃗0 = λ1 e1 + λ2 e2 + · · · + λn en ist nur m¨oglich f¨ ur λ1 = · · · = λn = 0; f¨ ur die i-te Komponente 21

hat man n¨amlich 0 = λi 1, woraus sofort λi = 0 folgt. Dar¨ uber hinaus sind die ei orthonormal, vergl. (1.51). Die Vektoren e1 , . . . , en bilden deshalb eine orthonormale Basis des Vn . Da stets x = x1 e1 + x2 e2 + · · · + xn en , sind die Komponenten xj von x auch stets die Koordinaten von x bez¨ uglich der e1 , . . . , en .  Definition 1.11 Die Basis {e1 , . . . , en } heißt kanonische Basis des Vn . Eine beliebige orthonormale Basis l¨aßt sich als Rotation der kanonischen Basis herleiten, vergl. den Abschnitt u ¨ber Basiswechsel 2.6.5, Seite 53. Satz 1.9 Es seien x1 , . . . , xn linear unabh¨ angige n-dimensionale Vektoren. Dann n lassen sich alle Vektoren des R als Linearkombinationen dieser Vektoren erzeugen. Beweis: Nach Satz 1.5 kann jeder Vektor x als Linearkombination der Einheitsvektoren e1 , . . . , en dargestellt werden, und damit auch die xj ; j = 1, . . . , n. Dementsprechend hat man x=

n ∑ j=1

aj xj =

n ∑ j=1

aj

n ∑

bkj ek =

n ∑ n ∑

aj bkj ej =

j=1 k=1

k=1

| {z }

n ∑

xj ej .

j=1

xj

Da die xj als Linearkombinationen der ek dargestellt werden kann, kann auch die Linearkombination x der xj wieder als Linearkombination der ek dargestellt werden.  Der Satz 1.9 bedeutet 1. dass die Bedingung (ii) von Definition 1.8 keine Einschr¨ankung darstellt; jede Menge von n linear unabh¨angigen n-dimensionalen Vektoren kann als Basis des Vn = Rn gew¨ahlt werden, 2. Gegeben seien m n-dimensionale Vektoren x1 , . . . , xm und es sei m > n. Dann sind die xj , j = 1, . . . , m linear abh¨angig. Denn angenommen, die ersten n dieser Vektoren seien linear unabh¨angig. Nach Satz 1.9 lassen sich dann alle Vektoren des Rn als Linearkombinationen der x1 , . . . , xn darstellen, und das heißt eben auch die xk , n + 1 ≤ k ≤ m. Dies bedeutet, dass eine Basis des Rn nie mehr als n Basisvektoren enth¨alt. Orthonormale Basisentwicklung eines Vektors: Die zur Darstellung eines beliebigen Vektors v ∈ L ben¨otigten Koeffizienten aj ergeben sich besonders einfach, wenn Orthonormalbasen gew¨ahlt werden: Es sei x ∈ Vn (x sei ein 22

Abbildung 5: Poesie als Addition von Vektoren (links), und als Linearkombination von Vektoren der kanonischen Basis (rechts); aber: die Merkmale Phantasie und sprachliches Verm¨ogen sind selbst komplexe, d.h. multivariate Konzepte.

n-dimensionaler Vektor) und die b1 , . . . , bn seien orthonormale Basisvektoren. Dann existieren Koordinaten a1 , . . . , an derart, dass x = a1 b1 + · · · + an bn =

n ∑

ak bk .

(1.57)

k=1

F¨ ur die Koeffizienten aj ergibt sich eine einfache Darstellung. Man betrachte dazu das Skalarprodukt x′ bj : x′ bj =

n ∑

ak b′k bj = aj ,

j = 1, . . . , n

(1.58)

k=1

{

denn b′k bj

=

0, j ̸= k 1, j = k

(1.59)

(x′ bk )bk .

(1.60)

(1.57) kann dann in der Form x=

n ∑ k=1

dargestellt werden. Dieser Ausdruck heißt auch orthonormale Basisentwicklung des Vektors x. Anmerkung: Bekanntlich kann unter bestimmten Normierungsbedingungen ein Skalarprodukt als Korrelation interpretiert werden. Dann bedeutet x′ bk in Gleichung (1.60) die Korrelation zwischen dem Vektor x und dem Basisvektor bk . In der Faktorenanalyse und in Approximationen der Faktorenanalyse wird eine Ladung eines Items auf einer latenten Dimension als Korrelation zwischen dem 23

Item und der latenten Dimension interpretiert. Diese Interpretation beruht auf (1.60).  In Abbildung 5 wird noch einmal die Vektorrepr¨asentation bestimmter kognitiver F¨ahigkeiten gezeigt: links ergibt sich das poetische Verm¨ogen als Vektoraddition (Linearkombination) der zwei F¨ahigkeiten ’sprachliches Verm¨ogen’ und ’Phantasie’; die repr¨asentierenden Vektoren f¨ ur diese beiden Kompetenzen sind nicht parallel und deshalb linear unabh¨angig, sie bilden eine Basis im R2 . Rechts ist noch ein durch die beiden Einheitsvektoren e1 und e2 definiertes Koordinatensystem eingezeichnet worden. Alle Vektoren k¨onnen als Linearkombinationen der orthonormalen Basis {e1 , e2 } dargestellt werden. Das poetische Verm¨ogen erscheint jetzt als Linearkombinationen der kognitiven Grundfunktionen L1 und L2 , die wegen ihrer Repr¨asentation durch orthogonale Vektoren als unkorreliert angenommen werden. Teilr¨ aume Es sei {v1 , . . . , vn } eine orthonormale Basis des Vn . Eine echte Teilmenge der Basisvektoren definiert dann einen Teilraum des Vn . Ohne Einschr¨ankung der Allgemeinheit seien v1 , . . . , vk , k < n ausgew¨ahlt worden, es es sei Lk = L(v1 , . . . , vk } die lineare H¨ ulle dieser Teilbasis. Lk ist sicherlich eine Vektorraum (Satz 1.7). Dann existiert ein Vektor n ∈ Vn , der orthogonal zu allen Vektoren aus Lk ist. Denn Vn = L(v1 , . . . , vn ), trivialerweise ist vk+1 ∈ Vn . Die v1 , . . . , vn sind nach Voraussetzung paarweise orthogonal. Es sei y ∈ Lk , so dass y = a1 v1 + · · · + ak vk . Dann folgt

v′k+1 y = a1 v′k+1 v1 + · · · + an v′k+1 vk = 0,

da v′k+1 vj = 0 f¨ ur j = 1, . . . , k. Also ist vk+1 ein Normalenvektor n f¨ ur alle Vektoren aus Lk . Damit ist die Annahme der Existenz eines Normalenvektors f¨ ur eine Ebene auf Seite 14 gerechtfertigt. Die folgende Definition f¨ uhrt im Wesentlichen die Redeweise vom ’Rang eines Vektorraumes’ ein: Definition 1.12 Es sei V ein Vektorraum und S eine Teilmenge von V . Dann ist der Rang von S gleich der Dimension des von S erzeugten Unterraums L(S). Ist V = Vn ein n-dimensionaler Vektorraum und ist S ⊂ Vn , so hat S den Rang r < n, wenn S r linear unabh¨ angige Vektoren enth¨ alt; f¨ ur r = n hat S den vollen Rang. Anmerkung: r heißt auch die Dimension des Unterraums L(S), und n − r heißt die Kodimension des Unterraums L(S). Die Dimension eines Unter- oder Teilraums eines Vektorraums ist also nicht notwendig gleich der Dimension, d.h. der Anzahl der Komponenten der Vektoren, die die Elemente des Teilraums sind.  24

Bisher ist nur gezeigt worden, dass jede beliebige Menge von n linear unabh¨angigen n-dimensonalen Vektoren als Basis zur Erzeugung aller Vektoren des Rn verwendet werden kann, bzw. das r < n linear unabh¨agige n-dimensionale Vektoren einen Teilvektorr¨aumen erzeugen. Gegeben ist u ¨blicherweise eine Menge von n m-dimensionalen Vektoren xj , j = 1, . . . , n, deren Komponenten Meßwerte sind; f¨ ur diese Vektoren wird eine Basis von m¨oglicherweise r < n linear unabh¨angigen m-dimensionalen Vektoren gesucht. Da nur die xj gegeben sind, m¨ ussen die Basisvektoren aus den xj errechnet werden. Dies bedeutet, dass sich die Basisvektoren als Linearkombinationen der xj ergeben m¨ ussen. Die L¨osung des Problems, Basisvektoren zu bestimmen, l¨ aßt sich leichter bechreiben, wenn vom Begriff der Matrix Gebrauch gemacht werden kann.

2 2.1

Matrizen Definitionen

Gegeben sei eine Menge M = {x1 , . . . , xn } von m-dimensionalen Vektoren xj = (x1j , x2j , . . . , xmj )′ . Schreibt man diese Vektoren spaltenweise nebeneinander, so entsteht die Matrix   x11 x12 . . . x1n  x21 x22 . . . x2n    X= . (2.1) .. ..  ..  .. . . .  xm1 xm2 · · · xmn X heißt auch (m × n)-Matrix; gelegentlich wird einfach Xm,n daf¨ ur gechrieben, oder X = (xij )m,n oder X = (xij ), wenn klar ist, dass 1 ≤ i ≤ m, 1 ≤ j ≤ n. Eine andere Schreibweise ist X ∈ Rm,n , womit angedeutet wird, dass die Elemente von X reelle Zahlen sind, denn man kann auch Matrizen betrachten, deren Elemente komplexe Zahlen sind. Derartige Matrizen werden aber in diesem Skript nicht behandelt. X heißt quadratisch, wenn m = n. Die x1 , . . . , xn heißen die Spaltenvektoren von X. Die Schreibweise X = [x1 , x2 , . . . , xn ]

(2.2)

erweist sich oft als n¨ utzlich. Die Zeilen (xi1 , xi2 , . . . , xin ) heißen die Zeilenvektoren von X, i = 1, . . . , m. Eine Matrix wird gest¨ urzt oder transponiert, indem die Zeilenvektoren als Spaltenvektoren angeschrieben werden; man schreibt X ′ daf¨ ur:   x11 x21 · · · xm1  x12 x22 · · · xm2    ′ (2.3) X = . .. ..  ..  .. . . .  x1m x2m · · · 25

Xmn

X ′ ist also eine (n × m)-Matrix. Die Matrix X heißt symmetrisch, wenn X ′ = X,

xij = xji , 1 ≤ i, j ≤ n

(2.4)

Symmetrische Matrizen sind notwendig quadratisch. Eine Matrix heißt Diagonalmatrix, wenn alle Elemente gleich Null sind bis auf r Diagonalelemente xii ; eine Diagonalmatrix ist im Allgemeinen quadratisch, und r ≤ min(m, n).

2.2

Operationen mit Matrizen

Mit Matrizen k¨onnen eine Reihe von Operationen durchgef¨ uhrt werden; die beiden folgenden Operationen sind elementar. Die Multiplikation einer Matrix mit einem Vektor und mit einer Matrix erfordern eine etwas l¨angere Elaboration und werden in den folgenden Unterbschnitten vorgestellt. 1. Multiplikation mit einem Skalar: λX = (λxij ), λ ∈ R, d.h. die Multiplikation von X mit einem Skalar bedeutet, dass jedes Element xij von X mit diesem Skalar multipliziert wird. 2. X und Y seinen zwei (m × n)-Matrizen. Dann ist die Summe X + Y durch X + Y = (xij + yij )

(2.5)

definiert, d.h. die Elemente von X + Y sind die Summen der korrespondierenen Elemente xij und yij . 2.2.1

Multiplikation einer Matrix mit einem Vektor

Es sei A = [a1 , a2 , . . . , an ] eine (m × n)-Matrix, d.h. die Spaltenvektoren aj seien m-dimensional, und x = (x1 , . . . , xn )′ ein n-dimensionaler Vektor. Mit dem Produkt Ax ist dann die Linearkombination y = Ax = x1 a1 + x2 a2 + · · · + xn an (2.6) gemeint, d.h. der m-dimensionale Vektor y = Ax ist eine Linearkombination der Spaltenvektoren von A, wobei die Komponenten xj von x als Koeffizienten der aj auftreten. y ist ein m-dimensionaler Vektor, weil die aj m-dimensionale Vektoren sind. Man rechnet leicht nach, dass die Komponenten von y gerade gleich den ˜i von A mit x sind: Skalarprodukten der Zeilenvektoren a ′

˜i = yi = x a

n ∑ j=1

26

aij xi .

(2.7)

Ebenso l¨aßt sich das Produkt eines m-dimensionalen Zeilenvektors x′ mit der ˜1 , . . . , a (m × n)-Matrix A definieren. Es seien a ˜m die Zeilenvektoren von A. Dann sei ˜ 1 + x2 a ˜ 2 + · · · + xm a ˜m , z′ = x′ A = x1 a (2.8) d.h. der Zeilenvektor z′ ist eine Linearkombination der Zeilenvektoren von A. Die Zeilenvektoren von A sind n-dimensionale Vektoren, also ist z ein n-dimensionaler Vektor. Die j-te Komponente von z′ ist gleich dem Skalarprodukt von x mit dem j-ten Spaltenvektor aj von A: ′

zj = x aj =

m ∑

xi aij .

(2.9)

i=1

Man rechnet leicht nach, dass f¨ ur (2.6) y′ = (Ax)′ = x′ A′

(2.10)

folgt, d.h. der transponierte m-dimensionale Vektor y erscheint jetzt als Linearkombination der Zeilenvektoren von A′ , – d.h. nat¨ urlich wieder als Linearkombination der Spalten von A, jetzt nur als Zeilenvektor angeschrieben. Ebenso impliziert (2.8) z = (z′ )′ = A′ x, (2.11) d.h. die Komponente zi von z ist durch das Skalarprodukt ˜′i x zi = a

(2.12)

des i-ten Spaltenvektors von A′ , also dem i-ten Zeilenvektor von A, mit x definiert. Zusammenfassend kann man sagen, dass die Multplikation einer Matrix A mit einem Vektor x stets einen Vektor y ergibt, der sich im Allgemeinen hinsichtlich seiner L¨ange, seiner Orientierung und m¨oglicherweise auch in der Anzahl seiner Komponenten von x unterscheidet. Es gibt verschiedene Redeweisen: die Matrix A transformiert den Vektor x in den Vektor y (Vektortransformation, oder A bildet x auf dem Vektor y ab (Vektorabbildung; die Matrix A definiert dann eine Abbildung oder Transformation des Vektors x. Diese verschiedenen Verbalisierungen korrespondieren zu bestimmten Vorstellungen u ¨ber das, was die Multiplikation einer Matrix mit einem Vektor bewirkt. So kann sich z.B. nur die Orientierung, nicht aber die L¨ange von y von der des Vektors x unterschieden, so dass man sagen kann, Ax bedeute eine Rotation von x. Oder Ax bewirkt nur eine Ver¨ anderung der L¨ange von x. Rotation und reine L¨angenver¨anderung k¨onnen, anschaulich gesprochen, als Transformationen von x aufgefasst werden. Es sind gleichermaßen Abbildungen von Vektoren aus einem Vektorraum auf Vektoren aus demselben Vektorraum. Das gleiche gilt f¨ ur Transformationen, bei denen y sowohl eine andere L¨ange, als auch eine andere Orientierung als x, aber dieselbe Anzahl von Komponenten hat. Unterscheidet sich sich auch die Anzahl der 27

Komponenten von x von der des Vektors y, so bildet A Vektoren x aus einem Vektorraum auf Vektoren aus einem anderen Vektorraum ab. Man kann die Eigenschaften von Matrizen als Eigenschaften der Abbildungen von Vektoren auf andere Vektoren diskutieren. In Abschnitt 3.3 wird auf diese Aspekte der Multiplikation von Matrizen mit Vektoren ausf¨ uhrlicher eingegangen. 2.2.2

Multiplikation einer Matrix mit einer Matrix

Es seien A eine (m × n)- und B eine (n × p)-Matrix. bj sei der j-te Spaltenvektor von B. Dann ist cj = Abj eine Linearkombination der Spaltenvektoren von A mit den Komponenten von bj als Koeffizienten. Schreibt man die Vektoren cj spaltenweise nebeneinander, so entsteht eine (n × p)-Matrix C, so dass man insgesamt die Matrixgleichung AB = C

(2.13)

erh¨alt. Es gilt: 1. Die Spaltenvektoren von C sind Linearkombinationen der Spaltenvektoren von A, 2. Die Zeilenvektoren von C sind Linearkombinationen der Zeilenvektoren von B. (Man versichere sich durch Nachrechnen, dass 2. gilt!) Man u uft ebenfalls durch einfaches Nachrechnen, dass dann ¨berpr¨ C ′ = (AB)′ = B ′ A′

(2.14)

gilt. Die Matrixmultiplikation ist im Allgemeinen nicht kommutativ, d.h. im Allgemeinen gilt AB ̸= BA. (2.15) Damit das Produkt AB gebildet werden kann, muß die Anzahl der Spalten von A gleich der Anzahl der Zeilen von B sein. Damit das Produkt BA gebildet werden kann, muß die Anzahl der Spalten von B gleich der Anzahl der Zeilen von A sein. Da A als (m × n)-Matrix, B als (n × p)-Matrix definiert wurde, folgt, dass p = m sein muß, damit das Produkt BA u ¨berhaupt gebildet werden kann. Die Matrixmultiplikation ist assoziativ: ist A eine (m × n)-Matrix, B eine (n × r)-Matrix und C eine (r × s)-Matrix, so gilt (AB)C = A(BC). Einsicht in diese Aussage erh¨alt man durch Nachrechnen.

28

(2.16)

Spezialfall: Multiplikation Dann ist  λ1 x11 λ2 x12  λ1 x21 λ2 x22  XΛ =  .. ..  . . bzw.



 ˜ = ΛX  

mit einer Diagonalmatrix: Es sei X ∈ Rm,n . 

··· ··· .. .

λn x1n λn x2n .. .

λ1 xm1 λ2 xm2 · · ·

λn xmn

··· ··· .. .

λ1 x1n λ2 x2n .. .

λm xm1 λm xm2 · · ·

λm xmn

λ1 x11 λ2 x21 .. .

λ1 x12 λ2 x22 .. .

  , 

Λ = diag(λ1 , . . . , λn )

(2.17)

˜ = diag(λ1 , . . . , λm ) Λ

(2.18)

   , 

XΛ ist eine Matrix, deren Spaltenvektoren gleich dem j-ten Spaltenvektor xj , multipliziert mit dem korrespondierenden Diagonalelement λj von Λ multipliziert worden sind. Dies ist gleichbedeutend mit einer L¨angenskalierung der Spaltenvek˜ ist eine Matrix, deren Zeilenvektoren mit dem korrespondierenden toren von X. Λ ˜ multipliziert worden sind. Dies ist gleichbedeutend mit Diagonalelement von Λ einer L¨angenskalierung der Zeilenvektoren von X. 2.2.3

Varianz-Kovarianz-Matrizen

Kovarianzen und Korrelationen: Es sei X = (xij ) eine spaltenzentrierte (m× n)-Matrix, d.h. xij ist die Abweichung der i-ten Messung der j-ten Variablen vom Mittelwert der Messungen der j-ten Variablen. Dann ist ( ) m 1 ∑ 1 ′ XX= xij xik (2.19) m m i=1

die Matrix der Kovarianzen der Variablen; 1 ∑ xij xik m m

i=1

ist die Kovarianz zwischen der j-ten und der k-ten Variablen. Die Matrix X ′ X ist symmetrisch, denn gem¨aß (2.14) hat man (X ′ X)′ = X ′ X Die Diagonalelemente von (1/n)X ′ X sind gerade die Varianzen s2j der Variablen, j = 1, . . . , n. Man kann die Varianzen in einer Diagonalmatrix S zusammenfassen:  2   1  0 ··· 0 s1 0 · · · 0 s1  0 s2 · · · 0   0 1 ··· 0  2 s2     −1/2 S= . , S = (2.20)   . .. . . .. .. . . ..  .  ..   . . . . . . .  0

0

···

s2n

0 29

0

···

1 sn

Hier wurde gleich die Matrix S −1/2 mit eingef¨ uhrt; sie bezeichnet die Diagonalmatrix, in deren Diagonalzellen die Reziprokwerte der Standardabweichungen √ sj stehen. Die Schreibweise S −1/2 ist an die Schreibweise x1/2 f¨ ur x und x−1/2 √ ¨ ufung durch Nachrechnen!) f¨ ur 1/ x angelehnt. Offenbar gilt nun (Uberpr¨ Z = XS −1/2

(2.21)

Nach (2.17) bedeutet ja die Multiplikation einer Matrix von rechts mit einer Diagonalmatrix eine L¨angenskalierung der Spaltenvektoren von S. Die Elemente zij von Z sind durch zij =

Xij − x ¯j , sj

i = 1, . . . , m; j = 1, . . . , n

(2.22)

definiert. In (2.21) sind die Skalierungsfaktoren die Reziprokwerte der Standardabweichungen. Dann ist Z = (zij ) die Matrix der (spalten-)standardisierten Meswerte, und 1 1 R = Z ′ Z = S −1/2 X ′ XS −1/2 (2.23) m m ist die Matrix der Korrelationen zwischen den Variablen. Nat¨ urlich ist R symmetrisch, denn (Z ′ Z)′ = Z ′ Z. Varianz-Kovarianzmatrizen: Die Matrix der Kovarianzen 1 ∑ = (Xij − x ¯j )(Xik − x ¯k ) m m

sjk

i=1

˜ i der i-te Zeilenvektor der Matrix der l¨aßt sich in Matrixform darstellen. Es sei x ˜ i mit sich selbst ist Abweichungen Xij − x ¯j . Das dyadische Produkt von x ˜ ′i = (xij xik ), ˜ix x wobei (xij xik ) die Matrix der Produkte der j-ten Komponente und der k-ten ˜ i ist, d.h. das Produkt des zentrierten Messwerts der i-ten Komponente von x Person f¨ ur die j-te Variable mit dem zentrierten Messwert f¨ ur die k-te Vartiable. sjk ist die Summe u ¨ber alle Personen i. Summiert man die dem dyadischen ˜ix ˜ ′i u Produkt entsprechenden Matrizen x ¨ber alle i, erh¨alt man die Matrix aller Kovarianzen sjk : 1 ∑ 1 ∑ ˜ix ˜ ′i = x (Xij − x ¯j )(Xik − x ¯k )′ m m m

S=

m

i=1

(2.24)

i=1

Dies ist eine oft verwendete Schreibweise f¨ ur eine Varianz-Kovarianzmatrix. F¨ ur die Matrix der Korrelationen leitet man sich leicht eine analoge Darstellung her. Die Zentrierungsmatrix:. Es sei H=I− 30

1 ⃗⃗ ′ 11 . m

(2.25)

H heißt Zentrierungsmatrix; ⃗1⃗1′ ist das dyadische Produkt von ⃗1 mit sich selbst. H ist offenbar symmetrisch und idempotent, denn H ′ = (I −

1 1 1 ⃗⃗ ′ ′ 11 ) = I ′ − ( ⃗1⃗1′ )′ = I − ⃗1⃗1′ = H, m m m

(2.26)

und 1 ⃗⃗ ′ 1 11 )(I − ⃗1⃗1′ ) m m 1 ⃗⃗ ′ 1 1 ⃗⃗ ′ = I − I 11 − I 11 + 2 ⃗1⃗1′⃗1⃗1′ m m m 1 ⃗⃗ ′ = I − I 11 = H, m

HH = H ′ = (I −

denn

(2.27)

⃗1⃗1′⃗1⃗1′ = ⃗1(⃗1′⃗1)⃗1′ = m⃗1⃗1′ .

Die Idempotenz von H erweist sich u.a. als n¨ utzlich, wenn Eigenschaften von Varianz-Kovarianzmatrizen betrachtet werden. Nun sei X nicht zentriert (X ist die MAtrix der ”Rohwerte”, kurz auch ”Rohmatrix” genannt). Die Varianz-Kovarianzmatrix S l¨aßt sich nun in der Form S=

1 ′ X HX m

(2.28)

schreiben. Die u ur die Varianz-Kovarianzsch¨atzungen erh¨alt ¨bliche Biaskorrektur f¨ man, indem man diese Gleichung mit m/(m − 1) multipliziert: Sˆ =

m 1 S= X ′ HX. m−1 m−1

(2.29)

F¨ ur die Stichprobenkorrelation rjk gilt rjk = Es sei

sjk . sj sk



s1 0  0 s2  D=  0 0

0 0 .. . 0

(2.30)  0 0   .  sn

F¨ ur die Matrix der Korrelationen bzw. der Kovarianzen erh¨alt man dann R = D−1 SD−1 ,

31

S = DRD.

(2.31)

2.3

Der Rang einer Matrix

Auf Seite 24 ist der Begriff des Ranges eines Vektorraums bzw. eines Teilraums eines Vektorraums eingef¨ uhrt worden. Es sei nun X = [x1 , . . . , xn ] eine (m × n)Matrix. Die lineare H¨ ulle L(x1 , . . . , xn ) ein Vektorraum und habe den Rang r, d.h. die als Linearkombinationen der Spaltenvektoren xj erzeugten Vektoren seien als Linearkombinationen von r linear unabh¨angigen, m-dimensionalen Vektoren b1 , . . . , br darstellbar. Zur Erinnerung: in Kommentar 2. zu Satz 1.9, Seite 22 wurde angemerkt, dass r nicht gr¨oßer als n sein kann. Die Zeilenvektoren von X ˜1, . . . , x ˜ m , und die die lineare H¨ ˜ m ) habe den Rang s, d.h. die seien x ulle L(˜ x1 , . . . , x ˜ i seien als Linearkombinationen von s linear unabh¨angigen Vektoren c1 , . . . , cs x darstellbar. r heißt Spaltenrang von X, und s ist der Zeilenrang von X. Man beachte, dass die Spaltenvektoren von X m-dimensional, die Zeilenvektoren von X aber n-dimensional sind, d.h. die Zeilen- und Spaltenvektoren sind Elemente aus Vektorr¨aumen mit verschiedener Dimensionalit¨at. Es gilt der Satz 2.1 Es sei X eine (m × n)-Matrix mit dem Zeilenrang s ≤ min(m, n) und dem Spaltenrang r ≤ min(m, n). Dann gilt r=s

(2.32)

d.h. der Zeilerang ist stets gleich dem Spaltenrang, sowie X = U V,

(2.33)

wobei U ∈ Rm,r und V ∈ Rr,n Matrizen mit dem Rang r sind. Beweis: Es sei s der Spaltenrang und r der Zeilenrang von X. X bestehe aus den m-dimensionalen Spaltenvektoren x1 , . . . , xn . Die lineare H¨ ulle L(x1 , . . . , xn ) ist dann gleich der linearen H¨ ulle L(u1 , . . . , us ), wobei die u1 , . . . , us linear, unabh¨angige m-dimensionale Vektoren sind. Dann existiert eine (s × m) Koeffizientenmatrix A derart, dass X = U A, (2.34) U = [u1 , . . . , us ]. Dann sind aber die Zeilenvektoren von X Linearkombinationen der Zeilenvektoren von A (vergl. Kommentar 2. zu Gleichung (2.13), Seite 28). Die Anzahl linear unabh¨angiger Zeilenvektoren von A kann aber nicht gr¨oßer als s sein, so dass der Zeilenrang r h¨ochstens gleich s sein kann, d.h. es muß r ≤ s gelten. Nun seien v1 , . . . , vr linear unabh¨angige n-dimensionale Vektoren derart, dass die Spaltenvektoren von X ′ als Linearkombinationen der vj dargestellt werden k¨onnen; mit V ′ = [v1 , . . . , vr ] hat man dann X ′ = V ′ B,

32

(2.35)

wobei B eine (r × m)-Koeffizientenmatrix ist: B muß r Zeilen haben, da V ′ r Spalten hat. (2.35) bedeutet aber auch, dass die Zeilenvektoren von X ′ Linearkombinationen der Zeilenvektoren von B sind, so dass der Zeilenrang s von X ′ nicht gr¨oßer als r sein kann. Dementsprechend hat man r ≤ s ∧ s ≤ r ⇒ r = s, 

d.h. es gilt (2.32)7 .

Folgerungen: 1. Aus (2.35) folgt X = B ′ V . Man kann also A = V und B ′ = U in (2.34) setzen, so dass sich X = U V, rg(X) = rg(U ) = rg(V ). (2.36) ergibt; U hat r linear unabh¨angige Spaltenvektoren, und V hat r linear unabh¨angige Zeilenvektoren. Aus dem Beweis zu Satz 2.1 ergibt sich, dass sich jede (m × n)-Matrix X als Produkt der Form (2.36) darstellen l¨aßt; die in Abschnitt 2.6.7 eingef¨ uhrte Singularwertzerlegung von X ist ein Spezialfall von (2.36), der vielen faktorenanalytischen Ans¨atzen zur Interpretation von Datenmatrizen zugrunde liegt. Aus (2.36) folgen sofort die Ausagen rg(X ′ X) = rg(XX ′ ) = rg(X),

(2.37)

denn X ′ X = V ′ U ′ U V = V ′ C, C = U ′ U V , d.h. die Spalten von X ′ X sind Linearkombinationen der r linear unabh¨angigen n-dimensionalen Spaltenvektoren von V ′ , und XX ′ = U V V ′ U = U D, D = V V ′ U , und die Spalten von XX ′ sind Linearkombinationen der r linear unabh¨angigen m-dimensionalen Spalenvektoren von U . In Abschnitt 2.6.7, Seite 56 (Satz 2.18) wird ein weiterer Beweis dieser Aussage ur die multivariate Statistik von Bedeutung: gegeben. Die Aussagen (2.37) sind f¨ bei geeigneter Zentrierung entsprechen den Matrizen X ′ X bzw XX ′ Kovarianzbzw. Korrelationsmatrizen, die demnach denselben Rang wie die Datenmatrix haben. 2. Es sei m > n. Da der Rang von X gleich der Maximalzahl der linear unabh¨an˜ m ) ist, folgt r ≤ n. Analog gigen Vektoren von L(x1 , . . . , xn ) und von L(˜ xi , . . . , x folgt f¨ ur m < n, dass r ≤ m sein muß. Zusammengefaßt ergibt sich die Aussage r ≤ min(m, n).

(2.38)

F¨ ur r = min(m, n) sagt man, X habe den vollen Rang. Satz 2.2 Es sei A eine (m × n)-Matrix, B sei eine (n × p)-Matrix. Dann ist das Produkt C = AB eine (m × p)-Matrix. Der Rang von C ist kleiner oder gleich dem kleineren der R¨ ange von A und B, d.h. rg(C) ≤ min[rg(A), rg(B)]. 7

Das Zeichen ∧ steht f¨ ur ’und’.

33

(2.39)

Beweis: A habe den Rang r. Da die Spalten von C Linearkombinationen der Spalten von A sind, kann der Rang von C nicht gr¨oßer als r sein. B habe den Rang s. Die Zeilen von C sind Linearkombinationen der Zeilen von B, also kann der Rang von C nicht gr¨oßer als s sein. Dann kann der Rang von C h¨ochstens gleich dem kleineren der R¨ange r und s sein.  Satz 2.3 X sei eine (m, n)-Matrix mit dem Rang rg(X) = r, P sei eine (m, m)Matrix mit dem Rang rg(P ) = m, und Q sei eine (n, n)-Matrix mit dem Rang rg(Q) = n. Dann gilt rg(X) = rg(P XQ). (2.40) Beweis: Nach Satz 2.2, Gleichung (2.39) (Seite 33), gilt rg(P X) ≤ rg(X). Es sei B = P X, so dass rg(B) ≤ rg(X). Nach Voraussetzung existiert P −1 (denn P hat vollen Rang). Dann folgt ebenso rg(P −1 B) ≤ rg(B) ≤ rg(X), d.h. aber wegen P −1 B = X rg(X) ≤ rg(B) ≤ rg(X), woraus rg(B) = rg(P X) = rg(X) folgt. Es sei C = XQ; auf analoge Weise folgt rg(C) = rg(XQ) = rg(X). Dann folgt aber auch rg(X) = rg(P XQ). .

2.4

Die Inverse einer Matrix

Definition 2.1 Es sei A eine (n × n)-Matrix. A−1 sei eine Matrix derart, dass AA−1 = A−1 A = In ,

(2.41)

In die (n × n)-Einheitsmatrix. Dann heißt A−1 die zu A inverse Matrix. Ist A eine (m × n)-Matrix und ist m ̸= n, so existiert keine Inverse f¨ ur A; die Bedingung f¨ ur die Existenz einer Inversen ist Satz 2.4 Die Inverse A−1 zur (n × n)-Matrix A existiert genau dann, wenn A den Rang n hat. Beweis: Es sei A eine (n × n)-Matrix und es existiere A−1 . Dann gilt AA−1 = In . Da rg(In ) = n folgt rg(AA−1 ) = n, und da nach (2.39), Seite 33, rg(AA−1 ) ≤ min(rg(A), rg(A−1 ) gilt, folgt rg(A) = rg(A−1 ) = n, d.h. die Zeilen- bzw. Spaltenvektoren von A und A−1 sind linear unabh¨angig. Nun sei rg(A) = n, d.h. die Spaltenvektoren aj , j = 1, . . . , n sind linear unabh¨angig. Dann enth¨alt die lineare H¨ ulle L(A) = L(a1 , . . . , an ) alle ndimensionalen Vektoren, mithin auch die Einheitsvektoren ej und es existiert ein n-dimensionaler Vektor bj derart, dass Abj = ej ; wegen der linearen Unabh¨angigkeit der aj ist bj eindeutig bestimmt (s. Satz 1.2, Seite 17). Das bedeutet aber, dass eine Matrix B = [b1 , . . . , bn ] existiert derart, dass AB = In , und da B wegen der linearen Unabh¨angigkeit der Spaltenvektoren von A eindeutig bestimmt ist, folgt B = A−1 .  34

Beispiel 2.1 Es sei

(

a b c d

A= und gesucht ist −1

A (

Es ist −1

AA

=

( =

) ,

α β γ δ

aα + bγ aβ + bδ cα + dγ cβ + dδ

) . )

( =

1 0 0 1

) .

Man hat also das Gleichungssystem 1 − bγ a bδ aβ + bδ = 0 ⇒ β = − a cα cα + dγ = 0 ⇒ γ = − d 1 − cβ cβ + dδ = 1 ⇒ δ = d

aα + bγ = 1 ⇒ α =

(2.42) (2.43) (2.44) (2.45)

Durch Einsetzen etwa des Ausdrucks f¨ ur γ (2.44) in (2.42) etc findet man ( ) 1 d −b −1 A = . (2.46) ad − bc −c a Man u uft durch Nachrechnen, dass in der Tat AA−1 = A−1 A = I gilt , – ¨berpr¨ vorausgesetzt, dass ad − bc ̸= 0 ist. Es werde angenommen, dass ad − bc = 0 ist. Dann folgt einerseits b = a(d/c), d = c(b/a), andererseits folgt auch d/c = b/a = λ, d.h. es gilt

(

b d

)

( =λ

a c

) ,

die Spaltenvektoren von A sind linear abh¨angig. Man rechnet leicht nach, dass umgekehrt die lineare Abh¨angigkeit der Spaltenvektoren die Gleichung ad−bc = 0 impliziert. Die Voraussetzung ad − bc ̸= 0 gilt also genau dann, wenn die Spaltenund damit auch die Zeilenvektoren von A linear unabh¨angig sind.  Beispiel 2.2 Es werde der Fall einer Matrix A mit den Zeilen (1, 3) und (2, 1) betrachtet; gesucht ist die zu A inverse Matrix A−1 : ( )( ) ( ) 1 3 a b 1 0 −1 AA = = . 2 1 c d 0 1 35

Die Spalten von A sind sicher nicht orthogonal: 1 · 3 + 2 · 1 = 5 ̸= 0, aber sie sind linear unabh¨angig, denn die Spaltenvektoren sind offenbar nicht parallel. Es m¨ ussen die Elemente a, b, c und d von A−1 bestimmt werden. Man erh¨alt zwei Gleichungssysteme: 1·a+3·c=1 , 2·a+1·c=0

1·b+3·d=0 2·b+1·d=1

Man findet nun leicht −1

A

( =

−1/5 3/5 2/5 −1/5

)

1 =− 5

(

1 −3 −2 1

Man rechnet leicht nach, dass AA−1 = A−1 A = I ist.

) . 

Spezialfall: Die (n × n)-Matrix A sei orthonormal. Dann folgt AA′ = I, und mithin A′ = A−1 .  Anmerkung: Es sei A eine (n × r)-Matrix mit r < n, und die Spaltenvektoren von A seien orthonormal. Dann ist A′ A = In . Es ist aber A′ A ̸= AA′ , so dass in diesem Fall A′ ̸= A−1 ist, – die inverse Matrix existiert in diesem Fall nicht, weil A nicht quadratisch ist. 

2.5

Lineare Gleichungssysteme

Es sei A eine (m × n)-Matrix, x sei ein n-dimensionaler Vektor und y sei ein m-dimensionaler Vektor. y sei vorgegeben. Dann ist Ax = y

(2.47)

ein lineares Gleichungssystem mit den n Komponenten von x als Unbekannten. Wenn y = ⃗0, so heißt das System homogen, andernfalls heißt es inhomogen. Es sei L(A) = L(a1 , a2 , . . . , an ) die lineare H¨ ulle der Spaltenvektoren aj , j = 1, . . . , n, von A. y ist eine Linearkombination der aj , mit den unbekannten Komponenten von x als Koeffizienten. (2.47) impliziert, dass x ein n-dimensionaler Vektor ist, d.h. man hat n Unbekannte. Es gibt drei F¨alle: (i) m < n, (ii) m = n, (iii) m > n. Im Fall (i) ist die Anzahl der Unbekannten gr¨oßer als die Anzahl der Gleichungen. Der Rang von A ist h¨ochstens gleich m (rg(A) ≤ min(m, n)), so dass die Spaltenvektoren linear abh¨angig sind. In diesem Fall existiert keine eindeutige L¨osung. Denn es sei etwa x1 a1 + · · · + xn an = y

(2.48)

z 1 a1 + · · · + z n an = y

(2.49)

36

wobei z′ = (z1 , . . . , zn ) ein m¨oglicher zweiter L¨osungsvektor ist. Subtrahiert man die zweite Gleichung von der ersten, so erh¨alt man (x1 − z1 )a1 + · · · + (xn − zn )an = ⃗0, und wegen der linearen Abh¨angigkeit der aj sind nicht alle xj − zj gleich Null. Dann existieren beliebig viele L¨osungen. (Man macht sich das leicht an einem Sytem mit zwei Unbekannten klar: m < n bedeutet, dass es nur eine Gleichung x1 a1 + x2 a2 = y gibt. Dann ist x2 a2 = y − x1 a1 und f¨ ur jedes x1 ∈ R existiert ein x2 ∈ R derart, dass diese Gleichung erf¨ ullt ist.) Der Fall m < n bedeutet, dass das Gleichungssystem Ax = y unterbestimmt ist. Im Fall (ii) ist die Anzahl der Unbekannten gleich der Anzahl der Gleichungen. Ist der Rang von A kleiner als n, so folgt wegen der linearen Abh¨angigkeit der aj die Differenzen xj − zj der Koeffizienten in (2.48) und (2.49) nicht alle gleich Null sind und es gibt wieder beliebig viele L¨osungen. Ist der Rang von A gleich n, so sind die aj linear unabh¨angig und es existiert nur eine L¨osung x, da in diesem Fall die Differenzen xj − zj alle gleich Null sein m¨ ussen. Diese Bedingung wird oft so ausgedr¨ uckt, dass man sagt, die Matrizen A und die um die Spalte y erweiterte Matrix (A, y) m¨ ussen denselben Rang haben, damit x eindeutig bestimmt ist. Die homogene Gleichung Ax = ⃗0 hat dann nur eine L¨osung, n¨amlich x = ⃗0. F¨ ur −1 den Fall rg(A) = n existiert die Inverse A von A und man hat die L¨osung y = A−1 x.

(2.50)

Im Fall (iii) ist die Anzahl der Gleichungen gr¨oßer als die Anzahl der Unbekannten. Da der Rang von A h¨ochstens gleich n ist, liegen die aj in einem Teilraum des m-dimensionalen Vektorraums, und es existiert eine L¨osung x nur dann, wenn y ∈ L(A) ist. Ist y ein Element des (m − r)-dimensionalen Komplement¨arraums von L(A), so existiert keine L¨osung x.

2.6

Rotationen, Quadratische Formen und Eigenvektoren

Es sei A eine beliebige (m × n)-Matrix, x sei ein n-dimensionaler Vektor und es gelte Ax = y. y ist dann m-dimensional. A bildet Vektoren aus einem Rn auf Vektoren aus einem Rm ab. F¨ ur den Fall m = n (A ist quadratisch) ergeben sich zwei f¨ ur die Anwendungen in der Multivariaten Statistik wichtige Spezialf¨alle: 1. A ist eine (n × n)-Matrix und es gelte Ax = y f¨ ur einen beliebigen Vektor x ∈ Rn . Dann ist ebenfalls y ∈ Rn . Im Allgemeinen unterscheiden sich x und y durch ihre Orientierung und durch ihre L¨ange. Nun gelte insbesondere ∥x∥ = ∥y∥, d.h. x und y haben identische L¨angen. Man sagt, die Transformation A ist l¨ angeninvariant. x und y unterscheiden sich nur durch ihre Orientierungen. A heißt dann auch Rotationsmatrix. 2. F¨ ur x ∈ Rn gelte Ax = y = λx. x und y haben also dieselbe Orientierung, unterscheiden sich aber im Falle λ ̸= 1 durch ihre L¨ange. F¨ ur eine gegebene Matrix 37

A k¨onnen die Vektoren x nicht beliebig gew¨ahlt werden, die Orientierungsinvarianz kann nur f¨ ur spezielle, f¨ ur A charakteristische Vektoren x gelten, die deswegen auch charakteristische Vektoren oder Eigenvektoren von A genannt werden. Dabei kann der wiederum f¨ ur die Anwendungen sehr wichtige Fall eintreten, dass die zu einer Matrix T zusammengefassten Eigenvektoren einer Matrix A die Eigenschaft einer Rotationsmatrix haben. In den folgenden Abschnitten wird die Rolle von Rotationsmatrizen und Matrizen von Eigenvektoren elaboriert. 2.6.1

Rotationen

Es seien x, y zwei n-dimensionale Vektoren und T sei eine Matrix derart, dass y = T x. T muß eine (n × n)-Matrix sein, da andernfalls die Vektoren x und y nicht beide n-dimensional sein k¨onnen. T lasse die L¨ange von x invariant, so dass sich y von x nur in Bezug auf die Orientierung unterscheidet. Dementsprechend soll ∥y∥2 = y′ y = x′ T ′ T x = x′ x = ∥x∥2 (2.51) gelten. Satz 2.5 Die Beziehung (2.51) gilt genau dann, wenn die Spaltenvektoren von T orthonormal sind, so dass T ′ T = T T ′ = I gilt, wobei I die (n × n)-Einheitsmatrix ist. Beweis: Die Bedingung T ′ T = I ist sicher hinreichend daf¨ ur, dass b′j T ′ T bj = ′ ′ ′ ′ 2 2 ∥bj ∥ erf¨ ullt ist, denn bj T T bj = bj Ibj = bj bj = ∥bj ∥ . Die Beziehung T ′ T = I ist auch notwendig f¨ ur die G¨ ultigkeit von (2.51). Um das zu sehen, werde U = T ′ T gesetzt. Nach (2.51) soll x′ U x = x′ x f¨ ur alle x gelten. Dann liefert die erste Ableitung der beiden Seiten nach x (s. Anhang, Abschnitt 3.2.1) U x = Ix, f¨ ur alle x, und nochmalige Ableitung liefert U = In , d.h. T ′ T = I. Dies bedeutet, dass die Spaltenvektoren von T orthonormal sind. Es ist zu zeigen, dass auch T T ′ = I gilt. Aus T ′ T = I folgt T T ′ T = IT = T . Es sei S = T T ′ , so dass ST = T . Dann hat man T ′ = T ′ S ′ und T ′ T = T ′ S ′ T = I. Es sei t ein beliebiger Spaltenvektor von T ; dann soll also t′ S ′ t = t′ t = 1 gelten. Wie eben in Bezug auf (2.51) gezeigt wurde, folgt dann S ′ = S = I, d.h. T T ′ = I.  Satz 2.6 Eine Rotation l¨ aßt die Skalarprodukte zwischen den rotierten Vektoren invariant.

38

Beweis: F¨ ur u = T x, v = T y folgt sofort u′ v = x′ T ′ T y = x′ y,

T ′ T = I.

(2.52) 

T l¨aßt sich durch trigonometrische Betrachtungen zur Rotation (etwa von Koordinatensystemen) herleiten; im 2-dimensionalen Fall erh¨alt man f¨ ur T den Ausdruck ( ) cos θ sin θ T = , (2.53) − sin θ cos θ wobei θ der Rotationswinkel ist. Eine gegebene (n × n)-Rotationsmatrix T rotiert alle n-dimensionalen Vektoren y um einen bestimmten, fixen Winkel θ, so dass man auch T (θ) schreiben k¨onnte, um diesen Sachverhalt auszudr¨ ucken. Davon wird im Folgenden kein Gebrauch gemacht, weil θ nicht explizit in die Betrachtungen eingeht. Aus T ′ T = I, I die Einheitsmatrix, folgt T ′ = T −1 ,

(2.54)

¨ d.h. die Transponierte T ′ ist gleich der inversen Matrix von T . Im Ubrigen gilt T ′ T = I ⇒ (T T ′ )T = T I = T ⇒ T T ′ = I. 2.6.2

(2.55)

Quadratische Formen und Eigenvektoren

¨ Ubersicht: Es wird zun¨achst gezeigt, dass bestimmten, d.h. positiv semidefiniten symmetrischen Matrizen (Definition siehe weiter unten) M Ellipsoide zugeordnet werden k¨onnen; jedem Fall (z.B. einer Zeile in einer Matrix (m × n)-Matrix X mit M = X ′ X mit m F¨allen und n Variablen) entspricht ein Punkt in einem ndimensionalen Raum, und jedem dieser Punkte entspricht ein Ellipsoid, auf dem der Punkt liegt. Alle Ellipsoide haben dieselbe Orientierung. Die Orientierung ist durch die Eigenvektoren von M gegeben.  Definition 2.2 Es sei M eine symmetrische (n × n)-Matrix, x ∈ Rn , und es gelte QM (x) = x′ M x = k, k ∈ R eine Konstante (2.56) Dann heißt QM (x) quadratische Form. Definition 2.3 Es sei M ∈ Rn,n eine symmetrische Matrix und k = x′ M x, x ∈ Rn , k ∈ R eine Konstante. Dann: 1. M heißt positiv semidefinit, wenn k ≥ 0 2. M heißt negativ semidefinit, wenn k ≤ 0 3. M heißt positiv definit bzw. elliptisch, wenn k > 0, und 4. M heißt negativ definit bzw. hyperbolisch, wenn k < 0 jeweils f¨ ur alle x ∈ Rn gilt. 39

Satz 2.7 Es sei X ∈ Rm,n eine nicht zentrierte Matrix. Die Varianz-Kovarianz1 matrix S = m X ′ HX, H die Zentrierungsmatrix, ist positiv semidefinit. Beweis: Auf Seite 30 wurde gezeigt, dass H symmetrisch und idempotent ist, d.h. es gilt HH = H ′ H = H 2 = H, d.h. mS = X ′ HX = X ′ H ′ HX, und f¨ ur einen ⃗ beliebigen, n-dimensionalen Vektor x ̸= 0 folgt mit y = HXx x′ Sx = x′ X ′ H ′ HXx = ∥y∥2 ≥ 0, 

d.h. S ist positiv semidefinit.

Satz 2.8 Es sei M ∈ Rn,n eine symmetrische, positiv semidefinite Matrix. Dann definiert die Menge Ex = {x|x′ M x = k, x ∈ Rn , k ∈ Reine Konstante} ein ndimensionales Ellipsoid, wobei die Anfangspunkte der x im Nullpunkt des Koordinatensystems und die Endpunkte auf dem jeweiligen Ellipsoid liegen. Beweis: Die Aussage folgt sofort aus der Definition von QM (x): multipliziert man (2.56) aus, so erh¨alt man x′ M x =

n ∑

mii x2i + 2

i=1



mij xi xj = k

(2.57)

i 0 definiert x′ M x ein n-dimensionales Ellipsoid.



Der Ausdruck ’quadratische Form’ ergibt sich aus dem Sachverhalt, dass die Summe der Exponenten der Komponenten xi stets gleich 2 ist. F¨ ur den Spezialfall n = 2 hat man x′ M x = m11 x21 + m22 x22 + 2m12 x1 x2 = k > 0.

(2.58)

Die Menge der 2-dimensionalen Vektoren x = (x1 , x2 )′ , die dieser Gleichung gen¨ ugen, definiert eine Ellipse (s. a. Satz 2.11, Seite 43). Spezialfall: Insbesondere sei M = Λ = diag(λ1 , . . . , λn ) eine Diagonalmatrix. Dann sind die Ellipsoide x′ Λx = k achsenparallel, d.h. die Hauptachsen der Ellipsoide sind parallel zu den Achsen des Koordinatensystems; diese Aussage folgt sofort aus (2.57) bzw. (2.58), denn f¨ ur M = Λ sind alle mij = 0 f¨ ur i ̸= j. Es seien nun x, y ∈ Rn Vektoren und M sei eine symmetrische (n×n)-Matrix, und es gelte x′ M x = y′ Λy = k > 0, Λ = diag(λ1 , . . . , λn ). (2.59) Ex = {x|x′ M x = k > 0} und Ey = {y|y′ Λy = k > 0} sind Ellipsoide, EY ist insbesondere achsenparallel. Weiter gelte x = T y, wobei T eine Rotation repr¨asentiere. Offenbar gilt y′ T M T y = y′ Λy = k, 40

woraus

T ′M T = Λ

(2.60)

folgt. Denn Ey ist ein achsenparalleles Ellipsoid, so dass auch y′ T M T y = k ein achsenparalleles Ellipsoid sein muß, d.h. T ′ M T = D muß eine Diagonalmatrix sein, D = diag(d1 , . . . , dn ). Dann folgt aber y′ Λy = y′ Dy = k, d.h.

n ∑

λk yk2 =

k=1

n ∑

dk yk2 .

k=1

Differenziert man beide Seiten nach yk , so erh¨alt man λk = dk , d.h. Λ = D, und das ist (2.60).  Da T als Rotationsmatrix angenommen wurde, folgt, dass T orthonormal ist. Deshalb folgt durch Multiplikation der Gleichung (2.60) von links mit T die Gleichung M T = T Λ. (2.61) Diese Gleichung besagt, dass die Spaltenvektoren von T durch M so transformiert werden, dass sich nur ihre L¨ange, nicht aber ihre Orientierung ver¨andert. Diese Aussage gilt nat¨ urlich nicht f¨ ur beliebige Vektoren x, sondern nur f¨ ur spezielle Vektoren t, die charakteristisch f¨ ur die Matrix M sind. Definition 2.4 Es sei M eine beliebige (n×n)-Matrix und t ∈ Rn sei ein Vektor, der der Beziehung M t = λt, t ̸= ⃗0, (2.62) gen¨ ugt. Dann heißt t Eigenvektor8 . von M und λ heißt der zu t geh¨ orende Eigenwert von M . Bemerkung: In der Definition wurde nicht vorausgesetzt, dass N symmetrisch ist, d.h. Eigenvektoren k¨onnen auch f¨ ur nicht-symmetrische Matrizen existieren. Die folgenden Betrachtungen beschr¨anken sich aber auf symmetrische Matrizen M.  Die Gleichung (2.61) besagt also, dass alle Spaltenvektoren tj von T Eigenvektoren von M sind, und die Diagonalmatrix Λ enth¨alt in der Diagonalen die zugeh¨origen Eigenwerte von M . Satz 2.9 Es sei M eine reelle, symmetrische (n × n)-Matrix. M ist positiv semidefinit dann und nur dann, wenn die Eigenwerte λj gr¨ oßer als bzw. mindestens gleich Null sind. 8

Synonym sind auch die Ausdr¨ ucke ’latenter Vektor’ und ’latenter Wert’ und ’charakteristischer Vektor’ und ’charakteristischer Wert’.

41

Beweis: Es sei M = T ′ ΛT , wobei T seien. Multiplikation von links mit T plikation von rechts mit T ′ impliziert ein beliebiger n-dimensionaler Vektor. x = T y, so dass ′

die orthonormalen Eigenvektoren von M impliziert T M = ΛT , nochmalige MultiT M T ′ = Λ. Weiter sei q = x′ M x ∈ R, x F¨ ur einen geeignet gew¨ahlten Vektor y ist





q = y T M T y = y Λy =

n ∑

λi yi2

i=1

Da x beliebig gew¨ahlt werden kann, kann insbesondere x = T ej gew¨ahlt werden, also yj = ej der j-te Einheitsvektor, j = 1, . . . , n. Dann ist q = λj , und q ≥ 0 genau dann, wenn λj ≥ 0. Man zeigt auf analoge Weise, dass f¨ ur eine negativ (semi-)definite Matrix λj ≤ 0 f¨ ur alle j gilt.  Satz 2.10 Es sei M eine relle, symmetrische (n × n)-Matrix. Dann ist der Rang von M gleich der Anzahl von Null verschiedener Eigenwerte. Beweis: Der Beweis macht implizit von Satz 2.2, Seite 33, Gebrauch. Es gilt M = T ΛT ′ , und es seien r ≤ n Eigenwerte ungleich Null. Dann enth¨alt Λ n − r Spalten (und Zeilen), die nur Nullen enthalten. Die Spaltenvektoren von M sind Linearkombinationen der Spalten von T Λ, so dass f¨ ur den j-ten Spaltenvektor vj von M vj = λ1 tj1 t1 + · · · + λr tjr tr + 0| + ·{z · · + 0} n−r

gilt. Es gen¨ ugt demnach,

M = Tr Λr Tr′

(2.63)

zu schreiben, wobei Tr die Matrix der Eigenvektoren ist, die zu von Null verschiedenen Eigenwerten korrespondieren, die in der Matrix Λr zusammengefaßt werden. Die Matrix Tr Λr besteht aus den Spaltenvektoren λj tj , j = 1, . . . , r, die orthogonal und damit linear unabh¨angig sind, mithin hat Tr Λr den Rang r. (2.63) bedeutet, dass die Spaltenvektoren von M sich als Linearkombinationen der λj tj darstellen lassen, d.h. die Spaltenvektoren sind Elemente der linearen H¨ ulle L(λ1 t1 , . . . , λr tr ), und somit ist rg(M ) ≤ r. Aber Tr ist orthonormal, so dass aus (2.63) M Tr = Tr Λr folgt. Dies heißt aber, dass sich die Spaltenvektoren λj tj von Tr Λr als Linearkombinationen der Spalten von M darstellen lassen, d.h. sie liegen in der linearen H¨ ulle L(M ) von M . Dies bedeutet, dass r = rg(Tr Λr ) ≤ rg(M ) sein muß. Es muß also rg(M ) ≤ r und rg(M ) ≥ r gelten, so dass rg(M ) = r folgt.  Der Satz 2.9 sagt noch wenig aus u ¨ber die Eigenschaften einer symmetrischen Matrix (es sind stets relle Matrizen gemeint), die nur positive Eigenwerte implizieren (oder nur negative). Der folgende Satz gibt weitere Auskunft. 42

Satz 2.11 Es sei M eine symmetrische (n × n)- Matrix vom Rang r ≤ n. Dann ist M genau dann positiv semidefinit, wenn eine (n×r)-Matrix G existiert derart, dass M = GG′ . (2.64) Beweis: (1) ⇒: Es gelte M = GG′ . Dann folgt x′ GG′ x = (Gx)′ Gx = ∥Gx∥2 ≥ 0, so dass M positiv semidefinit ist. (2) ⇐: Aus der Symmetrie von M folgt die Existenz der Matrizen T (orthonormal) und Λ = diag(λ1 , . . . , λj ), λj ≥ 0 f¨ ur alle j (s. Satz 2.9), mit M = T ΛT ′ . Es sei √ √ Λ1/2 = diag( λ1 , . . . , λr , 0, . . . , 0). | {z } n−r

Dann kann man

M = T Λ1/2 Λ1/2 T ′ = (T Λ1/2 )(T Λ1/2 )′

schreiben. Streicht man in T Λ1/2 alle Spalten, die nur Nullen enthalten, so erh¨alt 1/2 man eine Matrix G = Tr Λr und M ist in der Form M = GG′ darstellbar.  Der Satz 2.11 spezifiert die Bedingungen, die eine symmetrische Matrix M erf¨ ullen muß, um eine Ellipse bzw. ein Ellipsoid zu definieren. Zur Bedeutung der Eigenvektoren positiv semidefiniter Matrizen: Es sei insbesondere y1 = ye1 , e1 = (1, 0, . . . , 0)′ , so dass ∥y1 ∥ = y1 ∥e1 ∥ = y1 . y1 definiert dann die erste Halbachse des durch Λ definierten achsenparallelen Ellipsoids. Dann folgt   t11  t21    x1 = T y1 = y1 T e1 = y  .  = yt1 , y1 ∈ R, (2.65) .  .  tn1 d.h. x1 ist proportional zum ersten Eigenvektor von M , der in der ersten Spalte von T steht. t1 definiert die Orientierung der ersten Hauptachse des durch M definierten Ellipsoids. Da die tk orthogonal sind, definieren die restlichen Vektoren tk , k ̸= 1, die Orientierungen der restlichen Hauptachsen des Ellpsoids. T rotiert alle Vektoren y, f¨ ur die y′ Λy = k gilt. x1 definiert dann die erste Halbachse des Ellipsoids x′ M x = k. Nach (2.65) ist die Orientierung dieser Halbachse durch den ersten Eigenvektor t1 von M gegeben. Analoge Interpretationen

43

ergeben sich f¨ ur die u ¨brigen Halbachsen des durch M definierten Ellipsoids:   0  0      t1j  ..   .   t2j      = yj  1 (2.66) xj = T yj   ..  , xj ∈ Ex , yj = yj ej ∈ Ey    .   0    tnj  ..   .  0 yj ist die L¨ange der jeweiligen Halbachse. Definition 2.5 Die orthonormale Transformationsmatrix T rotiert das achsenparallele Ellipsoid Ey in das orientierte Ellipsoid Ex , und wegen T −1 = T ′ rotiert das Elliposid Ex in das Ellpsoid Ey . T und T ′ heißen deshalb Hauptachsentransformationen. Eine Rotationsmatrix S ist orthonormal, und wenn in einem bestimmten Kontext gefolgert wird, dass S = T auch eine Matrix von Eigenvektoren ist, so folgt, dass T ebenfalls orthonormal ist. Nun sei umgekehrt bekannt, dass T eine Matrix von Eigenvektoren von M ′ = M ist. Die Frage ist, ob nun auch folgt, dass T orthonormal ist, – es ist ja denkbar, dass man nicht u ¨ber eine Rotation auf die Eigenschaft der Spalten von T , Eigenvektoren zu sein, gekommen ist, und vielleicht gibt es auch nicht-orthogonale Eigenvektoren von M . Dazu wird der folgende Satz bewiesen: Satz 2.12 M ∈ Rn,n sei symmetrisch und habe die Eigenvektoren t1 , . . . , tn . Sind tj und tk mit zugeh¨ origen Eigenwerten λj ̸= λk irgendzwei Eigenvektoren von M , so sind tj und tk orthogonal, d.h. es gilt { 0, j = k ′ tj tk = (2.67) ∥tj ∥ ̸= 0, j = k Beweis: Ist T eine Rotationsmatrix, ist M symmetrisch und gilt M T = T Λ, so ist T eine Matrix von Eigenvektoren und aus der Orthonormalit¨at von Rotationsmatrizen folgt die Orthonormalit¨at der Eigenvektoren. Es sei umgekehrt T eine Matrix von Eigenvektoren und f¨ ur irgendzwei Eigenvektoren tj und tk gelte λj ̸= λk . Dann sind tj und tk orthogonal. Denn dann gilt M tj

= λj tj

(2.68)

M tk = λk tk

(2.69)

Die Gleichung (2.68) werde von links mit t′k , die Gleichung (2.69) von links mit tj multipliziert. Es entstehen die Gleichungen t′k M tj t′j M tk

= λj t′k tj = 44

λk t′j tk .

(2.70) (2.71)

Nun ist einerseits t′j tk = t′k tj , und andererseits (t′k M tj )′ = t′j M tk , da ja M ′ = M . Subtrahiert man also die zweite Gleichung von der ersten, ergibt sich 0 = (λj − λk )t′j tk , woraus wegen λj − λk ̸= 0 die Behauptung t′j tk = 0 folgt.



Anmerkung: In (2.67) ist nicht gefordert worden, dass ∥tj ∥ = 1 ist; M tj = λj tj bedeutet, dass sich die L¨angen der Vektoren M tj und tj um den Faktor λj unterscheiden, unabh¨angig von der L¨ange von tj . Insofern ist die L¨ange eines Eigenvektors irrelevant und deswegen kann ∥tj ∥ = 1 gesetzt werden. Ist bereits ¯ bekannt, dass T auch eine Rotationsmatrix ist, so wird die Normiertheit der tj gewissermaßen gleich mitgeliefert.  Die Frage ist nun, welche Aussage u ¨ber die Eigenvektoren einer symmetrischen Matrix gemacht werden kann, wenn nicht alle Eigenwerte voneinander verschieden sind. Der folgende Satz macht hier¨ uber eine Aussage. Satz 2.13 Es sei λj ein Eigenwert der symmetrischen Matrix M mit der Mehrfachheit m, d.h. es gelte λj = λj+1 = · · · = λj+m . Dann existieren m orthogonale, zu λj korrespondierende Eigenvektoren. Beweis: Der Beweis wird hier nicht gegeben, da er vom Begriff der Determinante Gebrauch macht, der in diesem Skript nicht eingef¨ uhrt wurde.  Die Orthonormalit¨at von T bedeutet, dass man aus M T = T Λ (Gleichung (2.61)) durch Multiplikation von rechts mit T ′ die Beziehung M = T ΛT ′ =

n ∑

λk tk t′k .

(2.72)

k=1



erh¨alt. Der Ausdruck k λk tk t′k dr¨ uckt T ΛT ′ u ¨ber die dyadischen Produkte tk t′k aus und erweist sich bei bestimmten Betrachtungen als n¨ utzlich. Man macht sich leicht klar, wie dieser Ausdruck zustande kommt. Es ist ja T = [t1 , . . . , tn ] und T Λ = [λ1 t1 , . . . , λn tn ], so dass  ′  t1 n  t′  ∑  2  λk tk t′k . T ΛT ′ = [λ1 t1 , . . . , λn tn ]  .  = λ1 t1 t′1 + λ2 t2 t′2 + · · · + λn tn t′n =  ..  k=1

t′n

Definition 2.6 Die Darstellung (2.72) von M heißt Spektraldarstellung von M . Bemerkungen: 1. Da die Matrix T der Eigenvektoren einer symmetrischen Matrix M stets orthonormal ist, kann sie als eine Rotatationsmatrix betrachtet werden, die 45

Abbildung 6: Links: Punktekonfiguration f¨ur rxy = .7 mit Regressionsgeraden, Ellipsen und deren Hauptachsen; rechts: Die Hauptachsen als neue Koordinaten f¨ ur die Punktekonfiguration. Zur Berechnung der Ellipsen s. Anhang 3.1, Seite 61.

4

r(x,y) = 0

4

r(x,y) = .7

2 0

Zweite Hauptachse

−4

−2

0 −4

−2

Variable II

2

y = bx + a x = b’y + a’ Hauptachsen

−4

−2

0

2

4

−4

−2

Variable I

0

2

4

Erste Hauptachse

die Vektoren y ∈ Ey in die Vektoren x ∈ Ex rotiert, wobei Λ die Diagonalmatrix der Eigenwerte von M ist. Umgekehrt rotiert T ′ die x ∈ Ex in die Vektoren y ∈ Ey . 2. Eine Matrix muß nicht symmetrisch sein, damit Eigenvektoren f¨ ur sie existieren. Allerdings existieren nicht f¨ ur jede Matrix Eigenvektoren. Dazu betrachte man die Matrix (2.53), d.h. so sei ( ) cos ϕ − sin ϕ A= . sin ϕ cos ϕ Dann ist ( Ax = x1

cos ϕ sin ϕ

)

( + x2

− sin ϕ cos ϕ

)

( =

y1 y2

) = y,

und y ist nur parallel zu x f¨ ur diejenigen Werte von ϕ, f¨ ur die cos ϕ = 1 und sin ϕ = 0 ist, also z.B. f¨ ur ϕ = 0, so dass A = I mit den Spaltenvektoren (1, 0)′ und (0, 1). Dies ist der gewissermaßen triviale Fall, bei dem gar keine Rotation erzeugt wird. Man findet allerdings komplexwertige Eigenvektoren mit zugeh¨origen komplexwertigen Eigenwerten, – f¨ ur ϕ = π/4 etwa findet √ ′ und (−i, 1)′ mit den Eigenwerten (1 + i)/ 2 man die Eigenvektoren (i, 1) √ √ und (1 − i)/ 2, mit i = −1, wie man durch Nachrechnen best¨atigt. Komplexe Eigenvektoren und - werte werden allerdings im Folgenden keine Rolle spielen. 

46

2.6.3

Der Rayleigh-Quotient

In Definition 2.2, Gleichung (2.56) wurde der Begriff der quadratischen Form x′ M x eingef¨ uhrt. Nach Gleichung (2.57) definiert sie ein n-dimensionales Ellipsoid, wenn M eine (m, n)-Matrix ist und dementsprechend x ∈ Rn . In vielen Anwendungen ist es von Interesse, die Orientierung desjenigen Vektors zu kennen, in der das Ellipsoid seine gr¨oßte Ausdehnung hat. Es gibt zwei Methoden, diesen Vektor zu bestimmen: (i) man benutzt die Differentialrechnung, indem man die quadratische Form nach x differenziert und die Ableitung gleich Null setzt, wie bei der Bestimmung von Extremen u ¨blich; dieses Vorgehen wird im Anhang, Abschnitt 3.2 besprochen; (ii) man bestimmt das Maximum des Rayleigh-Quotienten. Dieser Ansatz wird in diesem Abschnitt vorgestellt. Definition 2.7 Es sei M eine symmetrische Matrix. Der Quotient R(x) =

x′ Ax x′ M x = x′ x ∥x∥2

(2.73)

heißt Rayleigh-Quotient9 oder Rayleigh-Koeffizient. Anmerkung: Der Rayleigh-Quotient R(x) h¨angt nicht von der L¨ange, sondern nur von der Orientierung des Vektors x ab, denn es wird der normierte Vektor x/∥x∥ betrachtet: x′ x R(x) = M . ∥x∥ ∥x∥ Man k¨onnte den Quotienten also auch in der Form R(x) = x′ M x mit der Nebenbedingung x′ x = 1 definieren.  Es gilt der folgende Satz 2.14 (Satz von Courant-Fischer) Es sei A eine symmetrische, positiv definite Matrix; es gilt A = T ΛT ′ , T die Matrix der Eigenvektoren und Λ = diag(λ1 , . . . , λn ),

λ1 ≥ · · · ≥ λn

die Diagonalmatrix der zugeh¨ origen Eigenwerte. Dann ist max x̸=⃗0

x′ Ax = max λj = λ1 , j x′ x

(2.74)

und der Vektor x, f¨ ur den das Maximum angenommen wird, ist der zu λ1 korrespondierende Eigenvektor t1 . Weiter gilt min = x̸=⃗0

x′ M x = min λj , j x′ x

(2.75)

mit dem zugeh¨ origen Eigenvektor tmin . 9

Nach dem britischen Physiker John William Strutt, Dritter Baron Rayleigh (1842–1919)

47

Beweis: Sei T = [t1 , . . . , tn ] die Matrix der Eigenvektoren von M mit den zugeh¨origen Eigenwerten λ1 ≥ · · · , ≥ λn , so dass M T = T Λ, Λ = diag(λ1 , . . . , λn ). Die Eigenvektoren tj , j = 1, . . . , n sind eine orthonormale Basis des Vn = L(t1 , . . . , tn ). Es sei nun x = c1 t1 + · · · + cn tn f¨ ur beliebige Koeffizienten c1 , . . . , cn . Dann ist ′



x M x = (c1 t1 + · · · + cn tn ) M (c1 t1 + · · · + cn tn ) =

n ∑

c2j t′j M tj

=

j=1

n ∑

c2j λj ,

j=1

ur j ̸= k. Es folgt denn cj ck t′j M tk = cj ck λk t′j tk = 0 wegen t′j tk = 0 f¨ ∑n ∑ 2 λ1 nj=1 c2j x′ M x j=1 cj λj ∑ ∑n = ≤ n 2 2 = λ1 , x′ x j=1 cj j=1 cj so dass maxx RM (x) = λ1 , λ1 der gr¨oßte Eigenwert. Da ∥t1 ∥ = 1 und t′1 M t1 = λ1 nimmt der Raleigh-Koeffizient den maximalen Wert f¨ ur x = t1 an. Jetzt muß noch gezeigt werden, f¨ ur welchen Vektor x das Maximum angenommen wird. Es sei t1 der zu λmax = λ1 korrespondierende Eigenvektor. F¨ ur x = t1 folgt t′1 M t1 = λ1 ′ und wegen t1 t1 = 1 sieht man, dass RM (x) = max f¨ ur x = t1 .  Anmerkung: Es sei noch einmal darauf hingewiesen, dass die Aussage, dass maxx RM (x) = λ1 mit x = t1 ist, daraus folgt, dass x ∈ L(t1 , . . . , tn ) beliebig gew¨ ahlt werden kann, d.h. dass f¨ ur alle m¨oglichen Koeffizienten c1 , . . . , cn Vektoren x = x1 t1 + · · · + cn tn resultieren derart, dass RM (x) ≤ λ1 gilt. Deshalb ist λ1 = λmax .  Die Aussage (2.75) ergibt sich aus der folgenden Vervollst¨andigung des Satzes von Courant-Fischer und ist eher ein Korollar zu diesem Satz. Satz 2.15 Es sei M wie in Satz 2.14 definiert. Dann gilt max

x⊥t1 ,...,tk

x′ M x = λk+1 , x′ x

k < n,

(2.76)

f¨ ur x = tk+1 der (k + 1)-te Eigenvektor. (⊥ steht f¨ ur ”ist orthogonal zu”.) Beweis: Es sei wieder T = [t1 , · · · , tn ] die Matrix der Eigenvektoren von A. Dann existieren relle Zahlen y1 , . . . , yn derart, dass ein Vektor x in der Form x = T y dargestellt werden kann, wobei die Komponenten von y durch die yj gegeben sind. Nun soll speziell x ⊥ t1 , . . . , tk gelten. Dann muß aber v′k x = y1 t′k t1 + y2 t′k t2 + · · · + yn t′k tn = yk = 0 gelten, denn t′k tk = 1, so dass yk t′k tk = yk . Die Forderung der Orthogonalit¨at von x zu den ersten k Eigenvektoren impliziert also y1 = · · · = yk = 0. Dann folgt aus (2.74) ∑n 2 x′ M x j=k+1 λj yj ∑ = n 2 , x′ x j=k+1 yj 48

und analog zur Argumentation im Beweis zu Satz 2.14 folgt (2.76). ′ x maxx̸=⃗0 xxM ′x

Anmerkung: F¨ ur k = 0 betrachtet man erh¨alt man x′ M x = λn , max x⊥t1 ,...,tn−1 x′ x



= λ1 , und f¨ ur k = n − 1

d.h. min RM (x) = λn

(2.77)

λn ≤ RM (x) ≤ λ1 .

(2.78)

x

so dass  Die folgende Definition liefert einen kurzen Bezug auf den Satz von CourantFischer: Definition 2.8 Es sei M eine beliebige symmetrische (n×n)-Matrix und x ∈ Rn . Weiter sei λ = x′ M x/x′ x. Die Werte λ heißen maximal, wenn sie gem¨ aß den S¨ atzen (2.14) und (2.15) den Rayleigh-Quotienten x′ M x/x′ x maximieren. 2.6.4

Bestimmung einer Basis

Es sei X = [x1 , . . . , xn ] eine beliebige (m × n) Matrix. Gesucht ist eine Basis {L1 , . . . , Ln } f¨ ur die Spaltenvektoren xj ; der hier beschriebene Ansatz impliziert den Fall, dass weniger als n Basisvektoren gen¨ ugen, um die Vektoren xj darzustellen, Abschnitt 2.6.7 wird dieser Sachverhalt deutlich werden. Die Lk k¨onnen zu einer Matrix L = [L1 , . . . , Ln ] zusammengefasst werden. Es wird sich zeigen, dass mit der Bestimmung der Basis L auch die Bestimmung einer Basis f¨ ur die Zeilenvektoren einhergeht. L muß aus der Matrix X berechnet werden, d.h. die Lk m¨ ussen als Linearkombinationen der Vektoren xj der Matrix X bestimmt werden. Dementsprechend muß eine Matrix T gefunden werden derart, dass XT = L

(2.79)

gilt. Die Komponenten der Spaltenvektoren tj der Matrix T sind die Koeffizienten f¨ ur die gesuchten Linearkombinationen. Der Ansatz XT = L, L orthogonal, impliziert, dass X ′ X = T ΛT ′ stets positiv definit ist (s. Satz 2.11, Seite 43), womit gesichert ist, dass eine reelle Matrix T und damit auch eine reelle Matrix L existiert, die zur ”Erkl¨arung” der Daten herangezogen werden kann. Da rg(X ′ X) = rg(T ΛT ′ ) = r sein soll (vergl. (2.37), Seite 33), folgt, dass rg(T ) = r, denn rg(X ′ X) = rg(T ΛT ′ ) = r und rg(T ΛT ′ ) ≤ min(rg(T ), rg(ΛT ′ ). 49

Es gibt beliebig viele Basen {L1 , . . . , Ln }, so dass f¨ ur die tats¨achliche Berechnung einer Basis einschr¨ankende Annahmen gemacht werden m¨ ussen. Eine allgemeine Annahme ist, dass die Lk paarweise orthogonal sind. Hat man eine orthogonale Basis gefunden, ist es immer noch m¨oglich, zu einer anderen, nicht orthogonalen Basis u ur ¨berzugehen, falls eine nicht orthogonale Basis aus was f¨ Gr¨ unden auch immer als optimal erscheint, vergl. Abschnitt 2.6.5. Eine weitere Einschr¨ankung ergibt sich, wenn man fordert, dass die Skalarprodukte f¨ ur die Paare von F¨allen, repr¨asentiert durch die Zeilenvektoren von X, invariant bleiben sollen, so dass T eine Rotation definiert, oder dass die λk = L′k Lk (d.h. die Varianzen der Komponenten der L1 , . . . , Ln ) maximal im Sinne der Definition 2.8 sein sollen. Diese letzten beiden Bedingungen sind ¨aquivalent: Satz 2.16 Es gelte (2.79) und L sei orthgonal. Dann sind die λk maximal im Sinne der Definition 2.8 genau dann, wenn T eine Rotationsmatrix ist. Beweis: Nach Voraussetzung ist L orthogonal. 1. λ1 sei maximal. Nach dem Satz von Courant-Fischer ist dann T die Matrix der Eigenvektoren von X ′ X. Dementspechend ist T orthonormal und damit eine Rotationsmatrix. 2. Es sei T eine Rotationsmatrix. Es ist T ′ X ′ XT = L′ L = Λ eine Diagonalmatrix, und da T orthonormal ist folgt (Multiplikation von links mit T ) X ′ XT = T Λ, d.h. T ist die Matrix der Eigenvektoren von X ′ X und nach dem Satz von Courant-Fischer ist λ1 maximal.  Die Orthogonalit¨atsannahme f¨ ur L erleichtert insbesondere die Interpretation der Lk : sie k¨onnen unabh¨angig voneinander interpretiert werden, da sie – f¨ ur den Fall, dass X eine Datenmatrix ist – voneinander unabh¨angige latente Merkmale repr¨asentieren. Man erh¨alt also die orthogonalen Basisvektoren Lk , k = 1, . . . , n f¨ ur die Spaltenvektoren xj , j = 1, . . . , n, wenn man f¨ ur T die Matrix der Eigenvektoren von X ′ X w¨ahlt. Dann ist T orthonormal und (2.79) impliziert X = LT ′ , ˜ i von X ′ – also die Zeilenvektoren woraus X ′ = T L′ folgt: die Spaltenvektoren x von X – sind dann Linearkombinationen der Spaltenvektoren von T , mit den ˜ i von L′ . Die SpaltenvekKomponenten des korrespondierenden Spaltenvektors L toren von T sind also eine Basis f¨ ur die Zeilenvektoren von X. Die Matrix X sei spaltenzentriert. Dann gilt ⃗1′m X = ⃗0′ = (0, . . . 0), ⃗1m der m-dimensionale Einsvektor: alle m Komponenten von ⃗1 sind gleich 1. Dann folgt ⃗1′ XT = ⃗1′ L = ⃗0′ ,

(2.80)

d.h. die Spaltensummen von L sind ebenfalls alle gleich Null, so dass λk = L′k Lk = ∥Lk ∥2 proportional zur Varianz der Komponenten von Kk ist; der Proportionalit¨atsfaktor ist 1/m. λ1 ist dann proportional zur Varianz der Koordinaten der F¨alle auf der ersten Achse des neuen Koordinatensystems L; L1 repr¨asentiert dann eine latente Dimension, die maximal zwischen den F¨allen diskriminiert. Anmerkung: In Abschnitt 3.2.3, Seite 64, wird der Satz von Courant-Fischer durch Differentiation der quadratischen Form (2.76), Seite 48 (hier also T ′ X ′ XT = 50

Abbildung 7: Punktekonfiguration und Ellipsen. Im Anhang, Abschnitt 3.1 wird die Konstruktion dieser Ellipsen n¨aher erl¨autert. (a)

(b)

0.3

0.3

L1

0.2 0.1 -0.6

-0.4

-0.2

0.1 0.2

0.4

0.6

-0.6

-0.4

-0.2

L1 0.2

0.4

0.6

-0.1

-0.1

-0.2

-0.2 -0.3

L2

0.2

L 22

-0.3

L′ L = Λ) unter der Nebenbedingung t′ t = 1 bewiesen; dieser Herleitung entnimmt man leicht, dass es nur eine L¨osung f¨ ur T gibt, eben die Matrix der Eigenvektoren von X ′ X, denn die Ableitung Q(t) = dt′ X ′ Xt/dt = 0 hat nur eine ¯ L¨osung f¨ ur t. Es gibt also keine Rotation T1 ̸= T derart, dass XT1 = L1 mit L′1 L1 = Λ1 , Λ1 eine Diagonalmatrix. W¨ahlt man demnach eine von T verschiedene Matrix T1 , um die Vektoren von X zu rotieren, so sind die Vektoren von L1 nicht mehr orthogonal, d.h. sie repr¨asentieren keine voneinander unabh¨angigen latenten Variablen. Dieser Sachverhalt ist auch anschaulich klar: die Lk der Matrix T definieren ein Koordinatensystem, in Bezug auf das die Konfiguration der F¨alle achsenparallel ist, und in jedem anderen, sich durch eine Rotation von L unterscheidenden Koordinatensystem ist diese Konfiguration nicht mehr achsenparallel.  Ellipsoide und die Konfiguration der F¨ alle: Es soll noch gezeigt werden, dass zu jedem Punkt der Punktekonfiguration der F¨alle ein Ellipsoid existiert, auf dem der jeweilige Punkt liegt; dieser Sachverhalt setzt nicht voraus, dass die Punktekonfiguration ellipsoidal ist, vergl. die Anmerkung zur Punktekonfiguration weiter unten. Aus XT = L folgt X = LT ′ , wenn T eine Rotation repr¨asentiert, ˜ i der i-te Spaltenvektor von X ′ (d.h. der i-te Zeiso dass X ′ = T L′ folgt. Es sei x ˜ i sei der korrespondierende Spaltenvektor von L′ (der i-te levektor von X) und L ˜ i . Die Komponenten von L ˜ i repr¨asen˜i = T L Zeilenvektor von L). Dann folgt x tieren die Koordinaten des i-ten Falles im Raum der latenten Variablen, und die ˜ i sind die Messungen der n Variablen f¨ Komponenten von x ur den i-ten Fall. T ′ ˜ ˜ i. ˜ i in den Vektor Li , d.h. T ∗ x ˜i = L transformiert (d.h. rotiert) den Vektor x ˜ ′i und von rechts mit x ˜ i , so erh¨alt Multipliziert man nun X ′ X von links mit x ˜ i die Beziehung ˜i = L man wegen X ′ X = T ΛT ′ und T ′ x ˜ i = ki , ˜ ′ ΛL ˜ ′i (X ′ X)˜ ˜ ′i T ΛT ′ x ˜i = L x xi = x i

i = 1, . . . , m

(2.81)

˜ i charakteristische Konstante. Rechnerisch ergibt sich der Wert ki ist eine f¨ ur x ˜ ′i (X ′ X)˜ von ki , indem man x xi einfach ausrechnet. Damit hat man zwei Ellipsoide 51

definiert:



Ei1 = {˜ x|˜ x′ (X ′ X)˜ x = ki },

˜L ˜ ΛL ˜ = ki }. Ei2 = {L|

(2.82)

˜ i sind spezielle Elemente von Ei1 bzw. Ei2 . Ei1 ist ein orientiertes, durch ˜ i und L x Abbildung 8: Superponierte Punktekonfigurationen und Ellipsen

10 5 0

Variable II

−15

−10

−5

0 −15

−10

−5

Variable II

5

10

15

Konfiguration II

15

Konfiguration I

−15

−10

−5

0

5

10

15

−15

−10

−5

Variable I

0

5

10

15

Variable I

0 −10

−5

Variable II

5

10

15

Nicht−ellipsoidale Konfiguration aus superponierten Konfigurationen

−15

1−te Hauptachse 2−te Hauptachse

−15

−10

−5

0

5

10

15

Variable I

X ′ X definiertes Ellipsoid, das die Punktekonfiguration der F¨alle in den urspr¨ unglichen Koordinaten (˜ xi ) beschreibt, und Ei2 ist ein achsenparalleles Ellipsoid, das ˜ i beschreibt (s. Abschnitt 2.6.2). Die Spaltenvekdie F¨alle in den Koordinaten L toren von T definieren die Orientierung von Ei1 : t1 definiert die Orientierung der ersten Hauptachse, t2 die der zweiten Hauptachse, etc. Abbildung 7 illustriert die in (2.82) definierten Ellipsoide. Anmerkung zur Punktekonfiguration: Es ist gezeigt worden, dass f¨ ur jeden Punkt der Konfiguration der F¨alle ein Ellipsoid existiert, auf dem der Punkt liegt, aber dies bedeutet nicht, dass die Konfiguration auch tats¨achlich ellipsoid sein muß, – d.h. die unterliegende Verteilung muß nicht die multivariate Normalverteilung sein. Auch wenn die Konfiguration nicht ellipsoid ist kann stets eine 52

Menge von Ellipsoiden gefunden derart, dass jeder Fall auf einem Ellipsoid liegt, – einfach weil X ′ X stets eine Menge von Ellipsoiden definiert. Dieser Fall kann eintreten, wenn sich die Stichprobe der F¨alle aus Stichproben aus verschiedenen Populationen zusammensetzt. In Abbildung 8 wird dieser Sachverhalt illustriert. 2.6.5

Basiswechsel

Gegeben seien die m-dimensionalen Vektoren x1 , . . . , xn , Lx = L(x1 , . . . , xn ) sei die lineare H¨ ulle dieser Vektoren und Bb = {b1 , . . . , br }, r ≤ n sei eine Basis f¨ ur Lx , d.h. alle Vektoren von Lx k¨onnen als Linearkombinationen der Vektoren bj , j = 1, . . . , r dargestellt werden. Oft ist es von Interesse, zu einer anderen Basis C = {c1 , . . . , cr } u ¨berzugehen, – etwa, um zu einer besseren Interpretation von Daten zu gelangen. Die cj sind Elemente von L(Bb ) = Lx und als Linearkombinationen der Basisvektoren aus Bb darstellbar, d.h. es existieren Koeffizienten tkj derart, dass cj = t1j b1 + t2j b2 + · · · + trj br , (2.83) oder allgemein in Matrixform C = BT

(2.84)

– genau dann werden ja die Spaltenvektoren von C als Linearkombinationen der Spaltenvektoren von B dargestellt. B und C haben jeweils r Spalten, also muß T eine (r × r)-Matrix sein. Weiter gilt rg(C) ≤ min(rg(B), rg(T )). Es ist aber rg(C) = rg(B) so dass r ≤ min(r, rg(T )) folgt, was wiederum bedeutet, dass rg(T ) = r. Dann aber existiert die zu T inverse Matrix T −1 , so dass CT −1 = BT T −1 = B (2.85) ¨ resultiert. Wird also der Ubergang von einer Basis B zu einer Basis C durch eine Transformationsmatrix T definiert, so ist die Transformationsmatrix f¨ ur den −1 ¨ Ubergang von C zu B durch die zu T inverse Matrix T gegeben. Die Basisvektoren in C haben im Allgemeinen eine andere Orientierung und eine andere L¨ange als Basisvektoren in B (vergl. auch den Abschnitt ??, Seite ?? im Anhang). Nun werde gefordert, dass ∥cj ∥ = ∥bj ∥ f¨ ur alle j, d.h. die Transformation T bzw. T −1 soll die L¨angen invariant lassen. Dann repr¨asentiert T eine Rotation und ist folglich orthonormal (s. Satz 2.5, Seite 38). Die L¨angen der Basisvektoren von C, also der Spaltenvektoren von C, sind dann identisch mit denen von B, d.h. f¨ ur cj = T bj gilt ∥cj ∥2 = ∥bj ∥2 . T ist eine Hauptachsentransformation (s. Definition 2.5, S. 44). Abbildung 6 illustriert die Hauptachsentransformation f¨ ur den 2-dimensionalen Fall. 53

2.6.6

Die Inverse und die Wurzel einer symmetrischen Matrix

Die Inverse von M : Es sei M ′ = M eine (n × n)-Matrix und M habe vollen Rang, so dass rg(M ) = n. Die Spektraldarstellung von M sei M = T ΛT ′ . Da M vollen Rang hat, existiert die Inverse M −1 von M . Es ist M −1 = (T Λ)−1 = (T ′ )−1 Λ−1 T −1 , −1 wobei Λ−1 = diag(λ−1 at von T impliziert T ′ = T −1 , 1 , . . . , λN ). Die Orthonormalit¨ ′ −1 −1 −1 so dass (T ) = (T ) = T , so dass die Inverse von M durch

M

−1

−1

= TΛ

n ∑ 1 T = tk t′k λk ′

(2.86)

k=1

gegeben ist. 1/2

1/2

Die Wurzel von M : Es sei Λ1/2 = diag(λ1 , . . . , λn ). Dann gilt sicherlich M = T Λ1/2 Λ1/2 T ′ . Es sei nun10 M

1/2

1/2

=Def T Λ



T =

n √ ∑

λk tk t′k

(2.87)

k=1

Λ1/2 T ′ kann sicherlich berechnet werden, so dass der Ausdruck M 1/2 einer berechenbaren Gr¨oße entspricht. Dar¨ uber hinaus entspricht sie der u ¨blichen Schreibweise a1/2 a1/2 = a f¨ ur a ∈ R, denn M 1/2 M 1/2 = T Λ1/2 T ′ T Λ1/2 T ′ = T ΛT ′ . Weiter folgt

(M 1/2 )′ = (T Λ1/2 T ′ ) = T Λ1/2 T ′ ,

(2.88)

d.h. M 1/2 ist symmetrisch, und (M

2.6.7

1/2 −1

)

=M

−1/2

1/2

= (T Λ

′ −1

T)

= TΛ

−1/2

n ∑ 1 √ tk t′k . T = λk k=1 ′

(2.89)

Die Singularwertzerlegung einer Matrix

Es sei X eine beliebige (m × n)-Matrix, und es werde der Ansatz X = LT ′ gemacht, wobei T die Matrix der Eigenvektoren von X ′ X ist und L′ L = Λ die Diagonalmatrix der zugeh¨origen Eigenwerte ist. Ohne Beschr¨ankung der Allgemeinheit wird m ≥ n angenommen. X kann, muß aber nicht spaltenzentriert bzw. spaltenstandardisiert sein. 10

Mit dem Zeichen =Def soll ausgedr¨ uckt werden, dass der Ausdruck auf der linken Seite durch den auf der rechten Seite definiert wird.

54

Aus X = LT ′ folgt X ′ X = T L′ LT ′ = T ΛT ′ . T und Λ sind (n×n)-Matrizen, T ist die orthonormale Matrix der Eigenvektoren von X ′ X und Λ = diag(λ1 , . . . , λn ) ist die Diagonalmatrix der Eigenwerte von X ′ X, wobei λj = L′j Lj = ∥Lj ∥2 , j = 1, . . . , n. L ist eine m × n)-Matrix. Der Spaltenvektor Lj von L kann √ normiert werden, indem man die Komponenten von Lj durch ∥Lj ∥, d.h. durch λj dividiert: 1 qj = √ Lj . (2.90) λj Offenbar ist q′j qj

=

L′j Lj λj 1 √ Lj = = = 1. λj λj λj λj

1 L′j √

Man kann (2.90) simultan f¨ ur alle j anschreiben, indem man zur Matrixschreibweise u ¨bergeht: −1/2

Q = LΛ−1/2 , Λ−1/2 = diag(λ1 , . . . , λ−1/2 ), (2.91) n √ −1/2 wobei λj = 1/ λj f¨ ur j = 1, . . . , n. (Man erinnere sich daran, dass die Multiplikation einer Matrix M von rechts mit einer Diagonalmatrix D die Skalierung der L¨angen der Spaltenvektoren bedeutet, vergl. Gleichung (2.17), Seite 29). Dann folgt jedenfalls QΛ1/2 = L und X = LT ′ kann in der Form X = QΛ1/2 T ′ = QΣT ′ ,

Σ = Λ1/2

(2.92)

geschrieben werden. Definition 2.9 Die Darstellung (2.92) heißt Singularwertzerlegung von X. Die Spaltenvektoren von Q heißen Linkssingularvektoren, die von T heißen Rechtssin√ gularvektoren, und die Diagonalelemente σj = λj von Σ heißen Singularwerte. Anmerkungen: Die englische Bezeichnung f¨ ur ’Singularwertzerlegung’ ist singular value decomposition, abgek¨ urzt SVD; diese Abk¨ urzung ist auch im Deutschen u ur die SVD ¨blich. Ein in der Psychologie h¨aufig gebrauchter Ausdruck f¨ ist ’Grundstruktur’ einer Matrix (engl. basic structure). Der Ausdruck ’Singularwertzerlegung’ ist allgemein in allen Wissenschaften, in denen eine Zerlegung von Matrizen gew¨ unscht wird (Biologie, Medizin, Geologie, Klimaforschung, Arch¨aologie, etc) gebr¨auchlich, weshalb auch hier von dieser Bezeichung Gebrauch gemacht wird. Die SVD ist nicht an eine Spaltenzentrierung oder Standardisierung der Matrix X gebunden; eine SVD kann f¨ ur eine beliebige Matrix X bestimmt werden.  Der folgende Satz fasst einige unmittelbare Folgerungen aus der SVD zusammen: 55

Satz 2.17 Es sei X = QΛ1/2 T ′ und rg(X) = r, d.h. Λ enth¨ alt r von Null verschiedene Eigenwerte von X ′ X. Dann folgt XX ′ = QΛ1/2 T ′ T Λ1/2 Q′ = QΛQ′ ,

(2.93)

und da Q orthonormal ist folgt (XX ′ )Q = QΛ, d.h. Q enth¨ alt die Eigenvektoren von XX ′ , die zu den von Null verschiedenen Eigenwerten (den Diagonalelementen von Λ) von XX ′ korrespondieren, so dass XX ′ qj = λj qj ,

X ′ Xtj = λj tj ,

j = 1, . . . , r

(2.94)

Eine weitere unmittelbare Folgerung ist der Satz 2.18 Die Matrizen X ′ X und XX ′ haben denselben Rang wie X: rg(X ′ X) = rg(XX ′ ) = rg(X) = r.

(2.95)

Beweis: Ein erster Nachweis dieser Aussage wurde bereits in der Folgerung 1. auf Seite 33 gegeben. Hier wird nur darauf hingewiesen, dass die Anzahlen der von Null verschiedenen Eigenwerte von X ′ X und XX ′ identisch sind, und nach Satz 2.10, Seite 42, ist der Rang einer symmetrischen Matrix M gleich der Anzahl r der von Null verschiedenen Eigenwerte von M .  Die SVD kann u ¨ber die dyadischen Produkte der Spaltenvektoren von Q und T ausgedr¨ uckt werden: √ √ √ X = λ1 q1 t′1 + λ2 q2 t′2 + · · · + λn qn tn t′n . (2.96) 2.6.8

Faktorwerte und Ladungen

Die in Gleichung (2.92) definierte SVD von X kann in zwei m¨oglichen Varianten interpretiert werden: { LT ′ , L = QΛ1/2 1/2 ′ X = QΛ T = (2.97) QA′ , A = T Λ1/2 .

Definition 2.10 Es seien



  ak =  

a1k a2k .. .

   , 

   Lk =  

L1k L2k .. .

   , 

Lmk

ank

ak der k-te Spaltenvektor von A, Lk der k-te Spaltenvektor von L. Die Komponenten ajk von ak , j = 1, . . . , n, heißen Ladungen der Variablen auf der k-ten latenten Variablen, die Komponenten Lik von Lk , i = 1, . . . , m, heißen Faktorwerte der F¨ alle auf der k-ten latenten Variablen. 56

Anmerkung: Gelegentlich werden in der Literatur auch die Komponenten des Spaltenvektors qk von Q als Faktorwerte bezeichnet; aus dem jeweiligen Kontext wird im Allgemeinen klar, was genau mit einem Faktorwert gemeint ist.  Faktorwerte: Aus X = LT ′ folgt wegen der Orthonormalit¨at von T die Beziehung XT = L, d.h. Xtk = Lk , k = 1, . . . , n (2.98) F¨ ur die i-te Komponente Lik von Lk folgt ˜ i tk = Lik = x

n ∑

xij tjk ,

(2.99)

j=1

wobei x ˜i wieder der als Spaltenvektor angeschriebene i-te Zeilenvektor von X ist. Lik ist das Skalarprodukt der Messwerte des i-ten Falls f¨ ur die n Variablen mit der Repr¨asentation der Variablen auf der k-ten latenten Dimension. Der Faktorwert Lik ist also um so gr¨oßer, je mehr die Messwerte des i-ten Falls mit der Repr¨asentation auf der k-ten latenten Variablen ”korrelieren”, d.h. je weniger die ˜ i voneinander abweichen. ˜ i und L Orientierungen von x Ladungen: Betrachtet man dagegen dagegen den Fall X = QA′ folgt X ′ = AQ′ und die Multiplikation von rechts mit Q liefert wegen Q′ Q = I X ′ Q = A.

(2.100)

Es sei qk die k-te Spalte von Q; sie enth¨alt die normalisierten11 Koordinaten der F¨alle auf der k-ten latenten Dimension (latenten Variablen). Dementsprechend erh¨alt man f¨ ur den k-ten Spaltenvektor ak von A.   a1k  a2k    ak = X ′ qk =  .  , k = 1, . . . , n, (2.101)  ..  ank d.h. f¨ ur die Ladung ajk gilt ajk = x′j qk =

m ∑

xij qik .

(2.102)

i=1

xj der j-te Spaltenvektor von X. ajk ist um so gr¨oßer, je weniger die Orientierungen von xj , dem Vektor der Messwerte der F¨alle f¨ ur die j-te Variablen, und dem Vektor qk , der Repr¨asentation der F¨alle auf der k-ten Dimension, voneinander abweichen, d.h. je mehr die Messwerte der F¨alle f¨ ur die j-te Variable einerseits und der Repr¨asentation der F¨alle auf der k-ten latenten Dimensionen 11

Der Ausdruck ’normalisiert’ bezieht sich auf den Sachverhalt, dass die Spaltenvektoren von Q auf die L¨ ange 1 normiert sind.

57

mit einander ”korrelieren”. Ist xij = zij , d.h. ist X = Z, so bedeutet (2.102), dass ajk tats¨achlich gleich der Korrelation der j-ten gemessenen Variablen mit der k-ten latenten Dimension ist. (2.102) ist ein Beispiel f¨ ur eine orthonormale Basisentwicklung (vergl. Gleichung (1.58), Seite 23). Ladungen und die Korrelationen zwischen den Variablen: Aus X = QA′ folgt X ′ X = AQ′ QA′ , und wegen Q′ Q = I gilt X ′ X = AA′ .

(2.103)

Es gelte X = Z, d.h. die Matrix X sei spaltenstandardisiert. Dann ist R=

1 ′ 1 Z Z = AA′ m m

(2.104)

die Matrix der Korrelationen zwischen den Variablen. (2.104) bedeutet, dass sich die Korrelation rjk zwischen irgendzwei Variablen Vj und Vk als Skalarprodukt der korrespondierenden Ladungen darstellen l¨aßt: 1 ′ 1 ∑ aku akv . au av = m m

(2.105)

1 1 ∑ 2 aku = 1 = ∥au ∥2 = m m

(2.106)

n

ruv =

k=1

Insbesondere gilt

n

ruu

k=1

F¨ ur jede Variable ist die Summe der Quadrate der Ladungen auf den latenten Dimensionen gleich 1. Dies bedeutet, dass die Variablen durch Punkte (Endpunkte der entsprechenden Vektoren) auf einer n-dimensionalen Hyperkugel repr¨asentiert werden. Ist insbesondere n = 2, so liegen die Punkte auf einem Kreis. Interpretation von Messwerten: Es sei xij der m¨oglicherweise standardisierte Messwert beim i-ten Fall f¨ ur die j-te Variable. Die SVD liefert einen Ausdruck f¨ ur xij in Termen von latenten Variablen. Generell gilt X = QΛ1/2 T ′ , so dass √ √ √ xij = qi1 λ1 t1j + qi2 λ2 t2j + · · · + qin λn tnj (2.107) geschrieben werden kann (vergl. auch (2.96)). In Anlehnung an faktorenanalytische Modelle kann man xij auch in der Form xij = qi1 aj1 + qi2 aj2 + · · · + qin ajn

(2.108)

schreiben (vergl. (2.97)). Es wird deutlich, dass sich die Faktorscores qik und die Ladungen ajk , k = 1, . . . , n, auf dieselben latenten Variablen beziehen. Nat¨ urlich kann auch die Form xij = Li1 t1j + Li2 t2j + · · · + Lin tnj 58

(2.109)

gew¨ ahlt werden, wenn insbesondere die Interpretation der F¨alle von Interesse ist. Hier werden die Lik als Faktorscores bezeichnet, was anzeigt, dass der Begriff des Faktorscores nicht ganz einheitlich verwendet wird. In jedem Fall ist damit die Auspr¨agung der k-ten latenten Variablen beim i-ten Fall gemeint, w¨ahrend tjk bzw. ajk als Maß f¨ ur das Ausmaß, in dem die j-te Variable durch die kte latente Variable bestimmt wird interpretiert werden kann. In jedem Fall ist xij ein Skalarprodukt von zwei Vektoren, von denen der eine die Auspr¨agung der latenten Variablen bei den F¨allen und der andere die Maße, in dem die gemessenen Variablen die latenten Variablen erfassen repr¨asentieren. Weitere Details finden sich im Skriptum u ¨ber die Hauptkomponentenanalyse. xij ist ein Element der Matrix X; analog zu (2.107) kann auch X als Summe von Matrizen dargestellt werden: X=



λ1 q1 t′1 +



λ2 q2 t′2 + · · · +



λn qn t′n =

n √ ∑

λk qk t′k ,

(2.110)

k=1

denn die qik t1kj sind ja Elemente der Matrizen, die als dyadische Produkte der qi und tk entstehen. Analog dazu findet man f¨ ur C = X ′ X wegen C = T ΛT ′ C = λ1 t1 t′1 + λ2 t2 t′2 + · · · + λn tn t′n =

n ∑

λk tk t′k .

(2.111)

k=1

Die Darstellung (2.111) verdeutlicht, dass wegen λ1 ≥ · · · ≥ λn die Summanden f¨ ur gr¨oßer werdenen k-Wert immer kleiner werden, so dass man u. U. die letzten Terme vernachl¨assigen kann (vergl. auch Satz 2.10, Seite 42, demzufolge der Rang von C (und damit von X) gleich der von Null verschiedenen Eigenwerte ist). Dies f¨ uhrt zum Satz 2.19 (Satz von Eckart & Young) Die Approximation ′ X ≈ Xr = Qr Λ1/2 r Tr =

r √ ∑

λk qk t′k ,

r 2. DAzu wird x = x1 , y = x2 gesetzt. Es soll also 64

f (x, y) unter der Nebenbedingung g(x, y) = 0 maximiert werden (oder allgemein ein Extremwert bestimmt werden). g(x, y) = 0 bedeutet, dass es eine Funktion y = g(x) gibt, so dass f (x, y) = f (x, g(x)) und g(x, g(x)) = 0 geschrieben werden kann. Geometrisch beschreibt f (x, y) eine Fl¨ache im 3-dimensionaolen Raum und g(x, y) = 0 beschreibt eine Kurve in der X × Y -Ebene. Die Nebenbedingung g = 0 bedeutet nun, dass man f (x, y) nur f¨ ur die diejenigen Punkte (x, y) berechnet, die auf der Kurve g(x, y) = 0 liegen. F¨ ur diese Kurve werde fg = f (x, y|g(x, y) = 0) geschrieben. Die Menge der Punkte (x, y), f¨ ur die f (x, y) = k gilt, definiert eine H¨ohenlinie von f (x, y). Dann existiert eine Konstante k = c, die die Kurve fg genau dort ber¨ uhrt, wo diese ihr Maximum annimmt. Man hat die Ableitungen ∂f (x, g(x)) ∂f ∂f dg(x) = + = fx + fy g ′ , ∂x ∂x ∂g dx wobei die Kettenregel angewendet wurde. Analog dazu erh¨alt man f¨ ur g ∂g ∂g dg(x) dg = + = gx + gy g ′ . dx ∂x ∂y dx Die Extremwerte werden bestimmt, indem man die entsprechenden Ableitungen gleich Null setzt. Dementsprechend erh¨alt man die Gleichungen fx + fy g ′ = 0 gx + gy g



= 0

(3.12) (3.13)

Die bisher hergeleiteten Ableitungen enthalten noch die Ableitung g ′ von g. Um das Extremum zhu bestimmen, eliminiert man g ′ am besten, da die Bestimmung von g ′ kompliziert sein kann. Man hat nun g ′ = −fx /fy = −gx /gy ; diese Beziehung bedeutet, dass die Gradientenvektoren (fx , fy )′ und (gx , gy )′ dieselbe Orientierung haben, d.h. sie unterscheiden sich allenfalls in ihrer L¨ange, so dass man ( ) ( ) fx gx =λ (3.14) fy gy schreiben kann. λ ∈ R ist ein neuer, freier Parameter, der sogenante LagrangeFaktor oder Lagrange-Multiplikator. Er dr¨ uckt einfach aus, dass man nur etwas u ¨ber die Orientierung, nicht aber u ¨ber die L¨ange der Gradientenvekotren am Ort des Maximums weiß. Die Vektorgleichung (3.14) zusammen mit der Bedingung g(x, y) = 0 f¨ uhrt sofort auf ein System von drei Gleichungen mit den drei Unbekannten x, y und λ: fx − λgx = 0

(3.15)

fy − λgy = 0

(3.16)

g(x, y) = 0

(3.17)

65

¨ Diese Uberlegungen m¨ ussen nicht immer explizit durchgef¨ uhrt werden, denn sie implizieren die M¨oglichkeit, von vornherein die Lagrange-Funktion L(x, y, λ) aufzustellen: L(x, y, λ) = f (x, y) + λg(x, y), g(x, y) = 0. (3.18) Man findet den Extremwert, indem man L partiell nach x, nach y und nach λ differenziert und die entstehenden partiellen Ableitungen gleich Null setzt. Die drei Gleichungen (3.15), (3.16) und (3.17) heißen zusammen die Lagrangesche Multiplikatorenregel, nach dem italo-franz¨osischen Mathematiker und Astronomen Jean-Louis Lagrange (1736 – 1813), der diese Regel 1788 herleitete. Beispiel 3.1 Gegeben sei die Funktion f (x, y) = 6 − x2 − 13 y 2 und die Nebenbedingung x + y = 2, die in der Form x + y − 2 = 0 angeschrieben werden kann. Dann ist 2 fx = −2x, fy = − y, gx = 1, gy = 1, 3 und man erh¨alt das Gleichungssystem −2x + λ1 = 0 2 − y + λ1 = 0 3 x + y − 2 = 0, woraus x = 1/2, y = 3/2 und λ = −1 folgt.



Beispiel 3.2 (Satz von Courant-Fisher). Es sei A eine symmetrische, positivdefinite n × n-Matrix mit den Eigenwerten λ1 ≥ λ2 ≤ · · · ≥ λn . Dann gilt max x̸=⃗0

x′ Ax = max λj = λ1 , j xx

(3.19)

und der Vektor x, f¨ ur den das Maximum angenommen wird, ist der zu λ1 korrespondierende Eigenvektor t1 von A. Weiter gilt min x̸=⃗0

x′ Ax = min λj = λn j x′ x

(3.20)

und der Vektor x, der x′ Ax minimalisiert, ist der zu λn korrespondierende Eigenvektor von A. Beweis: Als Nebenbedingung werde x′ x = 1 gesetzt. Dann ist die Funktion x′ Ax − λ(x′ x − 1) = x′ Ax − λ(x′ x − 1) x′ x zu maximieren. Man erh¨alt sofort ∂Q = 2Ax − 2λx, ∂x und man erh¨alt als L¨osung u f¨ ur ∂Q/∂x = 0 die Gleichung Au = λu (u ist der Vektor, f¨ ur den ∂Q/∂x = 0 gilt). Der Rayleigh-Quotient wird maximal, wenn x = u der erste Eigenvektor von A ist.  Q=

66

3.3

Transformationen und Abbildungen

Dieser Abschnitt enth¨alt einige grunds¨atzliche Betrachtungen u ¨ber Produkte von Matrizen und Vektoren, die einerseits das Verst¨andnis der Vektor- und Matrixrechung vertiefen, andererseits f¨ ur das Verst¨andnis der unmittelbaren Anwendung der Matrixrechung auf Fragen der multivariaten Statistik nicht unbedingt notwendig sind und deshalb u ¨bersprungen werden k¨onnen. Das Produkt Xu = v, X eine (m×n)-Matrix, u ein n-dimensionaler Vektor, v ein m-dimensionaler Vektor kann als Abbildung f: u 7→ v eines n-dimensionalen Vektors auf einen m-dimensionalen Vektor verstanden werden, wobei die Abbildung f durch die Matrix X definiert wird. Das Gleiche gilt f¨ ur das Produkt ′ ′ u X = v , wenn u ein m-dimensionaler und v ein n-dimensionaler Vektor ist. Viele Sachverhalte der Vektor- und Matrixalgebra lassen sich sehr elegant als Eigenschaften von Abbildungen ausdr¨ ucken. In Abschnitt ?? werden Abbildungen ausf¨ uhrlicher diskutiert, hier werden nur einige wesentliche Aspekte vorgestellt. Eine Abbildung f einer Menge M in eine Menge N ordnet jedem Element aus M genau einem Element aus N zu: f : M → N,

x 7→ y = f (x),

x ∈ M, , y ∈ N

(3.21)

Man schreibt gelegentlich auch f (M) = N .

(3.22)

f (M) heißt das Bild von M in N , und M ist das Urbild von f (M). Man schreibt auch Imf = N . Eine spezielle Abbildung ist die Identit¨ at oder identische Abbildung id(M) = M.

(3.23)

Die Einheitsmatrix In der Spalten bzw. Zeilen aus den n-dimensionalen Einheitsvektoren e1 , . . . , en bestehen, spezifiziert die identische Abbildung, denn sicherlich gilt In x = x, x ∈ Rn . (3.24) F¨ ur eine Teilmenge von Abbildungen existiert die inverse Abbildung f −1 : f (M) = N ,

f −1 f (M) = M = f −1 (N ).

(3.25)

Wenn f durch eine Matrix M definiert ist, so bedeutet die Existenz der inversen Abbildung f −1 die Existenz einer inversen Matrix M −1 . Es wird deutlich werden, dass inverse Matrizen M −1 f¨ ur eine Matrix M nur f¨ ur spezielle Matrizen existieren. Die Forderung, dass einem Element x ∈ M nur ein Element y ∈ N zugeordnet wird schließt nicht aus, das verschiedenen Elementen x, x′ ∈ M der gleiche Wert 67

y ∈ N zugeordnet werden kann. In diesem Fall kann von einem Element y ∈ N nicht eindeutig auf das Element x ∈ M mit f (x) = y zur¨ uckgeschlossen werden. Mit der Schreibweise f (M) ist nicht ein einzelnes Element gemeint, sondern die Menge der Werte, die man erh¨alt, wenn man f f¨ ur alle Werte aus X bestimmt, also f (M) = {f (x), x ∈ M}. (3.26) Offenbar gilt f (M) ⊆ N . Definition 3.1 Es sei f : M → N . Dann ist f 1. injektiv, wenn aus x, x′ ∈ M und f (x) = f (x′ ) folgt, dass x = x′ (und damit f (x) ̸= f (x′ ) ⇒ x ̸= x′ ). Es kann f (M) ⊂ N gelten, d.h. f (M) kann eine echte Teilmenge von N sein. 2. surjektiv, wenn f (M) = N , d.h. zu jedem y ∈ N existiert ein x ∈ M derart, dass y = f (x). Es gilt f (M) = N . 3. bijektiv, wenn f sowohl injektiv als auch surjektiv ist. Es gilt f (M) = N . 4. Die Menge kernf = {x ∈ M|f (x) = 0} heißt Kern der Abbildung f ; man schreibt f¨ ur den Kern auch kernf = f −1 (⃗0). 5. Es sei f (M) = N , d.h. f (x) = y f¨ ur x ∈ M, y ∈ N . Dann heißt f −1 (y) = {x ∈ M|f (x) = y} die Faser u ¨ber y ∈ N . Anmerkung: Die Schreibweise f −1 (f ) f¨ ur den Kern einer Abbildung f ergibt sich aus der in 4. gegebenen Definition: ist x ∈ kernf , so gilt f (x) = ⃗0. Aus der Definition der Inversen folgt dann x = f −1 (⃗0). Die Definition des Kerns setzt wie die Defintion der Faser offenbar voraus, dass die Inverse existiert.  Beispiele: f : R → R, x 7→ ax + b f¨ ur a, b ∈ R fest gew¨ahlte Konstante. f ist sicher injektiv, denn f (x) = f (x′ ) impliziert ax + b = ax′ + b und damit x = x′ , wie man leicht nachrechnet. f ist auch surjektiv, denn f¨ ur y = ax + b existiert genau ein x = (y − b)/a derart, dass y = f (x). Da f sowohl injektiv wie surjektiv ist, ist f auch bijektiv. R bezeichnet die Menge der reellen Zahlen. Mit R × R = R2 wird die Menge der Paare (x, y), x, y, ∈ R, bezeichnet, allgemein mit Rm = R | ×R× {z· · · × R} m−mal Die Menge der m-tupel (x1 , x2 , . . . , xm ), xj ∈ R, d.h. der m-dimensionalen Vektoren. Rn ist dann die Menge der n-dimensionalen Vektoren, etc. Mit Rm,n wird die Menge der (m × n)-Matrizen bezeichnet. Alle diese Definitionen u ¨√bertragen sich auf C, die Menge der komplexen Zahlen x + iy, x, y ∈ R und i = −1. Die Schreibweise M ∈ Rm,n bedeutet, dass M eine (m × n)-Matrix ist. Die Schreibweise f : Vm → Vn bedeutet dann, dass f eine Abbildung der m-dimensionalen Vektoren in die Menge der n-dimensionalen Vektoren ist. Wenn Vm = Rm , Vn = Rn kann man auch f : Rm → Rn schreiben. 68

Da M x = y mit x ∈ Vm , y ∈ Vn , folgt, dass f durch eine Matrix M ∈ Rm,n definiert ist. Definition 3.2 Es seien V und W Vektorr¨ aume und f : V → W sei eine Abbildung von V ind W . f heißt linear bzw. homomorph, wenn f (λv + µw) = λf (v) + µf (w)

(3.27)

f¨ ur λ, µ ∈ R und f¨ ur alle v ∈ V und w ∈ W . Insbesondere heißt f isomorph, wenn f bijektiv ist; man sagt auch, f definiere einen Homomorphismus bzw. Isomorphismus f¨ ur f bijektiv. f definiert einen Endomorphismus, wenn V = W , und einen Automorphismus, wenn f bijektiv ist und außerdem V = W gilt. Es sei M ∈ Rm,n ; M definiert eine lineare, also homomorphe Abbildung, denn M x = y erf¨ ullt die Bedingungen einer linearen Abbildung. f¨ ur m ̸= n ist f offenbar weder ein Endomorphismus noch ein Automorphismus. Dem Begriff des Kerns in der allgemeinen Definition 3.1 von Abbildungen entspricht f¨ ur f ∈ Rm,n der Nullvektor ⃗0. Satz 3.1 Es sei f (M) = N . Dann gilt 1. f ist surjektiv genau dann, wenn Im f = N 2. f ist injektiv genau dann, wenn kernf = {⃗0}. 3. f sei injektiv und die Vektoren x1 , . . . , xn ∈ M seien linear unabh¨ angig. Dann sind auch die Bilder f (x1 ), . . . , f (xn ) linear unabh¨ angig. Anmerkung: Die Schreibweise kernf = {⃗0} bedeutet, dass kernf nur das eine Element ⃗0 enth¨alt.  Beweis: ⇒ f¨ ur 1. und 2. folgt sofort aus der Definition von injektiv und surjektiv. Um ⇐ zu sehen, beztrachte man zwei Vektoren u, v ∈ M mit u ̸= v, aber f (u) = f (v). Wegen der Linearit¨at von f folgt dann f (v) − f (u) = f (v − u) = ⃗0, d.h. es gilt v − u ∈ kernf . Um 3. einzusehen sei angenommen, dass λf (x1 ) + · · · λn f (xn ) = ⃗0 gilt. Es wurde vorausgesetzt, dass f injektiv ist. Daraus folgt, dass λ1 x1 + · · · λn xn = ⃗0 gelten muß, denn λ1 x1 + · · · λn xn ist ja das Urbild von f . Da die x1 , . . . , xn als linear unabh¨angig vorausgesetzt wurden, muß λ1 = · · · = λn = 0 gelten, und dann folgt sofort, dass auch die f (xj ) linear unabh¨angig sind.  69

Definition 3.3 Es sei f eine Abbildung f : Rm → Rn ; dann heißt die Dimensionalit¨ at des Bildes Imf der Rang; man schreibt rg(f ) = dim ∈ f . f sei durch eine Matrix A ∈ Rm,n definiert, so dass A : Rm → Rn und x 7→ y = Ax. Dann ist f = A. e1 , . . . , em ist die kanonische Basis von Rm , d.h. die n m-dimensionalen Spaltenvektoren von A k¨onnen als Linearkombinationen Ae1 , Ae2 , . . . , Aen geschrieben werden. Dann ist das Bild der durch A definierten Abbildung die lineare H¨ ulle ImA = L(Ae1 , Ae2 , . . . , Aen ). Demnach wird ImA auch der Spaltenraum von A bezeichnet. Der Begriff des uhrlich diskutiert. Ranges einer Matrix A wird in Abschnitt 2.3 noch ausf¨ Beispiel 3.3 Es sei f : R3 → R4 ; f¨ ur x ∈ R3 und y ∈ R4 soll also f (x) = y gelten; insbesondere sei f durch   x1 + 2x2   0  f (x) =   1 x1 + x2  2 0 definiert. Gesucht ist die zu f geh¨orige Matrix M = A sowie der Kern von f . Der Kern von f ist diejenige Menge von Vektoren x, f¨ ur die f (x) = ⃗0. F¨ ur dies Komponenten dieser Vektoren x muß also gelten x1 + 2x2 = 0 1 x1 + x2 = 0, 2 d.h. x1 = −2x2 . Der Kern ist dann kern(f ) = {(x1 , x2 , x3 )′ |x1 = −2x2 } = {(−2x2 , x2 , x3 )′ }. Es gilt



a11  a21 Ax =   a31 a41

a12 a22 a32 a42

    y1 a13 x1   y2 a23   x2  =   y3 a33  x3 y4 a43

   = y. 

Es gibt also 12 Elemente aij , die zu bestimmen sind, wobei allerdings nur bestimmte Relationen zwischen den Komponenten gegeben sind, die aus dem Spezialfall Ax = ⃗0 folgen. Wie die Diskussion linearer Gleichungssysteme zeigen wird, l¨aßt sich aus diesen Bedingungen keine eindeutige L¨osung f¨ ur die aij ableiten.

70

Andererseits ist das Bild von f eine Linearkombination der Spalten von A, und damit folgt         x1 + 2x2 2 2 2          = x1  0  + x2  0  = ( x1 + x2 )  0  ,  1 0  x1 + x2   1   1  2  1  2 2 0 0 0 0 d.h. die Spalten von A haben die Form (2c, 0, c, 0)′ mit c ∈ R (Barrantes Campos (2012), p. 231).  Wenn also eine Matrix M ∈ Rm,n eine Abbildung definiert, so kann man fragen, ob sie injektiv, surjektiv oder bijektiv ist. Die Abbildung ist injektiv, wenn aus M x = u und Xy = v und u = v folgt, dass x = y ist, und aus u ̸= v folgt x ̸= y. Die Frage nach der Injektivit¨at ist also eine Frage nach der Eindeutigkeit der Abbildung. M definiert eine surjektive Abbildung, wenn f¨ ur jeden Vektor u ∈ Vn eine Vektor x ∈ Vm existiert derart, dass M x = u, d.h. die Frage nach der Surjektivit¨at ist die Frage, ob durch M alle Elemente von Vn bestimmt werden. M definiert eine bijektive Abbildung, wenn M eine sowohl injektive wie auch surjektive Abbildung definiert. Dies ist die Frage, ob eine surjektive Abbildung auch eindeutig ist. Offenbar h¨angen diese Eigenschaften von der Struktur der Matrix M ab. Was mit dem Begriff der Struktur einer Matrix genau gemeint ist, wird im Folgenden entwickelt. Beispiel 3.4 Es sei T =

(

t11 t12 t21 t22

)

( =

cos ϕ − sin ϕ sin ϕ cos ϕ

) .

(3.28)

T definiert eine Abbildung R2 → R2 : ( ) ( ) ( ) ( ) x1 cos ϕ + x2 sin ϕ cos ϕ sin ϕ y1 Tx = = x1 + x2 = . x1 sin ϕ − x2 cos ϕ sin ϕ − cos ϕ y2 T definiert die Rotation eines Vektors x um einen Winkel ϕ. Dadurch werden die Elemente von R2 auf Elemente von R2 abgebildet, – y ist ja wieder ein Element von R2 . Die Abbildung ist sicher injektiv und surjektiv, also bijektiv und damit umkehrbar, d.h. man kann einen Vektor y ∈ R2 w¨ahlen und in ”zur¨ uckdrehen”, so dass man wieder bei x landet. Die Abbildung bzw. Matrix, die diese inverse Rotation bewirkt, wird mit T −1 bezeichnet. 

Literatur [1] Eckart, C., Young, G. (1936), The approximation of one matrix by another of lower rank. Psychometrika, 1 (3): 211–8. doi:10.1007/BF02288367. 71

[2] Fischer, G.: Lineare Algebra. Braunschweig Wiesbaden 1997 [3] Hotelling, H. (1933). Analysis of a Complex of Statistical Variables Into Principal Components, Journal of Educational Psychology , 24, 417–441 und 498-520. (10.97/year) [4] Lorenz, F.: Lineare Algebra I, II. Mannheim, 1988 [5] Mardia, K.V., Kent, J. T., Bibby, J.M.: Multivariate Analysis. Academic Press, London, New York, Toronto 1979 [6] Pearson, K. (1901) On lines and planes of closest fit to systems of points in space, Philosophical Magazine, Series 6, 2(11), pp. 559-572.

72

Index Abbildung bijektiv, 68 Bild von, 67 homomorphe, 69 identische, 67 injektiv, 68 inverse, 67 isomorphe, 69 Kern einer, 68 lineare, 69 Rang der Abbildung, 70 surjektiv, 68 achsenparallel, 40 Automophismus, 69 Basis eines Vektorraums, 20 kanonische, 21 orthonormale, 21, 22 Basisentwicklung eines Vektors orthonormale, 23 Basisvektoren, 21 Cauchy-Schwarzsche Ungleichung, 12 Dimension, 24 dyadisches Produkt, 10 Ebenengleichung, 14 Eckart & Young Satz von, 59 Eigenvektoren, 38 Endomorphismus, 69 Faktorscore, 58 Faktorwerte, 56 Faser, 68 Gradientenvektor, 65 Hauptachsentransformation, 44 Homomorphismus, 69 Identit¨at, 67

Inverse, 34 Isomorphismus, 69 Kodimension, 24 kollinear, 17 Koordinaten bez¨ uglich einer Basis, 20 Koordinaten eines Vektors bez¨ uglich einer Basis, 20 l¨angeninvariant, 37 Ladungen, 56 Lagrange -Faktor, 65 -Funktion, 66 -Multplikator, 65 sche Multiplikatorenregel, 66 lineare H¨ ulle, 20 Matrix Diagonal-, 26 gest¨ urzte, transponierte, 25 Spaltenstandardisierung, 30 symmetrische, 26 Metrik City-Block, 5 euklidisch, 5 Manhattan, 5 Minkowski, 5 negativ semidefinit, 39 Normalenvektor, 14 Orientierungsinvarianz, 38 Orthogonalit¨at, 13 Orthonormalbasis (ONB), 21 orthonormale Basisentwicklung, 22 positiv semidefinit, 39, 43 Produkt ¨außeres, 10 inneres, 10 Projektion Vektor auf einen anderen, 59 73

Pythagoras, 11 quadratische Form, 39 Rang einer Kreuzproduktmatrix, 56 einer Vektormenge, 24 voller, 24 Rayleigh-Quotient, 47 Rohmatrix, 31 Rotation, 22, 27, 39, 53 Rotationsmatrix, 37 Satz von Courant-Fischer, 47 Singularvektoren, 55 Singularwerte, 55 Singularwertzerlegung, 55 Skalar, 10 Skalarprodukt, 10 Spaltenrang, 32 Spaltenraum, 70 Spaltenvektoren, 25 Spektraldarstellung, 45 Varianz-Kovarianzmatrizen dyadisches Produkt, 30 Vektor charakteristischer, 41 latenter, 41 Vektorabbildung, 27 Vektoren charakteristische, 38 Vektorraum n-dimensionaler, 21 Vektortransformation, 27 Wert charakteristischer, 41 latenter, 41 Zeilenrang, 32 Zeilenvektorten, 25 Zentrierungsmatrix, 30

74