Multivariate Lineare Modelle SS Varianzanalyse. 1. T -Statistiken. 2. ANOVA einfaktoriell. 3. ANOVA zweifaktoriell 4. MANOVA 5

Multivariate Lineare Modelle SS 2010 3 Varianzanalyse 1. T -Statistiken 2. ANOVA einfaktoriell 3. ANOVA zweifaktoriell 4. MANOVA 5. ANCOVA 1 3.1 T...
Author: Heidi Vogel
60 downloads 0 Views 199KB Size
Multivariate Lineare Modelle SS 2010

3 Varianzanalyse 1. T -Statistiken 2. ANOVA einfaktoriell 3. ANOVA zweifaktoriell 4. MANOVA 5. ANCOVA

1

3.1 T -Statistiken Varianzanalyse



kategorielle erklärende Variablen

Einfachste Situation: nur eine erklärende 0/1 Variable y metrisch, x dichotom Statistische Analyse: Zweistichproben T-Test: Beobachtungen von y zerfallen in zwei Gruppen (u1 , . . . , un1 )0 , (v1 , . . . , vn2 )0 , entsprechende Teststatistk u ¯ − v¯ 1 1 Q1 + Q2 2 T = mit sP = ( + ) sP n1 n2 (n1 + n2 − 2) P P 2 wobei Q1 = (ui − u ¯) und Q2 = (vj − v¯)2 . In beiden Gruppen wurde gleiche Varianz angenommen

2

T -Test im Kontext des GLM Theorie aus Kapitel 1 anwendbar für     1n1 0n1 µ , β =  u , y = Xβ + ε, X= 0n2 1n2 µv Beachte dass Design Matrix ohne Intercept, typisch für ANOVA βˆ = (X 0 X)−1 X 0 y = (¯ u, v¯)0 P 2 P 2 Qe = y 0 y − βˆ0 X 0 X βˆ = ui + vj − n1 u ¯2 − n2 v¯2 = Q1 + Q2

LSQ:

Hypothese: H0 : µu = µv

d.h. Cβ = 0 mit C = (1, −1)

βˆ0 = βˆ − (X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 C βˆ = und damit

F =

(n1 +n2 −2)(QC 0 −Qe ) Qe

=

(¯ u−¯ v )2 s2P

(n1 u ¯+n2 v ¯,n1 u ¯+n2 v ¯)0 n1 +n2

= T2

Übung: Führe die fehlenden Rechenschritte durch! 3

Hoteling’s T 2 Multivariate Verallgemeinerung der T-Verteilung: Seien z ∼ Nq (0, I), W ∼ Wq (I, n) unabhängig, dann heißt u = nz 0 W −1 z Hotelling T 2 -verteilt, T 2 (q, n). Es gilt T 2 (q, n) ∼

nq n−q+1 Fq,n−q+1

Vergleiche das Resultat für q = 1 mit der vorigen Folie Übung: Beweise, dass für beliebiges Σ gilt x ∼ Nq (µ, Σ), W ∼ Wq (Σ, n)



n(x−µ)0 W −1 (x−µ) ∼ T 2 (q, n)

Hinweis: Betrachte x∗ = Σ−1/2 (x − µ) und W ∗ = Σ−1/2 W Σ−1/2 4

T -Statistiken mit SAS Es gibt die Prozedur SAS PROC TTEST Einfache übersichtliche Prozedur zum Berechnen von Einstichproben- und Zweistichproben T-Test ansonten natürlich immer PROC GLM möglich Für Hotelling’s T 2 gibt es im SAS leider keine eigene Prozedur p-Werte für einen entsprechenden Test erhält man mit PROC GLM wie bei MANOVA (Test basiert auf Wilk’s Λ) Die eigentliche Teststatistik berechnet sich dann als 1 T = (n − 1)( − 1) Λ 2

Ein Beispiel folgt im Kapitel MANOVA 5

3.2 ANOVA einfaktoriell Zunächst klassische Behandlung der Varianzanalyse y metrisch, x kategoriell mit k Stufen Beispiel: y = Benzinverbrauch (in Liter pro 100 km) x = Automarke Frage: Unterschied des Benzinverbrauchs zwischen Marken? Messe Verbrauch von mehreren Autos pro Typ Modell:

yij = µi + εij

µi . . . Erwarteter Verbrauch von Marke i εij ∼ N (0, σ 2 ) . . . Abweichung vom Mittelwert des Verbrauchs bei Auto j von Marke i

6

Einfaktorielles Modell: Effektdarstellung yij = µ + αi + εij

Alternatives Modell: µ . . . Gesamtmittelwert,

αi . . . Effekt der MArke i

Für jede Marke Messungen

j = 1, . . . , ni

Falls für alle Marken i = 1, . . . , k gilt ni = n so spricht man von balanced Design (PROC ANOVA) Ansonsten kein ausgewogenes Design (PROC GLM) Effektdarstellung: µ und αi lassen sich nicht gleichzeitig schätzen Modell ist nicht identifizierbar (not identifiable) Lösung: zusätzliche Nebenbedingungen, z.Bsp.

k P i=1

Hypothesen:

H0 : α1 = · · · = αk = 0, 7

αi = 0

H1 : αi 6= 0 für ein i

Quadratsummen Klassische Varianzanalyse mit Tabelle (vgl. F -Test bei Regression) SSQ

df

MSQ

Faktor

Qa

k−1

Qa /(k − 1)

Residual

Qe

N −k

Qe /(N − k)

Qt = Qa + Qe

N −1

Total

Qa = Qe = Qt = N=

k P

ni (¯ yi. − y¯)2 ,

i=1 ni k P P

(yij − y¯i. )2 ,

i=1 j=1 ni k P P

(yij − y¯)2 ,

i=1 j=1 k P i=1

ni

F F =

SSQ zwischen Gruppen SSQ innerhalb der Gruppen SSQ gesamt

Gesamtanzahl der Beobachtungen

8

Qa /(k−1) Qe /(N −k)

Verteilungen Klassische Varianzanalyse mit Tabelle (vgl. F -Test bei Regression) SSQ

df

MSQ

Faktor

Qa

k−1

Qa /(k − 1)

Residual

Qe

N −k

Qe /(N − k)

Qt = Qa + Qe

N −1

Total

F F =

Qa /(k−1) Qe /(N −k)

Übung: Rechne nach, dass tatsächlich Qt = Qa + Qe ni P 1 Hinweis zur Notation: y¯i. = ni yij j=1

Unter der Voraussetzungen εij ∼ N (0, σ 2 ) gilt Qa /(k − 1) ∼ χ2k−1 , Qe /(N − k) ∼ χ2N −k , beide unabhängig daher ist Teststatistik F -verteilt mit entsprechenden Freiheitsgraden Übung: Verwende Satz von Cochran um Resultat zu beweisen 9

ANOVA im Kontext des GLM Modell: y = Xµ + ε, y  1 0n 1  n1   0n2 1n2 X=  ..  .  0nk

0nk

= (y11 , . . . , . . . , y1n1 , . . . , yk1 , . . . , yknk )0  . . . 0n1   . . . 0n2  0 , µ = (µ , . . . , µ ) , 1 k ..  .. . .   ...

1nk

Kodierung verwendet Dummyvariablen x1 , . . . , xk , d.h. xi = 1 für x = i, ansonsten xi = 0

(vgl. Kapitel 2.1 - T-test)

Gesamte Testtheorie des GLM kann so für ANOVA verwendet werden Übung: Kodierung der Effektdarstellung als GLM 10

Post Hoc Tests Klassischer F -Test für Overall-Hypothese H0 : µ1 = · · · = µk = µ,

H1 : ∃i s.d. µi 6= µ

Falls H1 dann Frage für welches i gilt µi 6= µ ¡k ¢ Führt auf 2 t−Tests ⇒ Multiples Testproblem Verschiedene Methoden (sowohl für Tests als auch CI) • Bonferroni . . . hier sicherlich zu konservativ • Tukey . . . Methode der Wahl, basiert auf studentized range max(z1 , . . . , zk ) − min(z1 , . . . , zk ) stud = S • Scheffe . . . Falls zusätzliche lineare Kontraste getestet werden sollen 11

Einfaktorielle ANOVA mit SAS Datensatz Auto.dat SAS-Programm: Bsp3.sas • Einlesen von ASCII Daten • Transformation von Datensatz in Format ’long’ • PROC BOXPLOT • Einfaktorielle ANOVA mit PROC ANOVA und PROC GLM • Post Hoc Tests Übung: Beispiel 3a (aus Kim und Timm) F -Test signifikant, aber keiner der üblichen Kontraste Diskutiere die Analysen mit PROC GLM Erkläre speziell die Contrast und Estimate statements! 12

3.3 ANOVA zweifaktoriell Zwei erklärende Faktoren (z. Bsp. Automarke und Fahrer) Zunächst wiederum klassisches Modell yijl = µ + αi + βj + (αβ)ij + εijl , Faktor A hat k Stufen: i = 1, . . . , k, Faktor B hat m Stufen: j = 1, . . . , m, Der Einfachheit halber betrachten wir balanciertes System, jede Zelle A = i, B = j hat genau n Beobachtungen: l = 1, . . . , n Somit insgesamt N = k ∗ m ∗ n Beobachtungen (αβ)ij . . . Interaktionsterm Modellvoraussetzung:

εijl ∼ N (0, σ 2 ) und unabhängig

13

Quadratsummen Klassische Varianzanalyse (ANOVA Tabelle ) SSQ

df

MSQ

F

Faktor A

Qa

k−1

Qa /(k − 1)

Faktor B

Qb

m−1

Qb /(m − 1)

WW AB

Qab

w = (k − 1)(m − 1)

Qab /w

Qa /(k−1) Qe /(N −km) Q /(m−1) Fb = Q b/(N −km) e Qab /w Fab = Q /(N −km) e

Residual

Qe

km(n − 1)

Qe /(N − km)

Total

Qt

N −1

Qa = mn Qab = n Qe =

k P

2

(¯ yi.. − y¯) ,

i=1 k P m P

Qb = kn

m P

Fa =

(¯ y.j. − y¯)2

j=1

(¯ yij. − y¯i.. − y¯.j. + y¯)2 ,

i=1 j=1 k P m P n P

i=1 j=1 l=1

2

(yijl − y¯ij. ) ,

Qt =

14

k P m P n P

(yijl − y¯)2

i=1 j=1 l=1

Verteilungen Übung: Es gilt wiederum Zerlegung der Quadratsummen Qt = Qa + Qb + Qab + Qe Verwendung des Satzes von Cochran liefert dass die Quadratsummen unabhängig χ2 -verteilt mit den entsprechenden Freiheitsgraden, und daher auch die Teststatistiken F -verteilt Fa und Fb testen Hypothesen für die beiden Hauptfaktoren H0A :

α1 = · · · = αk = 0,

H1A :

∃i s.d. αi 6= 0

H0B :

β1 = · · · = βm = 0,

H1B :

∃j s.d. βj 6= 0

Fab testet ob eine Wechselwirkung vorliegt

15

Wechselwirkung Keine Wechselwirkung:

yijl = µ + αi + βj + εijl

i fest ⇒ µi (j) = µ + αi + βj Für verschiedene i dann "parallele Streckenzüge" Wechselwirkung: Einfluss der Stufe i von Faktor A wechselt je nach Stufe j vom Faktor B (vgl. Beispiel 4) Klassische Vorgangsweise: • Teste zunächst auf Wechselwirkung • Falls (αβ)ij = 0 für alle i, j nicht abgelehnt wird, dann vereinfachtes Modell ohne WW • Ansonsten Tests für einfache Effekte (siehe unten) Klassische Quadratsummen entsprechen Type 2 SSQ im SAS 16

Einfache Effekte bei Wechselwirkung Vergleich von verschiedenen Stufen eines Faktors Unterscheidung zwischen Haupteffekten und einfachen Effekten • Haupteffekt (Main effect): Vergleich zwischen Mittelwerten über alle anderen Faktoren, e.g. y¯1.. − y¯2.. Bei vorliegender WW problematisch • Einfacher Effekt (Simple effect): Vergleich zwischen Mittelwerten für fixe Levels von anderen Faktoren, e.g. y¯1j. − y¯2j. Entsprechende F -Tests in SAS mit SLICE Option bei LSMEANS Statement

17

ANOVA im Kontext des GLM Modell: y = Xµ + ε, y = (y111 , . . . , y11n , . . . , y1m1 , . . . , y1mn , . . . , . . . ykm1 , . . . , ykmn )0 Kodierung in Effektdarstellung: ( k = m = 3 ) µ = (µ0 , α1 , α2 , β1 , β2 , αβ1,1 , αβ1,2 , αβ2,1 , αβ2,2 ) 0

B B B B B B B B B B X=B B B B B B B B B @

1n

1n

0n

1n

0n

1n

0n

0n

0n

1n

1n

0n

0n

1n

0n

0n

1n

0n

1n

1n

0n

−1n

−1n

−1n

0n

−1n

0n

1n

0n

1n

1n

0n

0n

1n

0n

0n

1n

0n

1n

0n

1n

0n

0n

0n

1n

1n

0n

1n

−1n

−1n

0n

−1n

0n

−1n

1n

−1n

−1n

1n

0n

−1n

−1n

0n

0n

1n

−1n

−1n

0n

1n

0n

0n

−1n

−1n

1n

−1n

−1n

−1n

−1n

1n

1n

1n

1n

Übung: Kodierung mit Dummyvariablen (ist einfacher!) 18

1 C C C C C C C C C C C, C C C C C C C C A

Zweifaktorielle ANOVA mit SAS Datensatz: Bsp. 1.2 von F.H. (S. 168) SAS-Programm: Bsp4.sas • Eingeben von Daten direkt in SAS (datalines) • PROC BOXPLOT (gruppierte Boxplots nicht elegant Verweis auf Macros) • PROC MEANS (Erstellung von Plots der Mittelwerte • PROC ANOVA vs. PROC GLM • Post Hoc Tests • SLICE Option

19

Problem bei Unbalanced Design Übung: Gegeben seien folgende Daten B=1

B=2

A=1

7; 9

5

A=2

8

4; 6

Vergleiche einerseits die Mittelwerte der Zellen y¯1j. mit y¯2j. Andererseits die Randmittelwerte y¯1.. und y¯2.. Basierend auf dem Modell berechne E(¯ y1.. ) − E(¯ y2.. )

yijk = µ + αi + βj + εijk

Schlussfolgerung: Klassische ANOVA testet in diesem Beispiel nicht H0 : α1 = α2 ˜ 0 : α1 + β1 /3 = α2 + β2 /3 sondern H 20

Tests auf einzelne Faktoren Unbalanced Design: Es spielt eine Rolle wie H0 formuliert wird 1. Ungewichteter Test: H0 : alle µi. sind gleich Verwendung: Anzahl der Beobachtungen pro Zelle zufällig 2. Gewichteter Test:

H0∗

: alle

k P j=1

nij ni. µij

sind gleich

Verwendung: Anzahl der Beobachtungen pro Zelle systematisch PROC REG: Explizite Formulierung dieser Nullhypothesen

Balanced Design: Kein Unterschied zwischen verschiedenen Formulierungen von H0

21

Restricted Models Modell mit WW: Unrestricted yijk = µij + εijk Modell ohne WW: Restricted durch Nebenbedingungen (Qab = 0) Hypothesentest, dass keine Interaktion: H0 : µij − µi0 j = µij 0 − µi0 j 0 ,

∀i 6= i0 , j 6= j 0

Beispiel k = 3, m = 2:  C=

 1

−1

0

−1

1

0

0

1

−1

0

−1

1



Für Restricted Model gibt C gerade die Restriktion • Dummy Codierung → Full Rank Model → PROC REG Codierung von Restriktion erfolgt explizit • Dummy Codierung → Less than Full Rank → PROC GLM Verschiedene Arten von SSQ (Type 1, Type 3, etc.) 22

PROC GLM: Type 1 SSQ Auch Sequential Sum of Squares Zerlegung der erklärten SSQ (Qa bzw. Qb ) entsprechend der Reihenfolge in der Faktoren ins Modell aufgenommen werden. Sei z. Bsp. Qt = Qa + Qb + Qe Type 1 SSQ für A:

Qt = SSQa + error (Einfaktorielles Modell)

Type 1 SSQ für B: Was wird zusätzlich durch Faktor B erklärt: SSQb = Qa + Qb − SSQa hängt von Reihenfolge der Faktoren ab Reduktionsschreibweise: Modell 1 mit p Faktoren x1 , . . . , xp Modell 2 nur mit den ersten s < p Faktoren Definition: R(βs+1 , . . . , βp |β0 , . . . , βs ) := Qr1 − Qr2 Übung: Zeige, dass Qr1 − Qr2 = Qe2 − Qe1 23

Type 1 vs. Type 3 SSQ Modell mit 3 Faktoren:

y = β0 + β1 x1 + β2 x2 + β3 x3 + ε

Reduktionsschreibweise: Faktor

Type 1

Type3

x1

R(β1 |β0 )

R(β1 |β0 , β2 , β3 )

x2

R(β2 |β0 , β1 )

R(β2 |β0 , β1 , β3 )

x3

R(β3 |β0 , β1 , β2 )

R(β3 |β0 , β1 , β2 )

Beispiel der vorvorigen Folie: Type 1 SSQ: R(A|µ) für Modell y = a, b, a ∗ b Type 1 SSQ: R(B|µ) für Modell y = b, a, a ∗ b Entsprechen den beiden gewichteten Tests

24

Type 1 vs. Type 3 SSQ Modell mit 2 Faktoren:

y = β0 + β1 xA + β2 xB + β3 xAB + ε

µ - Modell Schreibweise: Faktor A B

Type 1 m P j=1 k P i=1

A∗B

yijl = µij + εijl

n1j n1. µ1j

ni1 µi1 =

= ··· =

Type3 m P j=1

k P m P i=1 j=1

nkj nk. µkj

ni1 nij ni. µij , . . .

µij − µi0 j = µij 0 − µi0 j 0

µ1. = · · · = µk. µ.1 = · · · = µ.m µij − µi0 j = µij 0 − µi0 j 0 ,

Type 3 immer leicht interpretierbar Type 1 nur für Effekt A und A ∗ B leicht interpretierbar

25

Zweifaktorielle ANOVA mit SAS Zusätzlich Beispiele aus dem Buch von Kim und Timm Beispiel 4a (entspricht KT 3_3) • Unterscheidung zw. unrestricted und restricted GLM • Vergleich von PROC REG und PROC GLM • Diskussion von SAS Type 1 error und Type 3 error

Übung: Erkläre anhand des SAS Codes welche Tests mit PROC REG durchgeführt wurden, und warum diese mit den entsprechenden Tests der PROC GLM übereinstimmen. Entscheidend ist das Verständnis der Dummycodierung für die PROC REG 26

Nested design Zwei Faktoren, die sich in Hierarchie befinden, z. Bsp.: • Schule → Klasse • Kaufhauskette → Filiale • Übung → Gruppe SAS: i.e.

usw.

model y = a b(a) yijk = µ + ai + b(a)ij + εijk

Im wesentlichen funktioniert nested model genau so wie factorial model, allerdings wird faktor b nicht als main effekt geführt

Oft von Interesse: Test zwischen Stufen von Faktor a

27

Nested Design mit SAS Beispiel 4b (entspricht KT 2_9) • Beispiel für Nested Design • Diskussion von daraus folgenden Kontrasten (PROC GLM)

28

3.4 MANOVA Multivariate Varianzanalyse, zunächst einstufig (Verallgemeinerung von Hotelling T 2 ) y . . . q metrische Variablen x . . . kategorielle Variable (Faktor) mit k Stufen Beispiel: y: Benzinverbrauch, Beschleunigung, Abgaswerte x: Automarke Frage: Unterscheiden sich Merkmale zwischen Automarken Messungen aller y-Werte von mehreren (ni ) Autos pro Marke Modell:

yij = µi + ²ij

yij = (yij1 , . . . , yijq )0 . . . Vektor der j-ten Messung zur Stufe i µi = (µi1 , . . . , µiq )0 . . . Vektor der Mittelwerte ²ij = (εij1 , . . . , εijq )0 ∼ N (0, Σ) i.i.d. 29

MANOVA im Kontext des GLM Völlig analog zur einfaktoriellen ANOVA:

y = Xµ + ε

Bilde Design-Matrix wie für ANOVA, allerdings sind y und µ nun keine Vektoren sondern Matrizen – laut voriger Folie sind yij und µi ja Vektoren der Dimension q y = (y11 , . . . , . . . , y1n1 , . . . , yk1 , . . . , yknk )0   1 0n1 . . . 0n1   n1    0n2 1n2 . . . 0n2  0 , µ = (µ , . . . , µ ) , X= 1 k ..   .. ..  .  . .   0nk

0nk

...

1nk

Verwende Theorie des multivariaten GLM Overall Test mit Wilk’s Λ (oder Roy’s θ, etc.) an Stelle von F -Test

30

Test auf Gleichheit der Effekte (Overall Test) H0 : die Mittelwerte aller Messungen sind jeweils identisch H0 :

µ1 = · · · = µk ,

H1 :

∃ i, j, r : µir 6= µjr

Streumatrizen (SM) als multivariate Verallgemeinerung von SSQ B(=Q ˆ a) =

k X

ni (¯ yi. − y¯)(¯ yi. − y¯)0

Zwischen-Gruppen SM

i=1

W (=Q ˆ e) =

ni k X X

(yij − y¯i. )(yij − y¯i. )0

Inner-Gruppen SM

i=1 j=1

T (=Q ˆ t) =

ni k X X

(¯ yij − y¯)(yij − y¯)0

Gesamt SM

i=1 j=1

T =B+W

Wie im eindimensionalen gilt: 31

Verteilung der SM Voraussetzung: ²ij = (εij1 , . . . , εijq )0 ∼ N (0, Σ) i.i.d. Unter H0 sind SM Wishart-verteilt (vgl. Kapitel 1.2) W ∼ Wq (Σ, N − k),

B ∼ Wq (Σ, k − 1)

wobei W und B unabhängig (vgl. Freiheitsgrade von ANOVA!) Teststatistiken für Overall-Test analog zur Regression: • Wilk’s Λ:

|W |/|B + W |

• Roy’s θ :

Größter EW von (B + W )−1 B

• Lawley - Hotelling trace:

U=

k P i=1

• etc.

32

λi

MANOVA Tabelle Λ bzw. θ

SM

df

Zwischen

B

k−1

Innerhalb

W

N −k

T =B+W

N −1

Total

|W |/|B + W | =

Q

(1 + λj )−1

θ = λ1 /(1 + λ1 )

Λ und θ ergeben sich einfach als Spezialfall der allgemeinen linearen Hypothese für multivariate Regression Weitere Themen: • Berechnung von allgemeinen Kontrasten wie in Kapitel 1.2, siehe auch Timm (Mult. Ana.): MANOVA im Rahmen der GLM • Post Hoc Tests: nicht so standardisiert wie bei ANOVA, auch in SAS nicht implementiert (siehe aber Kim und Timm) • Zusammenhang mit Diskriminanzanalyse 33

Beispiel MANOVA mit SAS SAS-Programm: Bsp8.sas (Bsp. 9.2 von SAS for Linear Models (Littel, Stroup, Freund) • MANOVA mit SAS PROC GLM • Speziell MANOVA statement, • Contrast für MANOVA (speziell Hotelling’s T 2 )

34

3.5 ANCOVA / MANCOVA Analysis of Covariance: Mischung aus Regression und ANOVA y . . . metrische Variable x, z . . . k kategorielle und r metrische Faktoren y = Xµ + Zγ + ²

Modell ohne Wechselwirkung:

X . . . N × p - Designmatrix der qualitativen Faktoren Bildung der Designmatrix wie bei ANOVA im GLM Z . . . N × r - Matrix der quantitativen Faktoren (Kovariablen) Voraussetzungen: • X und Z jeweils vollen Rang p bzw. r und linear unabhängig • εij ∼ N (0, σI) Einfachster Spezialfall: k = r = 1, 35

yij = µi + γzij + εij

Ziele der ANCOVA - Untersuchung Regressionsanalytische Fragestellungen: 1. Interesse an Homogenität der γi : yij = µi + γi zij + εij γi = γ unabhängig von Gruppe ⇒ keine WW Sollte vor jeder ANCOVA überprüft werden 2. Falls γ = 0



kann Kofaktor vernachlässigen

Varianzanalytische Fragestellung: Falls γi = γ: Gibt es Unterschiede zwischen Gruppen? Kofaktoren dienen im wesentlichen dazu, um Präzision zu erhöhen (Berücksichtigung von Faktoren, die im Versuchsdesign nicht kontrolliert werden konnten) Problem zu Beginn bereits als GLM formuliert Typisch für ANCOVA: zweistufige LS-Schätzung 36

Zweistufige LS-Schätzung Motivation:

y˜ := y − Zγ = Xµ + ε

Schritt 1: Schätze µ ˆ = (X 0 X)−1 X 0 y ⇒

(klassische ANOVA)

RSS = (y − X µ ˆ)0 (y − X µ ˆ) = y 0 P y

Schritt 2: Schätze γ: Ersetze y durch y − Zγ und minimiere RSS ⇒

γˆ ∗

= (Z 0 P Z)−1 Z 0 P y



µ ˆ∗

= (X 0 X)−1 X 0 (y − Z γˆ ∗ )

Und die Residuenquadratsumme für das Gesamtmodell lautet Qe = (y − Z γˆ ∗ )0 P (y − Z γˆ ∗ ) ∼ χ2 (N − p − r) Vergleich mit RSS zeigt, wie weit Kofaktor Modell verbessert

37

Bemerkungen LSMEANS: Adjusted treatment means (aus Modell geschätzt) µ ˆ∗i + γˆ ∗ z¯ = y¯i. − γˆ ∗ (z¯i. − z¯) Wie bei ANOVA wiederum die Möglichkeit für PostHoc Tests Speziell Methode von Scheffé MANCOVA: Übliche Vorgangsweise um GLM für multivariates y zu verallgemeinern: • Streumatrizen anstelle von Quadratsummen • Wilk’s Λ an Stelle von F -Test • etc. SAS PROC GLM wiederum mit Befehl MANOVA 38

Ausblick Mixed Models Bisher hatten kategorielle Variablen immer feste Effekte Im Gegensatz dazu stehen zufällige Effekte: Faktorstufe repräsentiert Auswahl aus größerer Gesamtheit y . . . metrische Variable x, z . . . jeweils kategorielle Faktoren Mixed Model:

y = Xµ + Zγ + ²

X . . . Designmatrix der festen Faktoren Z . . . Designmatrix der zufälligen Faktoren γ . . . Vektor der unbekannten zufälligen Effekte im Gegensatz dazu ist µ ein Vektor von festen Zahlen Wesentlich kompliziertere Theorie als GLM SAS PROC MIXED 39

ANCOVA mit SAS Datensatz KT_2_10.DAT SAS-Programm: Bsp7.sas • Testen auf Wechselwirkung • Eigentliche ANCOVA • Post Hoc Tests (LSMEANS) MANCOVA mit SAS Zusätzlich Beispiel 5_12_1 aus Kim und Timm: Datensatz KT_5_12.DAT SAS-Programm: Bsp7a.sas 40

Suggest Documents