Varianzanalyse (ANOVA)

Varianzanalyse (ANOVA) K. Molt Universit¨ at Duisburg-Essen, Fak. 4, FG Instrumentelle Analytik 7. Juni 2007 K. Molt (Fachgeb. IAC) 7. Juni 2007 1...
Author: Gertrud Arnold
6 downloads 1 Views 300KB Size
Varianzanalyse (ANOVA) K. Molt Universit¨ at Duisburg-Essen, Fak. 4, FG Instrumentelle Analytik

7. Juni 2007

K. Molt (Fachgeb. IAC)

7. Juni 2007

1/1

Einweg Varianzanalyse (einfaktorielle ANOVA)

Einweg-Varianzanalyse (einfaktorielle Varianzanalyse)

Die Einwege-Varianzanalyse erlaubt es uns mehrere Gruppen von Beobachtungen zu vergleichen, die alle unabh¨angig sind aber m¨oglicherweise unterschiedliche Mittelwerte besitzen. Die Beobachtungen stammen von unterschiedlichen Gruppen oder unterschiedlichen Behandlungen in einem Experiment. Wir klassifizieren in eine Richtung, und zwar gem¨aß Gruppe oder Behandlung.

K. Molt (Fachgeb. IAC)

7. Juni 2007

2/1

Einweg Varianzanalyse (einfaktorielle ANOVA)

Behandlung

Behandlungen werden auf experimentelle Einhheiten in unterschiedlichen Stufen angewendet, wobei Stufe“ Menge oder ” Gr¨oße impliziert. Wenn z.B den experimentellen Einheiten 5 mg, 10 mg, 15 mg eines Medikaments gegeben werden, w¨aren diese Mengen die drei Faktorstufen (oder einfach Stufen) der Behandlung. Der Begriff Stufe wird nicht nur f¨ur unterschiedliche Mengen ein und derselben Sache, sondern auch f¨ur kategorielle Variablen wie z.B. drei unterschiedliche Medikamente A, B und C verwendet.

K. Molt (Fachgeb. IAC)

7. Juni 2007

3/1

Einweg Varianzanalyse (einfaktorielle ANOVA)

Randomisierung Randomisierung ist das Verfahren, mit dem experimentelle Einheiten (die Objekte, mit denen Studien oder Experimente durchgef¨uhrt werden) dem Behandlungen zugeordnet werden. D.h. dies erfolgt durch ein Zufallsverfahren und nicht nach einem subjektiven und daher m¨oglicherweise voreingenommenen (biased) Ansatz. Die Behandlungen sollten den Einheiten dabei so zugeordnet werden, dass jede Behandlung auf jede Einheit gleich wahrscheinlich angwendet wird. Alternative Methoden k¨onnten zu verf¨alschten Ergebnissen (biased results) f¨uhren. Der Hauptpunkt dabei ist, dass Randomisierung dazu tendiert, Gruppen zu erzeugen, die vergleichbar sind, und das sowohl bez¨uglich bekannter wie auch unbekannter Faktoren, die m¨oglicherweise das Ergebnis auch u¨ber die eigentlich untersuchte Behandlung hinaus beeinflussen. Bei der Varianzanalyse (ANOVA mit F-Test) geht man davon aus, dass die Behandlungen nach einem solchen Zufallsverfahren angewendet worden sind. K. Molt (Fachgeb. IAC)

7. Juni 2007

4/1

Einweg Varianzanalyse (einfaktorielle ANOVA)

Faktor Ein Faktor eines Experiments ist eine kontrollierte unabh¨angige Variable, deren Stufen durch den Experimentator festgesetzt werden. Ein Faktor ist damit ein allgemeiner Typ oder eine Kategorie von Behandlungen. Unterschiedliche Behandlungen bilden die unterschiedlichen Stufen eines Faktors. Es w¨urden z.B. drei unterschiedliche Gruppen von L¨aufern unterschiedlichen Trainingsmethoden unterworfen. Dann sind die L¨aufer die experimentellen Einheiten und die Trainingsmethoden die Behandlungen wobei die drei Arten der Trainingsmethoden die drei Stufen des Faktors Trainingsmethode“ bilden. ”

K. Molt (Fachgeb. IAC)

7. Juni 2007

5/1

Einweg Varianzanalyse (einfaktorielle ANOVA)

Einfaktorielles Modell xij bezeichnet Beobachtung Nr. j in Gruppe i. x¯. ist das Gesamtmittel (Mittelwert aller Beobachtungen). Dann k¨onnen wir die Beobachtungen wie folgt zerlegen: xij = x¯. + (¯ xi − x¯. ) + (xij − x¯i ) Das entspricht folgendem Modell: Xij = µ + αi + ij , ij ∼ N(0, σ 2 ) Die Hypothese, dass alle Gruppen gleich sind impliziert, dass alle αi Null sind.

K. Molt (Fachgeb. IAC)

7. Juni 2007

6/1

Einweg Varianzanalyse (einfaktorielle ANOVA)

Einfaktorielles Modell Variation innerhalb der Gruppen (SSDW ) und zwischen den Gruppen (SSDW )

Die entsprechenden Variationen werden durch die Summe der Abweichungsquadrate beschrieben: XX SSDW = (xij − x¯i )2 i

SSDB =

XX i

(1)

j

(¯ xi − x¯. )2 =

j

SSDB + SSDW = SSDtotal =

X

ni (¯ xi − x¯. )2

(2)

i

XX i

(xij − x¯. )2

(3)

j

Die Gruppierung erkl¨art einen Teil der Gesamtvariation und offensichtlich wird eine informative Gruppierung einen großen Teil der Variation erkl¨aren. K. Molt (Fachgeb. IAC)

7. Juni 2007

7/1

Einweg Varianzanalyse (einfaktorielle ANOVA)

Mittlere Abweichungsquadrate

MSW = SSDW /(N − k) MSB = SSDB /(k − 1)

(4) (5)

k ist die Zahl der Gruppen und N die Gesamtzahl der Beobachtungen. Ein Test auf signifikante Unterschiede zwischen den Gruppenmittelwerten kann durchgef¨uhrt werden, indem man diese beiden Varianzen vergleicht. Deswegen heißt das Verfahren Varianzanalyse obwohl es das Ziel ist, Gruppenmittelwerte zu vergleichen.

K. Molt (Fachgeb. IAC)

7. Juni 2007

8/1

Einweg Varianzanalyse (einfaktorielle ANOVA)

Hypothesentest

F = MSB /MSW Die Nullhypothese ist, dass die beiden Mittelwerte identisch sind (d.h. es liegt keine Gruppierung vor). Die Nullhypothese wird verworfen, wenn F gr¨oßer ist als das 1 − α Quantil einer F-Verteilung mit den Freiheitsgraden k − 1 und N − k (einseitiger Test).

K. Molt (Fachgeb. IAC)

7. Juni 2007

9/1

Einweg Varianzanalyse (einfaktorielle ANOVA)

Beispiel

22 Patienten, die sich einer By-Pass-Operation unterzogen, wurden in eine der folgenden drei Beatmungsgruppen randomisiert: 1 Die Patienten erhielten eine Mischung aus 50% Stickoxid und 50% Sauerstoff kontinuierlich u¨ber 24 Stunden; 2 Die Patienten erhielten eine Mischung aus 50% Stickoxid und 50% Sauerstoff nur w¨ahrend der Operation; 3 Die Patienten erhielten kein Stickoxid, sondern 35-40% Sauerstoff u¨ber 24 Stunden.

K. Molt (Fachgeb. IAC)

7. Juni 2007

10 / 1

Einweg Varianzanalyse (einfaktorielle ANOVA)

Tabelle: Gehalte von Fols¨aure in roten Blutk¨orperchen (µg /l) in drei Gruppen von Bypass-Patienten, denen unterschiedliche Intensit¨aten einer Stickoxid-Beatmung verabreicht wurden (Amess et al., 1978).

Mittelw. Stdabw. K. Molt (Fachgeb. IAC)

Gruppe 1 Gruppe 2 Gruppe 3 (n=8) (n=9) (n=5) 243 206 241 251 210 258 275 226 270 291 249 293 347 255 328 354 273 380 285 392 295 309 316.6 256.4 278.0 58.7 37.1 33.8 7. Juni 2007

11 / 1

Einweg Varianzanalyse (einfaktorielle ANOVA)

> library(ISwR) > data(red.cell.folate) > red.cell.folate

1 3 5 7 9 11 13 15 17 19 21

folate ventilation 243 N2O+O2,24h 275 N2O+O2,24h 347 N2O+O2,24h 380 N2O+O2,24h 206 N2O+O2,op 226 N2O+O2,op 255 N2O+O2,op 285 N2O+O2,op 309 N2O+O2,op 258 O2,24h 293 O2,24h K. Molt (Fachgeb. IAC)

folate ventilation 2 251 N2O+O2,24h 4 291 N2O+O2,24h 6 354 N2O+O2,24h 8 392 N2O+O2,24h 10 210 N2O+O2,op 12 249 N2O+O2,op 14 273 N2O+O2,op 16 295 N2O+O2,op 18 241 O2,24h 20 270 O2,24h 22 328 O2,24h 7. Juni 2007

12 / 1

Einweg Varianzanalyse (einfaktorielle ANOVA)

> attach(red.cell.folate) > rcf rcf Call: lm(formula = folate ~ ventilation) Coefficients: (Intercept) ventilationN2O+O2,op 316.62 -60.18

K. Molt (Fachgeb. IAC)

ventilationO2,24h -38.62

7. Juni 2007

13 / 1

Einweg Varianzanalyse (einfaktorielle ANOVA)

> anova(rcf) Analysis of Variance Table Response: folate Df Sum Sq Mean Sq F value Pr(>F) ventilation 2 15516 7758 3.7113 0.04359 * Residuals 19 39716 2090 Die Variation zwischen den Gruppen wird nach dem gruppierenden Faktor ventilation benannt und die Variation innerhalb der Gruppen wird als Residuals bezeichnet. Die Freiheitsgrade (df) sind k − 1 und N − k.

K. Molt (Fachgeb. IAC)

7. Juni 2007

14 / 1

Paarweise Vergleiche und multiples Testen

summary(rcf) Call: lm(formula = folate ~ ventilation) Residuals: Min 1Q Median 3Q Max -73.625 -35.361 -4.444 35.625 75.375 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 316.62 16.16 19.588 4.65e-14 ** ventilationN2O+O2,op -60.18 22.22 -2.709 0.0139 * ventilationO2,24h -38.62 26.06 -1.482 0.1548

Residual standard error: 45.72 on 19 degrees of freedom Multiple R-Squared: 0.2809, Adjusted R-squared: 0.2052 F-statistic: 3.711 on 2 and 19 DF, p-value: 0.04359 K. Molt (Fachgeb. IAC)

7. Juni 2007

15 / 1

Paarweise Vergleiche und multiples Testen

Estimate Std. Error t value Pr(>|t|) (Intercept) 316.62 16.16 19.588 4.65e-14 ** ventilationN2O+O2,op -60.18 22.22 -2.709 0.0139 * ventilationO2,24h -38.62 26.06 -1.482 0.1548 Die Interpretation der Sch¨atzwerte (Estimate) ist, dass der Achsenabschnitt (Intercept) der Mittelwert der ersten Gruppe (N2O+O2,24h) ist, w¨ahrend die beiden anderen die Differenz zwischen der betreffenden Gruppe und der ersten beschreiben.

K. Molt (Fachgeb. IAC)

7. Juni 2007

16 / 1

Paarweise Vergleiche und multiples Testen

Paarweise Vergleiche

Der Effekt der Faktorvariablen wird in Form von Behandlungskontrasten ausgedr¨uckt, bei denen die erste Gruppe als Basislinie behandelt wird und die u¨brigen Gruppen relativ zu jener dargestellt werden. Dies basiert konkret auf einer multiplen linearen Regression, indem zwei Dummy-Variablen eingef¨uhrt werden, welche f¨ur Beobachtungen innerhalb der betreffenden Gruppe auf 1 und ansonsten auf 0 gesetzt werden.

K. Molt (Fachgeb. IAC)

7. Juni 2007

17 / 1

Paarweise Vergleiche und multiples Testen

Multiples Testen Wenn alle Gruppen miteinander verglichen werden sollen (nicht nur die erste mit der zweiten und dritten) k¨onnen z.B. mit pairwise.t.test alle m¨oglichen Zweigruppen-Vergleiche durgef¨uhrt werden: > pairwise.t.test(folate,ventilation) Pairwise comparisons using t tests with pooled SD data:

folate and ventilation

N2O+O2,24h N2O+O2,op N2O+O2,op 0.042 O2,24h 0.310 0.408 P value adjustment method: holm K. Molt (Fachgeb. IAC)

7. Juni 2007

18 / 1

Verzicht auf die Annahme gleicher Varianz f¨ ur alle Gruppen

Verzicht auf die Annahme gleicher Varianz fu¨r alle Gruppen

> oneway.test(folate~ventilation) One-way analysis of means (not assuming equal variances) data: folate and ventilation F = 2.9704, num df = 2.000, denom df = 11.065, p-value = 0.09277

K. Molt (Fachgeb. IAC)

7. Juni 2007

19 / 1

Verzicht auf die Annahme gleicher Varianz f¨ ur alle Gruppen

Verzicht auf die Annahme gleicher Varianz fu¨r alle Gruppen > pairwise.t.test(folate,ventilation,pool.sd=FALSE)

Pairwise comparisons using t tests with non-pooled data:

folate and ventilation

N2O+O2,24h N2O+O2,op N2O+O2,op 0.087 O2,24h 0.321 0.321 P value adjustment method: holm K. Molt (Fachgeb. IAC)

7. Juni 2007

20 / 1

Graphische Darstellung

Graphische Darstellung

> > > > > > >

xbar attach(heart.rate) > heart.rate

K. Molt (Fachgeb. IAC)

7. Juni 2007

31 / 1

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33

hr subj time 96 1 0 89 3 0 128 5 0 72 7 0 100 9 0 106 2 30 78 4 30 98 6 30 75 8 30 86 1 60 85 3 60 118 5 60 67 7 60 104 9 60 114 2 120 83 4 120 94 6 120

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34

hr 110 95 100 79 92 86 124 68 106 108 78 100 74 92 83 118 71

subj time 2 0 4 0 6 0 8 0 1 30 3 30 5 30 7 30 9 30 2 60 4 60 6 60 8 60 1 120 3 120 5 120 7 120

> heart heart Call: lm(formula = hr ~ subj + time) Coefficients: (Intercept) subj2 94.917 18.000 subj7 subj8 -22.000 -16.000

subj3 -5.750 subj9 11.500

intercept = xˆ11 = x¯1. + x¯.1 − x¯..

subj4 -8.000 time30 -4.000

subj5 30.500 time60 -5.444

subj6 6.500 time120 -4.222

> anova(heart) Analysis of Variance Table Response: hr Df Sum Sq Mean Sq F value Pr(>F) subj 8 8966.6 1120.8 90.6391 4.863e-16 *** time 3 151.0 50.3 4.0696 0.01802 * Residuals 24 296.8 12.4

Suggest Documents