Grundlagen der Biostatistik und Informatik

Vergleich von mehreren Stichproben Grundlagen der Biostatistik und Informatik Hypothesenprüfungen III. ANOVA, Nichtparametrische Methoden dr László S...

Author: August Schräder

7 downloads 2 Views 344KB Size

Report

Download PDF

Recommend Documents

Biostatistik, SS 2016 Grundlagen aus der Wahrscheinlichkeitstheorie

Grundlagen der Informatik Theoretische Informatik

Grundlagen der Theoretischen Informatik

Grundlagen der Technischen Informatik

Theoretische Grundlagen der Informatik

Grundlagen der Informatik

Grundlagen der Theoretischen Informatik

Erweiterungscurriculum Grundlagen der Informatik

Grundlagen der Theoretischen Informatik

Theoretische Grundlagen der Informatik

Grundlagen der Theoretischen Informatik

Grundlagen der Informatik

Grundlagen der Technischen Informatik

Grundlagen der Informatik

Grundlagen der Informatik II

Grundlagen der Informatik 2

Grundlagen der Informatik III

Logische Grundlagen der Informatik

Grundlagen der Informatik 2011

Vergleich von mehreren Stichproben

Grundlagen der Biostatistik und Informatik Hypothesenprüfungen III. ANOVA, Nichtparametrische Methoden dr László Smeller Semmelweis Universität 2013

2

Bonferroni - Problem

Vergleich von mehreren Stichproben

Vergleich von mehreren Stichproben Paarweise Vergleichungen: - Hohe Wahrscheinlichkeit des Fehlers von 1. Art - z.B.: 10 Stichproben, 45 Vergleichungen alle mit 5% Irrtumswahrscheinlichkeit Gesamtirrtumsw.:→ 1-(1-0,05)45=90,0% Parametrische Methode: 3

ANOVA (ANalysis Of VAriance) 4

ANOVA Vorbedingungen: – Unabhängigkeit der Stichproben – Normalverteilung – Gleiche Streuungen H0: Alle Stichproben stammen aus der selben Grundgesamtheit H1: Mindestens eine Stichprobe stammt aus einer anderen Grundgesamtheit 6

5

ANOVA

ANOVA

Wenn H0 gültig ist, sollen die Streuungen zwischen den Stichproben und innerhalb der Stichproben dieselbe sein.

h Stichproben H0: μ1 = μ2 = ... μh Zwei unabhängige Varianzschätzungen: Varianz innerhalb der Stichproben: Si2 Varianz zwischen den Stichproben: Sg2 Wenn Si2 170 Tage zu 50% Wahrsch. < 170 Tage zu 50% Wahrsch.20

Vorzeichentest: Annäherung bei n > 20

Vorzeichentest: Anwendung der Binomialverteilung Bei Gültigkeit der H0 gibt diese Tabelle die Wahrscheinlichkeit der entsprechenden Fällen:

Anzahl der Ratten mit Anzahlvon vonKopf Kopf Anzahl Überelebenszeit > 170 Tage

Anzahl von Ratten 1

2

3

0

50.0%

25.0%

12.5%

1

50.0%

50.0%

37.5%

25.0%

37.5% 12.5%

2 3 4

4

5

6

7

8

9

10

6.3%

3.1%

1.6%

0.8%

0.4%

0.2%

0.1%

25.0%

15.6%

9.4%

5.5%

3.1%

1.8%

1.0%

37.5%

31.3%

23.4%

16.4%

10.9%

7.0%

4.4%

25.0%

31.3%

31.3%

27.3%

21.9%

16.4%

11.7%

6.3%

15.6%

23.4%

27.3%

27.3%

24.6%

20.5%

3.1%

9.4%

16.4%

21.9%

24.6%

24.6%

1.6%

5.5%

10.9%

16.4%

20.5%

0.8%

3.1%

7.0%

11.7%

0.4%

1.8%

4.4%

0.2%

1.0%

5 6 7 8 9

Binomialverteilung ⎛n⎞ pk = ⎜⎜ ⎟⎟ p k q n − k ⎝k ⎠

10

μ = 0.5 ⋅ n

G(k)

Siehe: Binomialverteilung:

σ = 0.25 ⋅ n

μ = p⋅n

σ = p⋅q⋅n

95% μ−1,96σ

μ

μ+1,96σ

k

z. B. 100 Patienten, 56 Verbesserungen, 34 Verschlechterungen Η0: ?; μ0=? μ = ?; σ = ?; Entscheidung? Analogie zu Einstichproben t-Test

0.1%

Irrtumswahrscheinlichkeit=5% (2,5%+2,5%)

Annäherung bei n > 20 mit Normalverteilung:

21

(Lösung: 56+34=90 μ=45 σ =Wurzel(90/4)=4,74 μ+1,96*σ=45+9,3=54,3 signifikant (5% Irrt.w.)!

Prinzip der Rang Teste

22

Rang Test Methode – Verbundene Ränge

Rang: Position eines Wertes innerhalb einer nach der Größe sortierten Wertereihe

Wenn zwei oder mehrere ursprüngliche Daten gleich sind:

z.B. Kopfschmerzen:

originale Daten

3, 7, 1, 13, 13, 16

geordnete Daten

1, 3, 7, 13, 13, 16

Ränge

1, 2, 3, 4.5, 4.5, 6

Verbundene Ränge: 1

2

3

4

die bekommen den Durschnittsrang

5

Mit Hilfe der Ränge führt man eine Gleichverteilung ein!

23

24

Eine Stichprobe: Wilcoxon-Vorzeichen Rangtest

Durchschnitt der Ränge In steigende Reihe geordnete Daten: x1 , x2 ... x(n-1)/2 , x(n+1)/2 …. xn-1 ,xn Ränge: 1, 2 … (n-1)/2 (n+1)/2 … n-1, n (n ist ungerade) n Durchschnitt der Ränge: R = 1 ∑ i = 1 n(n + 1) = n + 1 n i =1 n 2 2

Eine Stichprobe (Gepaarte Test) Ordinale Daten Ist der Median der Datenreihe gleich Null? (oder ein bestimmter Wert)?

Durchschnittlicher Rang = Rang des Medians

Die Ränge bekommen Vorzeihen.

Wenn n ist gerade: Median= (xn/2 +xn/2+1)/2 Durchschnittlicher Rang= (n+1)/2

Wenn die Nullhypothese gültig ist, es sind gleich viele und gleich große positive und negative Ränge, Durchschnitt der Ränge ist Null!

H0: Der Median der Daten ist Null (oder ein bestimmter Wert).

Der Durchschnitt der Ränge wird geprüft. Rangteste testen den Median!

26

25

Wilcoxon Vorzeichen Rangtest: Beispiel der Überlebenszeiten der Ratten

Wilcoxon-Vorzeichen Rangtest: Einführung mit einem Beispiel

Der Durchschnitt folgt einer Normalverteilung, wenn genug viele Daten sind (Zentraler Grenzwertsatz) Anwendung der t-Verteilung (Annäherung!):

Überlebenszeit der Ratten: 168, 150, 280, 221, 230, 165, 179, 250, 195, 276 Ist der Median der Überlebenszeiten unterschiedlich von 170 Tage? H0: Der Median der Überlebenszeiten beträgt 170 Tage. Überlebenszeitenunterschiede der Ratten im Vergleich zur 170 Tage: -2, -20, +110, +51, +60, -5, +9, +80, +25, +106 Geordnet nach Betrag der Änderung: -2, -5, +9, -20, +25, +51, +60, +80, +106, +110, Ränge (nach betrag der Änderung): 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Ränge mit Vorzeichen: -1, -2, +3, -4, +5, +6, +7, +8, +9, +10

t n−1 = Freiheitsgrad

R s n

Durchschnitt der Ränge Standardabweichung der Ränge Anzahl der Daten

Entscheidung: wie beim Einstichproben t-Test

Ränge mit Vorzeichen: -1, -2, +3, -4, +5, +6, +7, +8, +9, +10

t9 =

Durchschnitt: 4.10 Standardabw.: 4.91 27

4,10 = 2,64 4,91 / 10

t9;5%=2,26 (aus der Tabelle)

t9>t9;5%

Durchschnitt: 4.10 Standardabw.: 4.91 H0 is abgelehnt

p < 5% (mit Excel)

28

Vergleich von zwei Stichproben

vermutlich kein Unterschied

vermutlich unterschiedliche Stpr.

In steigende Reihe geordnet:

Ränge: 1

2

3

4

5

6

7

8

9

29

1

2

3

4

5

(Auch als Wilcoxon Rank Summe Test genannt) Vergleich von zwei Stichproben (n1, n2) H0: Die zwei Stichproben stammen aus der selben Grundgesamtheit 1. Zuordnung der Ränge der in den zwei zusammengeordneten Stichproben.

μ=

n1 (n1 + n2 + 1) 2

4

5

6

7

8

2. Bestimmung die Summen der Ränge in eine Gruppe: T1. T1= 1+2+5+7+9=24

9

30

σ = n1n2 (n1 + n2 + 1) / 12 z=

3

8

Bei Gültigkeit der Nullhypothese folgen die Daten der Gruppe 1 eine Gleichverteilung, mit möglichen werten von 1…n1+n2) Erwartungswert und die theoretische Streuung von T1 können berechnet werden:

f(z) 2

7

Mann – Whitney U Test: Annäherung

Mann – Whitney U Test (Annäherung)

Ränge: 1

6

95%

9 −1,96 31

0

T1 − μ

σ

=

n1 (n1 + n2 + 1) 2 n1n2 (n1 + n2 + 1) 12

T1 −

z folgt eine Standard-Normalverteilung (wenn H0 gültig ist) z +1,96

z.B. T1=24, n1=5, n2=4 => z = -0,245 => H0 wird angenommen

32

Bemerkung: Vergleich von Hypothesenprüfungen und Schätzungen

Kruskal – Wallis Test • Vergleich von mehreren Stichproben • Mit unbekannter Verteilung der Daten

zB.: Blutdrucksenker: Blutdruckänderungen (mmHg): -13, 5, -29, -22, 13, -8, -19, -12 Durchschnitt: -10,625 mmHg Standardfehler: 4,917 mmHg Schätzung: Konfidenintervall: x ± 2 s x -10,6±9,8 mmHg -20,4 … – 0,8 mmHg enthält Null nicht! => Blutdrucksänkender Effekt! t-Test: t = -10,625/4,917=-2,161 |t|