Klassifikation von Signifikanztests • nach Verteilungsannahmen: – verteilungsabh¨angige
= parametrische Tests
– verteilungsunabh¨angige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen u¨ber die Verteilung gemacht (z.B. NV) und Hypothesen u¨ber Parameter dieser Verteilung getestet. Bei nichtparametrischen Tests wird dagegen keine spezielle Verteilung vorausgesetzt (aber gegebenenfalls Voraussetzungen wie: ”stetige Verteilung”) – i.a. weniger m¨achtig, d.h. Unterschiede werden seltener aufgedeckt (H0 seltener abgelehnt) aber: – schw¨achere Voraussetzungen im Modell (bei Ablehnung Aussage u¨ber Population zuverl¨assiger) • nach der Anzahl der Stichproben: eine, zwei, k Stichprobe(n), Einstichprobenprobleme, . . . Einstichprobenprobleme: – der einfache t-Test – der Gauß-Test
1
• Art der Erhebung der Stichproben (abha¨ngig oder unabh¨angig): abh¨angige (gepaarte, verbundene) Stichprobe 2 (oder mehr) ZV X, Y u¨ber der Grundgesamtheit → n Versuche
ω → (X, Y )
(X1, . . . , Xn), (Y1, . . . , Yn) verbundene Stichproben An jedem Objekt werden mehrere Merkmale untersucht. Beispiele: – Blutdruck von Patienten vor und nach einer Behandlung mit einem Medikament – Einkommen einer Person in den Jahren 1996, 2000, 2002 – Bildung und Einkommen einer Person Unabha¨ngige Stichproben Zufallsvariablen X, Y u¨ber der Grundgesamtheit n1 + n2 Versuche;
X1, . . . , Xn1 , Y1, . . . , Yn2
(X1, . . . , Xn1 ), (Y1, . . . , Yn2 ) unabh¨angige Stichproben An jedem Objekt nur ein Merkmal untersucht. Beispiele: – Blutdruck von Patienten aus zwei unterschiedlich behandelten Gruppen mit unterschiedlichen Personen – Einkommen von M¨annern, Einkommen von Frauen
2
Einstichprobenprobleme Gauß-Test Der einfache t-Test Der Binomialtest (Einstichprobenproblem, nichtparametrisch) Anliegen: A ein zuf¨alliges Ereignis mit P (A) = p, p ∈ [0, 1], ¨ unbekannt. Uberpr u¨fung einer Hypothese u¨ber p anhand von n unabha¨ngigen Versuchen Die mathematische Stichprobe (X1, X2, . . . , Xn) beschreibt, in welchen der n Versuche das Ereignis A eingetreten ist (vgl. Bernoulli-Schema). ( 1 , falls A eingetreten X = 0 , falls A nicht eingetreten 1. Hypothesen: H0 : p = p0 HA : p 6= p0 (bei zweiseitiger Fragestellung) 2. Testgr¨oße: T =
n X
Xi = Hn(A)
i=1
T ∼ B(n; p)
binomialverteilt
3. H0 wird abgelehnt, wenn t < bα1 oder t > b1−α2 . bα1 , b1−α2 . . . Quantile der BV: B(n; p0) α = α1 + α2 . . . Signifikanzniveau. (In der Regel α1 = α2.) 3
Bemerkung zu großen n: Fu¨r große n sind die Quantile der BV ohne Computer kompliziert zu berechnen. gute Approximation durch die Normalverteilung; es gilt fu¨r Hn ∼ B(n; p) und große n (n > 30, n·p > 5, n·(1−p) > 5): Hn − n · p
T = p
n · p · (1 − p)
ist n¨aherungsweise N (0, 1)-verteilt, also fu¨r diese Testgr¨oße das entsprechende kritische Gebiet des Gauß–Tests benutzen Vereinbarung: Wir werden den Binomialtest immer so durchfu¨hren: 1. Hypothese:
H0 : p = p0
2. Testgr¨oße: H n − n · p0 T = p n · p0 · (1 − p0) 3. Ablehnung von H0, falls bei zweiseitiger Alternative HA :
p 6= p0
|t| > z1− α2
einseitiger Alternative HA :
p < p0
t < −z1−α
HA :
p > p0
t > z1−α
4
Beispiel: ”Losverk¨aufer” Hypothesen H0 : p = 0, 1 HA : p < 0, 1 (einseitige Fragestellung) Testgro¨ße:
(zwei Gewinnlose)
2 − 100 · 0, 1 8 t = √ = − = −2, 67 < −1, 64 = −z0,95 3 100 · 0, 1 · 0, 9 Ablehnung von H0. Im Lostopf sind signifikant zu wenige Gewinnlose. Weitere Diskussion dieses Beispiels → Internet
5
Zweistichprobenprobleme Der χ2-Homogenit¨atstest Anliegen: Vergleich der Verteilungen zweier unabh¨angiger Stichproben fu¨r (kategoriale) Daten, nichtparametrischer Test Die Variablen X und Y nehmen jede nur r diskrete Werte an. Die zuf¨alligen H¨aufigkeiten des Auftretens dieser Werte werden fu¨r beide Stichproben ermittelt und in folgende Tabelle eingetragen. Kategorie Stichprobe 1 (X) Stichprobe 2 (Y ) Σ 1
N11
N12
N1•
2
N21
N22
N2•
...
...
...
...
r P
Nr1
Nr2
Nr•
N•1
N•2
N•• = N
Hypothesen: H0 : pi1 = pi2, i = 1, . . . , r (Verteilungen sind identisch.) HA : pi1 6= pi2 fu¨r mindestens ein i Dabei ist: pi1 = P (X = xi), pi2 = P (Y = xi)
6
Testgr¨oße: µ T =
Nij 2 X r X j=1 i=1
Ni•N•j − n Ni•N•j n
¶2
H0 wird abgelehnt, wenn t > χ2r−1,1−α Bemerkungen: • Der konkrete Wert der Testgr¨oße ist der χ2–Wert fu¨r die Stichprobe. • Stichprobenumfang n insgesamt sollte mindestens 60 betragen. • Die erwarteten H¨aufigkeiten davon sollten > 5 sein.
7
Ni•N•j sollten > 1 und 80% n
Beispiel: ALLBUS, Einkommensquelle nach Geschlecht H0 bedeutet, die Einkommensquellen sind in beiden SP gleich verteilt, d.h. die %-Werte in jeder Zeile sind Sch¨atzungen fu¨r die gleiche Wahrscheinlichkeit.
Bemerkung: Interpretiert man die Zugeh¨origkeit zu einer der Stichproben (= Geschlecht) als ein beobachtetes Merkmal des Probanden, dann entspricht die obige Hypothese der Hypothese: ”Die Zufallsvariablen X (fu¨r Einkommensquelle) und Y (fu¨r Geschlecht) sind unabh¨angig.” Je nach Interpretation der Kontingenztafel testen wir also entweder, ob sich die verschiedenen Stichproben etwa gleich zusammensetzen (Homogenita¨t) oder, ob die Einkommensquelle vom Geschlecht abh¨angt (Unabh¨angigkeit).
8
Der doppelte t-Test, parametrisch ¨ Anliegen: Uberpr u¨fung von Hypothesen u¨ber die Gleichheit der Erwartungswerte zweier unabh¨angiger normalverteilter ZV bei unbekannten, aber gleichen Varianzen (Varianzhomogenita¨t), parametrischer Test Voraussetzungen: (X1, . . . , Xn), (Y1, . . . , Ym) unabh¨angige Stichproben 2 Xi ∼ N (µX , σX ),
i = 1, . . . , n
Yj ∼ N (µY , σY2 ),
j = 1, . . . , m
2 σX = σY2 unbekannt
Hypothesen: H0 : µX = µY
HA : µX 6= µY 1) µX < µY 2) µX > µY 3)
2. Testgr¨oße T =r
¯ − Y¯ X 2 (n − 1)SX + (m − 1)SY2 n+m−2
Ablehnung von H0, falls |t| > tn+m−2, 1− α2 bei 1) t < −tn+m−2,
1−α
bei 2)
t >
1−α
bei 3)
tn+m−2,
9
r ·
nm n+m
Beispiel: ALLBUS, monatliches Haushalts–Nettoeinkommen nach Geschlecht Vergleich der Erwartungswerte fu¨r die Zufallsvariablen X und Y , die das monatliche Haushaltsnettoeinkommen von Frauen bzw. M¨annern beschreiben. X und Y unabh¨angig, µX = EX, µY = EY X und Y seien normalverteilt, Varianzen sind unbekannt. α = 0, 05 Bemerkung: NV sicher keine gute Modellannahme, ¯ und Y¯ sind aber n¨aherungsweise normalverteilt (ZGWS). X H0 :
µX = µY
HA :
µX < µ Y T = r
¯ Y¯ X,
”Durchschnitts-HH-Nettoeinkommen gleich” ”M¨anner verdienen mehr” ¯ − Y¯ X 2 (n − 1)SX + (m − 1)SY2 n+m−2
r ·
nm n+m
. . . arithmetisches Mittel der SP
2 SX , SY2 . . . empirische Varianz der SP
n, m
. . . Stichprobenumfang der SP X1, . . . , Xn, Y1, . . . , Ym
10
T = r
¯ − Y¯ X 2 (n − 1)SX + (m − 1)SY2 n+m−2
r ·
nm n+m
Wenn H0 richtig ist, dann gilt: T ist t-verteilt mit n + m − 2 = 1349 Freiheitsgraden. fu¨r die konkrete Stichprobe:
t = r
2473, 08 − 2796, 34 749 · 1376, 2292 + 600 · 1359, 3362 750 + 601 − 2
r
750 · 601 750 + 601
= −4, 314 vergleiche mit: −t1349, 0.95 = −1.64 −4, 314 < −1.645 H0 wird abgelehnt und entschieden: ”Das Durchschnitts-HH-Nettoeinkommen von M¨annern ist signifikant h¨oher als das von Frauen.”
11
Diskussion des Beispiels: α tα 0.000003 -4.55
* ↓ dα 340.95
Ablehnung von H0 nein
0.0000086
-4.314
323
0.0005
-3.29
246.53
ja
0.01
-2.33
174.60
ja
0.025
-1.86
139.38
ja
0.05
-1.64
122.89
ja
*) dα . . . die Differenz der Mittelwerte, die (bei gleichem n, m, sX , sY !) genu¨gt, um H0 abzulehnen. Der Wert 0.0000086 heißt p-Wert oder Signifikanz. Stichprobenumf¨ange n, m: ¨ einleuchtend: gr¨oßere n und m erh¨ohen die Uberzeugungskraft einer beobachteten Abweichung (α = 0.05, α = 0.01) d0.05 1 003
d0.01 1425
100
317
451
1 000
100
142
10 000
32
45
100 000
10
14 Wo beginnt es unsinnig zu
1 000 000
3
5 werden? Fast alle Gehalts-
10 000 000
1
1,43 angaben im Datensatz sind auf
20 000 000
0,71
1,00 volle 100DM-Betr¨age gerundet!
n=m= 10
12