4 Testen von Hypothesen

4 Testen von Hypothesen Oft m¨ ussen zweiwertige Entscheidungen ( Ja“ oder Nein“) gef¨allt werden. Denken wir an ” ” die elektronisch gesicherten Wa...
Author: Barbara Krüger
63 downloads 2 Views 338KB Size
4

Testen von Hypothesen

Oft m¨ ussen zweiwertige Entscheidungen ( Ja“ oder Nein“) gef¨allt werden. Denken wir an ” ” die elektronisch gesicherten Waren, wo am Ausgang eines Gesch¨aftes durch eine Maschine gepr¨ uft wird, ob eine nicht bezahlte Ware mitgenommen wird oder nicht. D. h., es wird automatisch die Hypothese Ware vollst¨andig bezahlt“ gegen die Alternative unbezahlte ” ” Ware vorhanden“ getestet. Da die vorliegende Information, die die Testvorrichtung erh¨alt, zu gering ist, kann es zu Fehlentscheidungen kommen. Es k¨onnen zwei Arten von Fehlern auftreten: bezahlte Ware als nicht bezahlt gemeldet (Fehlalarm)“ – wir nennen dies einen ” Fehler der 1. Art – oder nicht bezahlte Ware nicht gemeldet“, ein Fehler der 2. Art. ” Solche Fehler k¨onnen unter anderem Auftreten, wenn an der Kasse der elektronische Streifen nicht oder nicht vollst¨andig entwertet“ wird, oder wenn etwa ein elektronisches ” Ger¨at (etwa ein Mobiltelefon) einen Alarm ausl¨ost. Unsere Testvorrichtung nimmt nun einen konstanten Fehler der 1. Art in Kauf, w¨ahrend der Fehler 2. Art minimiert werden soll. Wie k¨onnen wir nun testen, welche unserer beiden Hypothesen, die Nullhypothese H0 oder die Alternative HA , mit einer gewissen Wahrscheinlichkeit stimmt. Dazu berechnen wir eine Pr¨ ufgr¨oße T , eine sogenannte Teststatistik, und einen kritischen Wert cα , der von dem vorgegebenen Fehler 1. Art abh¨angt, und testen, ob Pϑ (T > cα ) ≤ α

∀ϑ ∈ H0 .

D. h. also, der Fehler 1. Art wird mit α fixiert – ein gewisser Prozentsatz von Fehlalarmen wird toleriert, ist etwa nicht gesch¨aftssch¨adigend. Wird cα unterschritten, so liegt die Nullhypothese H0 vor, sonst die Alternative HA .

Vorgangsweise: (1) Formulierung einer Nullhypothese H0 (null hypothesis) und einer Alternative HA (alternative hypothesis). (2) Wahl einer Irrtumswahrscheinlichkeit α bzw. eines Signifikanzniveaus 1 − α (level of significance). Von manchen Autoren wird auch α selbst als Signifikanzniveau bezeichnet. ¨ ¨ Ublich: α = 0.05 Okonomie, Soziologie α = 0.01 Biologie, Psychologie, Naturwissenschaften α = 0.001 Medizin (3) Auswahl eines Tests, d. h., einer Teststatistik T , und Berechnung eines kritischen Werts cα und damit eines Ablehnbereichs (Menge A). D. h., finde einen Wertebereich f¨ ur die Daten, welcher unter der Nullhypothese sehr unwahrscheinlich ist (P (A) ≤ α) und unter der die Alternative viel wahrscheinlicher ist. (4) Sammle Daten. Als Generalvoraussetzung wird angenommen, dass es sich um eine Zufallsstichprobe handelt. Durch Randomisieren kann die Selektion verbessert werden. Stelle fest, ob die gesammelten Daten in diesen Wertebereich (kritischer 1

H

H

0

A

1−β

β α cα

Abb. 1: Fehlerwahrscheinlichkeiten (=Fl¨achen) beim Testen.

Bereich, Ablehnbereich) fallen oder nicht. Entweder wird dazu die Teststatistik mit dem kritischen Wert cα verglichen, oder es wird der P-Wert (p-Value, level attained, descriptive level ) berechnet und die Nullhypothese abgelehnt, falls dieser kleiner oder gleich dem vorher gew¨ ahlten Niveau α ist! ja nein

⇒ lehne H0 ab, d. h., H0 verwerfen ⇒ lehne H0 nicht ab, d. h., H0 nicht verwerfen, d. h., die Daten stehen nicht im Widerspruch zu H0 .

Modell

Parameter liegen in einer bestimmten Menge (Nullhypothese – Alternative)

Testgr¨oße (test statistic)

Aus den Daten gewonnene Gr¨oße, die typischerweise in der Nullhypothese klein, in der Alternative groß ist.

Kritischer Wert (critical value)

jener Wert, den die Testgr¨oße u ¨berschreiten muss, damit es zur Ablehnung der Nullhypothese kommt.

Fehler 1. Art (α) (error of first kind )

Nullhypothese wird abgelehnt, obwohl sie richtig ist (Ablehnung falsch, α-Fehler).

Fehler 2. Art (β) (error of second kind )

Nullhypothese wird nicht abgelehnt, obwohl sie falsch ist (Annahme falsch, β-Fehler).

G¨ utefunktion (power function)

Ablehnwahrscheinlichkeit der Nullhypothese in Abh¨angigkeit vom Parameter der Alternative (1 − β).

P -Wert (p-value)

kleinste Irrtumswahrscheinlichkeit α, die zur Ablehnung von H0 f¨ uhrt. Oder: Wahrscheinlichkeit, dass – falls die Nullhypothese zutrifft – ein Wert gr¨oßer oder gleich dem beobachteten vorkommt.

Wir unterscheiden einseitige Alternativen (one-sided alternative), diese enthalten Verteilungen mit Parametern aus einem Halbstrahl von R (d. h., der Parameter ist gr¨oßer oder 2

0.03 0.02

H

H0

A

0.01 β

0 −50

0



50

100

0.03 0.02

H0

HA

0.01 β 0 −50

0



50

100

0.03 0.02

H

H0

A

0.01 0 −50

β 0

c

α

50

100

Abb. 2: β-Fehler (Fl¨ache) in Abh¨angigkeit der Dichte von HA .

kleiner als eine Zahl), und zweiseitige Alternativen (two-sided alternative), diese enthalten Verteilungen mit Parametern aus zwei Halbstrahlen (d. h., der Parameter nimmt einen gewissen Wert an oder nicht). Der Test wird so gew¨ahlt, dass die Wahrscheinlichkeit des Fehlers 1. Art (die Irrtumswahrscheinlichkeit) gleich einem vorher bestimmten α ist. Ein Test ist umso besser, je kleiner der Fehler 2. Art, der β-Fehler, bei gegebenen α ist. Je kleiner der β-Fehler ist, desto sch¨arfer trennt der Test H0 und HA (more powerful ), desto gr¨oßer ist die Macht oder G¨ ute des Tests (power function). Die G¨ ute nimmt auch zu, wenn eine gr¨oßere Stichprobe genommen wird. Definition 4.1 Die G¨ ute oder Macht eines Tests f¨ ur den Parameter ϑ einer Verteilung ist definiert als g(ϑ) = P (H0 ablehnen|HA trifft zu) = Pϑ (T > cα ) = 1 − β wobei T die gew¨ahlte Teststatistik (Pr¨ ufgr¨oße), α die gew¨ahlte Irrtumswahrscheinlichkeit und cα der kritische Wert ist (vgl. Abb. 1). 1 − g(ϑ) = β heißt β-Fehler, Operationscharakteristik , OC-Kurve oder Pr¨ ufplankurve (siehe Abb. 2). ¨ Beim Ubergang vom einseitigen zum zweiseitigem Test nimmt die Macht eines Tests ab, da der kritische Wert der Teststatistik gr¨oßer wird (es bleibt nur mehr α/2 statt α am Rand), somit wird β gr¨oßer und damit 1 − β, die Macht des Tests, kleiner. 3

Test des Anteilswertes p einer B(n, p)-Verteilung Beispiel 4.1 (M¨ unzwurf) Jemand behauptet, er k¨onne am Klang beim Wurf einer M¨ unze unterscheiden, ob zuerst die M¨ unze auf Bild oder auf Zahl zu liegen kam. Bei 80 Versuchen hat er 52 Mal recht. Frage: Ist dieses Ereignis signifikant, d. h., nicht zuf¨allig? Die Anzahl der Erfolge und Misserfolge ist, da es sich um ein wiederholtes BernoulliExperiment handelt, Binomial-B(n, p)-verteilt. Diese ist unsere Modellverteilung. Dazu stellen wir folgende Hypothesen auf: Als Nullhypothese w¨ahlen wir H0 : p ≤ 21 . Als Alternative ergibt sich dann HA : p > 12 . Dies formuliert einen einseitigen Test. Wir k¨onnten ebenso einen zweiseitigen Test formulieren, n¨amlich H0 : p = 21 und HA : p 6= 12 . Der einseitige Test ist aber sch¨arfer“. ” 0.09

0.08

0.07

0.06

0.05

0.04

0.03

0.02 51 0.01

0 15

20

25

30

35

40

45

50

55

60

Abb. 3: Dichte der B(80, 0.5)-Verteilung, kritischer Wert 51

Beispiel 4.2 (M¨  unzwurf)  H0 : Daten ∼ B 80, 12 W¨ahle das Signifikanzniveau α = 0.01. W¨ahle den Ablehnbereich A so, dass PH0 (Daten ∈ A) = α. Hier: A = [k, 80]

4

65

  Daten sind X ∼ B 80, 12 , d. h., E(X) = np = 80 · 0.5 = 40 und Var(X) = np(1 − p) = 20. P (X ≥ k) = α Wir standardisieren und approximieren dann durch N (0, 1).  P

X − 40 k − 40 √ ≤ √ 20 20

 =1−α

α = 0.01, aus Tabelle: Φ(2.33) = 0.99 oder Φ−1 (0.99) = u0.99 = 2.33. − 40 = 2.33 ⇒ k = 2.33 · 4.47 + 40 = 50.41, Daraus berechnen wir k√ 20 also erhalten wir einen Ablehnbereich f¨ ur H0 von A = [51, 80]. Daher, 52 ∈ A, muss H0 abgelehnt (verworfen) werden, d. h., die Daten sprechen eher daf¨ ur, dass unser Kandidat am Klang unterscheiden kann, ob die M¨ unze auf Bild oder Zahl zu liegen kam.

Anteilswert p von B(n, p) Voraussetzung: X1 , . . . , Xn ∼ B(n, p)

Testgr¨oße:

p (1 − p ) m Beobachtungen, σP2 = 0 n 0 m − p0 m − np0 =p ∼ N (0, 1) T + n σP np (1 − p ) 0

0

Einseitig (i)

H0 : p ≤ p 0 H A : p > p0 H0 ablehnen, falls T > Φ−1 (1 − α)

Einseitig (ii)

H0 : p ≥ p 0 H A : p < p0 H0 ablehnen, falls T < Φ−1 (α) = −Φ−1 (1 − α)

Zweiseitig

H0 : p = p 0 HA : p 6= p0 H0 ablehnen, falls |T | > Φ−1 (1 − α2 ) n(ˆ p − p0 )2 oder falls T 2 = > χ21;1−α p0 (1 − p0 )

Theorem 4.1 Ist X N (0, 1)-verteilt, so ist X 2 χ2 (1)-verteilt.

5

Einstichprobentest des Mittelwertes (σ 2 bekannt) Voraussetzung: X1 , . . . , Xn ∼ N (µ, σ 2 ) i.i.d. √ X −µ Testgr¨oße: T + n σ 0 ∼ N (0, 1) Einseitig (i)

H 0 : µ ≤ µ0 HA : µ > µ0 H0 ablehnen, falls T > Φ−1 (1 − α)

Einseitig (ii)

H 0 : µ ≥ µ0 HA : µ < µ0 H0 ablehnen, falls T < Φ−1 (α)

Zweiseitig

H 0 : µ = µ0 HA : µ 6= µ0 H0 ablehnen, falls |T | > Φ−1 (1 − α2 )

Bemerkung 4.1 Wir berechnen den kritischen Wert im Falle des zweiseitigen Tests. Es soll gelten, dass P (|Z| ≤ cα ) ≤ 1 − α ist. P (|Z| ≤ cα ) = P (−cα ≤ Z ≤ cα ) = Φ(cα ) − Φ(−cα ) = Φ(cα ) − (1 − Φ(cα )) = 2Φ(cα ) − 1 = 1 − α   α . −1 1 − ⇒ c = Φ Also Φ(cα ) = 1 − α α 2 2 Beispiel 4.3 F¨ ullgewichte von Verpackungen in Gramm (Xi ): 80.5, 78.2, 76.2, 79.4, 80.0 Aus Beobachtungen wissen wir, dass die F¨ ullgewichte X ∼ N (µ, 0.8) Wir testen H0 : µ ≥ 80 gegen HA : µ < 80 √ √ X −µ √ − 80 = −2.85. T = n σ 0 = 5 78.86 0.8 F¨ ur α = 0.01 haben wir cα = Φ−1 (0.01) = −2.32. Da T < −2.32 m¨ ussen wir H0 ablehnen, d. h., die F¨ ullgewichte der Stichprobe liegen unter der Norm. Dieselbe Aussage erhalten wir durch den P -Wert Φ(−2.85) = 0.002186, der kleiner als unser gew¨ahltes α = 0.01 ist. Beispiel 4.4 (G¨ ute) Wir berechnen nun die G¨ ute dieses Tests, d. h., was passiert, wenn unsere Annahme u ¨ber den Mittelwert der Verteilung nicht stimmt (vgl. Abb. 2) ? G¨ ute g(µ) = Pµ (T > Φ−1 (1 − α)) = 1 − β-Fehler Dazu berechnen wir den β-Fehler (einseitig H0 : ϑ < ϑ0 ) unter der Annahme, dass die Daten urspr¨ unglich den Mittelwert µ0 hatten Z cα β(µ) = fµ (u) du = Fµ (cα ) −∞

6

also etwa im Falle der Normalverteilung β(µ) = Φ(

C −µ µ0 − µ ) = Φ( + cα ) σX σX

ungliche wobei C = µ0 + σX cα ist, d. h., der kritische Wert umgerechnet auf die urspr¨ Verteilung der Daten, cα der kritische Wert der N (0, 1)-Verteilung. Der β-Fehler beim zweiseitigen Testen ist Z co fµ (u) du = Fµ (co ) − Fµ (cu ) β(µ) = −cu

wobei cu bzw. co die kritische Unter- bzw. Obergrenze der Testgr¨oße der Originaldaten ist. Die G¨ ute ist dann g(µ) = 1 − β(µ). Beispiel 4.5 Ein Drahtseil soll eine Mindestbelastung von 1200 kp aufweisen. Aus Erfahrung kennen wir die Standardabweichung σ = 120 kp. Wie groß muss der Mittelwert einer Stichprobe von n = 36 mindestens sein, damit wir eine Belastbarkeit von 1200 kp mit 95 %-iger Sicherheit attestieren k¨onnen. H0 : µ ≤ 1200 2 = X ∼ N (1200, 20), da σX

σ2 . n

HA : µ > 1200

Wir erhalten als untersten Wert, den X annehmen darf, 1200 − 1.65 · 20 = 1167.

Wir berechnen nun die G¨ ute g(µ) dieses Tests f¨ ur variables µ: g(1200) = P (X < 1167|µ = 1200) = 0.05 1167 − 1180 X − 1180 < ) = 0.2578 20 20 d. h., w¨are die tats¨achliche Reißfestigkeit des Seils unter 1200 kp, erg¨abe sich ein sicherer Test. Das ist ein weiterer Grund, warum wir H0 und HA so gew¨ahlt haben. g(1180) = P (X < 1167|µ = 1180) = P (

Die Abbildung 4 zeigt die G¨ ute g(µ) dieses rechtsseitigen Tests (durchgezogene Linie) und den β-Fehler oder auch OC-Kurve β(µ) = 1 − g(µ) dieses Tests. H¨atten wir einen linksseitigen Test durchgef¨ uhrt, so w¨aren die Rollen dieser beiden Kurven vertauscht, d. h., der Test umso schlechter, je geringer die tats¨achliche Reißfestigkeit des Drahtseils ist, ein wohl nicht gew¨ unschter Effekt.

Differenz der Mittel (Verbundene Stichproben) Bei verbundenen Stichproben gehen wir von zwei abh¨angigen (gepaarten, verbundenen) Stichproben aus. Die Werte werden an identischen Entit¨aten gemessen, wie etwa bei Vor-Nach-Vergleichen. Etwa Blutdruck vor und nach einer Behandlung. Die Differenzen di = Yi −Xi werden dann wie im Einstichprobentest f¨ ur Mittelwerte behandelt. In diesem Abschnitt gehen wir davon aus, dass die Varianzen bekannt sind. 7

1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0 1100

1150

1200

1250

Abb. 4: G¨ ute (durchgezogen) und OC-Kurve.

Beispiel 4.6 Gewicht von Schweinen vor und nach der Mast vorher (Xi ) 150 168.2 172.3 161.8 171.5

nachher (Yi ) 155.2 165.5 180.6 169.2 171.8

Differenz (Di ) 5.2 -2.7 8.3 7.4 0.3

Di ∼ N (µ, 4) Wir testen einseitig auf Mittelwert 0, also H0 : µ ≤ 0 und HA : µ > 0. Wir behaupten also, dass die Mast keine Wirkung gezeigt hat, dass kein statistisch signifikanter Effekt vorliegt. √ √ √ Y −X ⇒ T = 5 3.7 T = n· D σ = n σ 2 = 4.136 Bei α = 0.05 haben wir einen kritischen Wert von Φ−1 (0.95) = 1.64. Da T > 1.64 lehnen wir H0 ab, die Gewichte der Schweine haben also signifikant zugenommen.

8

Differenz der Mittel (Zweistichprobentest) 2 Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX ) i.i.d. 2 Y1 , . . . , Ym ∼ N (µY , σY ) i.i.d. Xi , Yi unabh¨angig σ2 σ2 2 σX und σY bekannt, σD = nX + mY

Testgr¨oße: Einseitig (i)

(X −r Y ) − (µX − µY ) ∼ N (0, 1) 2 σY2 σX + n m H0 : (µX − µY ) ≤ 0 HA : (µX − µY ) > 0 H0 ablehnen, falls T > Φ−1 (1 − α)

T +

Einseitig (ii)

H0 : (µX − µY ) ≥ 0 HA : (µX − µY ) < 0 H0 ablehnen, falls T < Φ−1 (α)

Zweiseitig

H0 : (µX − µY ) = 0 HA : (µX − µY ) 6= 0 H0 ablehnen, falls |T | > Φ−1 (1 − α2 )

Beispiel 4.7 (D¨ ungemittel) Unterscheiden sich die Hektarertr¨age bei verschiedenen D¨ ungemitteln? 2 Unabh¨angige Stichproben: X1 , . . . , Xn ∼ N (µX , σX ), Y1 , . . . , Ym ∼ N (µY , σY2 )

D¨ unger 1 (X-Stichprobe) 132.8 141.4 152.3 128.8

D¨ unger 2 (Y-Stichprobe) 122. 4 131.2 125.2 121.2 118.3 σY2 = 4 Y = 123.6

2 σX =6 X = 138.8

Wir behaupten, dass die verschiedenen D¨ ungemittel keinen signifikanten Einfluss auf die Hektarertr¨age hat und testen zweiseitig. H0 : µX = µY und HA : µX 6= µY q · 5 (138.8 − 123.6) = 10.023 T = 5.64+ 4.4 Bei α = 0.01 haben wir T > Φ−1 (0.995) = 2.57, wir m¨ ussen also H0 ablehnen, d. h., die Hektarertr¨age unterscheiden sich signifikant.

9

t-Test (Mittelwert bei unbekannter Varianz) Voraussetzung: X1 , . . . Xn ∼ N (µ, σ 2 ) σ 2 unbekannt √ X −µ Testgr¨oße: T + n s ∼ t(n − 1) Einseitig (i)

H 0 : µ ≤ µ0 HA : µ > µ0 H0 ablehnen, falls T > tn−1,1−α

Einseitig (ii)

H 0 : µ ≥ µ0 HA : µ < µ0 H0 ablehnen, falls T < tn−1,α = 1 − tn−1,1−α

H 0 : µ = µ0 µ 6= µ0 H0 ablehnen, falls |T | > tn−1,1− α2 n(X − µ)2 oder falls T 2 = > F1,n−1;1−α s2 Dieser Test ist der am h¨aufigsten verwendete Mittelwertstest, da meistens die Varianzen unbekannt sind und aus der Stichprobe gesch¨atzt werden m¨ ussen.

Zweiseitig

Theorem 4.2 Falls Y t(n)-verteilt ist, ist Y 2 F (1, n)-verteilt.



Ist n > 30 k¨onnen wir die entsprechenden Werte der Standardnormalverteilung als kritische Werte verwenden.

Vor-Nach-Vergleiche (verbundene Stichproben) Wie schon bei Vor-Nach-Vergleichen bei bekannter Varianz liegen auch hier verbundene Stichproben vor, jedoch nun mit unbekannter Varianz, sodass wir die Stichprobenvarianz der Differenzen als Sch¨atzer verwenden m¨ ussen, und dann einen Einstichproben t-Test f¨ ur die Differenzen Di = Yi − Xi durchf¨ uhren. Beispiel 4.8 Wir wollen die Wirkung einer Di¨atkur testen. Gewicht vor Di¨atkur (X) 73 85 68 90 77

Gewicht nach Di¨atkur (Y ) 72 81 70 82 73

Differenzen Di -1 -4 2 -8 -4

Die Differenzen werden einseitig auf Mittelwert 0 getestet, d. h., wir wollen zeigen, dass die Kur keine signifikante Wirkung gehabt hat. Wir haben also H 0 : µD ≤ 0 und H A : µD > 0 10

> > > >

x > > >

x tn+m−2,1−α

Einseitig (ii)

H0 : (µX − µY ) ≥ 0 HA : (µX − µY ) < 0 H0 ablehnen, falls T < tn+m−2,α

Zweiseitig

H0 : (µX − µY ) = 0 HA : (µX − µY ) 6= 0 H0 ablehnen, falls |T | > tn+m−2,1− α2 oder falls T 2 > F1,n+m−2;1−α

Beispiel 4.9 (Schlafverl¨ angerung bei 2 Medikamenten) Medikament 1 (Xi ) Medikament 2 (Yj )

1.4 0.8 2.1 0.4 0.2 0.0 1.4 1.2

Verschiedene Patienten, d. h., unabh¨angige Stichproben! 12

0.3

Abb. 7: Schlafverl¨angerung von Medikamenten (MS Excel).

n = 5, m = 4, X = 1.0, Y = 0.7. P (n − 1)s2X = (Xi − X)2 = 2.26

(m − 1)s2Y =

P (Yi − Y )2 = 1.48.

1.0 − 0.7 = 0.61 1 1 1 ( + ) (2.26 + 1.48) 5 4 7

T =r

Wir testen zweiseitig mit α = 0.01: H0 : µX = µY und HA : µX 6= µY . Da T < t7,0.995 = 3.5, kann H0 nicht abgelehnt werden, d. h., beide Medikamente haben dieselbe Wirkung.

Zweistichproben-t-Test (verschiedene Varianzen) 2 ) i.i.d. Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX 2 Y1 , . . . , Ym ∼ N (µY , σY ) i.i.d. Xi , Yi unabh¨angig 2 σX 6= σY2 unbekannt σ2 σ2 s4D s2D = nX + mY , nD = 2 s s2 ( X )2 ( Y )2 n + m n−1 m−1 (X − Y ) − (µX − µY ) Testgr¨oße: T + ∼ t(nD ) sD

Einseitig (i)

H0 : (µX − µY ) ≤ 0 HA : (µX − µY ) > 0 H0 ablehnen, falls T > tnD ,1−α

Einseitig (ii)

H0 : (µX − µY ) ≥ 0 HA : (µX − µY ) < 0 H0 ablehnen, falls T < tnD ,α

Zweiseitig

H0 : (µX − µY ) = 0 HA : (µX − µY ) 6= 0 H0 ablehnen, falls |T | > tnD ,1− α2

Bemerkung 4.2 (Behrens-Fisher Problem) 2 Falls σX 6= σY2 und unbekannt, so gibt es keine sinnvolle Teststatistik, die unabh¨angig 13

von σX und σY ist.

Einstichprobentest der Varianz Voraussetzung: X1 , . . . , Xn ∼ N (µ, σ 2 ) i.i.d. n (n − 1)s2 1 P (X − X)2 ∼ χ2 (n − 1) Testgr¨oße: T + = i σ02 σ02 i=1 Einseitig (i)

H0 : σ 2 ≤ σ02 HA : σ 2 > σ02 H0 ablehnen, falls T > χ2n−1,1−α

Einseitig (ii)

H0 : σ 2 ≥ σ02 HA : σ 2 < σ02 H0 ablehnen, falls T < χ2n−1,α

Bemerkung 4.3 Obige Teststatistik T ist nur dann χ2 (n − 1)-verteilt, wenn µ bekannt ist, sonst ist sie χ2 (n)-verteilt und die Formeln gelten entsprechend mit n statt n − 1. Beispiel 4.10 Toleranzen bei Lagerwellen: Sollwert σ02 = 0.01 bei µ = 3.3; α = 0.05. Daten: 3.5, 3.2, 3.1, 3.5, 3.2,

X = 3.3

H0 : σ 2 ≤ σ02 und HA : σ 2 > σ02 P 2 i (Xi − X) = 0.04 + 0.01 + 0.04 + 0.04 + 0.01 = 0.14 P Da T = 12 (Xi − X)2 = 14 > χ24;0.95 = 9.49 muss H0 auf dem 5%-Niveau abgelehnt σ0 werden, d. h., die Varianz – und damit die Toleranz – ist signifikant gr¨oßer als 0.01.

F -Test zum Vergleich zweier Varianzen 2 Voraussetzung: X1 , . . . , Xn ∼ N (µx , σX ) i.i.d. 2 Y1 , . . . , Ym ∼ N (µy , σY ) i.i.d. s2 Testgr¨oße: T = X ∼ F (n − 1, m − 1) s2Y 2 2 Einseitig (i) H0 : σX ≤ σY2 HA : σX > σY2 H0 ablehnen, falls T > Fn−1,m−1;1−α

Einseitig (ii) Zweiseitig

H0 H0 H0 H0

2 2 : σX ≥ σY2 HA : σX < σY2 ablehnen, falls T < Fn−1,m−1;α 2 2 : σX = σY2 HA : σX 6= σY2 ablehnen, falls T < Fn−1,m−1; α2 oder T > Fn−1,m−1;1− α2

Theorem 4.3 Es gilt Fn,m;α = F 1 (Vertauschung der Freiheitsgrade!). m,n;1−α 14

Bemerkung 4.4 P Wir wissen, dass σ12 i (Xi − X)2 ∼ χ2 (n − 1). Daraus und aus dem n¨achsten Satz folgt die Verteilung obiger Testgr¨oße. 1 Theorem 4.4 X X ∼ χ2 (n) und Y ∼ χ2 (m) so ist n1 ∼ F (n, m). Y m

Beispiel 4.11 Vergleich zweier Toleranzen: 1. Stichprobe (Xi ) 2. Stichprobe (Yi ) X = 3.4

Y = 3.3

3.0 3.4 3.6 3.5 3.2 3.1

3.6 3.5

3.2

n=4 m=5

2 2 6= σY2 . = σY2 und HA : σX H0 : σX 1 P(X − X)2 = 1 (0.16. + 0 + 0.04 + 0.04) = 0.08 s2X = n − i 1 3 P s2Y = m 1− 1 (Yi − Y )2 = 14 (0.04 + 0.01 + 0.04 + 0.04 + 0.01) = 0.035 0.08 = 2.286 < F Da F = 0.035 3,4;0.99 = 16.7 kann H0 bei α = 0.01 nicht abgelehnt werden, d. h., die beiden Varianzen (Toleranzen) sind nicht signifikant verschieden.

15

Aufgaben zum Testen Projekt zum Testen: Generiere 1000 Standard-normalverteilte Samples (N (0, 1)) und transformiere diese so, dass bei Angabe zweier beliebiger Parameter µ und σ 2 aus diesen N (µ, σ 2 )-verteilte Samples werden. Generiere damit N (17, 25)-verteilte Samples und w¨ahle (extrahiere) aus diesen zuf¨allig n Daten (n zuf¨allige Indizes aus den Indizes 1–1000). Berechne sodann den Mittelwert und die Sample-Varianz dieser n Daten. Teste die Nullhypothese H0 : µ = 15 einmal einseitig, einmal zweiseitig mit diesen n Daten. Berechne zu diesen Tests die G¨ utefunktion. Weiters teste die Varianz unter der Annahme σ = 20. Setze n = 10, 25, 70, 120 und vergleiche die Ergebnisse. 4.1

Von einer Zufallsvariablen X sei bekannt: X ∼ N (µ, 5) Eine Stichprobe lieferte folgende Werte: −1

0

3

4

2

1 −3

1 −5

0

6 −3 −1 −4 −3 −2

4 −5 −3 −1

Es ist die Hypothese H0 : µ = 0 gegen die Alternative HA : µ 6= 0 mit a)

α = 0.05

b)

α = 0.01 zu testen.

c)

Teste die Hypothese H0 mit α = 0.05 (0.01) ohne die Information u ¨ber die Varianz der Grundgesamtheit ! /

4.2

F¨ ur eine Zufallsvariable X sei bekannt: X ∼ N (µ, 4) Eine Stichprobe vom Umfang 25 ergab: X = 14.70. Es ist die Hypothese H0 : µ = 14 gegen die Alternative a)

HA : µ > 14

b)

HA : µ < 14

c)

HA : µ 6= 14

zu testen (α = 0.05 bzw. 0.01) !

/

16

4.3

In einer Grundgesamtheit ist ein Merkmal normalverteilt mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 2500. Es soll die Hypothese H0 : µ = 100 gegen¨ uber HA : µ 6= 100 getestet werden. Es liegt eine Stichprobe vom Umfang n = 100 vor. a)

Bestimme f¨ ur α = 0, 05 den Annahmebereich f¨ ur H0 !

b)

Bestimme β (Fehler 2. Art) bei G¨ ultigkeit von: µ=105, 110, 115 !

c)

Fertige eine Skizze der Operationscharakteristik und der Macht des Tests an ! /

4.4

Die Tabelle enth¨alt Beobachtungen aus einem englischen Zinnwalzwerk. Teste unter Annahme, die unabh¨angigen Stichproben stammen aus normalverteilten Grundgesamtheiten mit gleicher Varianz, ob die Arbeitsleistung von der Jahreszeit abh¨angt (α = 0.05) ! Jahreszeit Sommer Winter

Relative Arbeitsleistung 92.2 84.8 97.2 102.8 107.7 85.7 102.5 102.6 /

4.5

Verbrauchen Forellen in schnell fließendem Wasser mehr Sauerstoff als in langsam fließendem (α = 0.05) ? Fluss schnell langsam

108 122 85 152

Sauerstoffverbrauch 144 126 107 115 114 97 96 126 83 69 95 87 71 94 83 94

Die unabh¨angigen Stichproben stammen aus normalverteilten Grundgesamtheiten mit gleicher Varianz ! /

4.6

Ein Schweinez¨ uchter verwendet 2 Arten von Futtermittel. Besteht ein signifikanter Unterschied zwischen diesen Futtermitteln (α = 0.05) ?

Futter A Futter B

Gewicht der Jungschweine in kg 33 66 26 43 46 55 54 53 53 37 73 58 61 38

a)

Die unabh¨angigen Stichproben stammen aus normalverteilten Grundgesamtheiten mit gleicher Varianz.

b)

Die Varianz σ 2 der Grundgesamtheit betrage 100 kg2 . / 17

4.7

Ein neuer Werkstoff wird nur dann ¨offentlich zugelassen, wenn seine mittlere Zugfestigkeit mehr als 300 kp betr¨agt. Durch fr¨ uhere Untersuchungen ist bekannt, dass die Standardabweichung der Zugfestigkeit solcher Werkstoffe immer 24 kp betr¨agt. Es wurden 64 Materialtests durchgef¨ uhrt. a)

Wie m¨ ussen Null- und Alternativhypothese festgelegt werden, wenn nachgewiesen werden soll, dass ein neuer Werkstoff geeignet ist ?

b)

Ein (statistisch ungebildeter) Entscheidungstr¨ager legt fest, dass ein neuer Werkstoff nur dann als geeignet anzusehen ist, wenn die obige Stichprobe vom Umfang n = 64 einen Mittelwert u ¨ber dem Normalwert von 302 kp aufweist. Wie groß ist bei einem solchen Vorgehen die Wahrscheinlichkeit f¨ ur einen Fehler 1. Art ?

c)

Ermittle einen Nominalwert, der bei einer Irrtumswahrscheinlichkeit von 0,01 geeignet ist, u ¨ber die Zulassung eines neuen Materials zu entscheiden !

d)

Vergleiche die beiden Entscheidungsverfahren aus b) und c) (d.h., den Normmittelwert von 302 kp bzw. den bei α = 0.01 errechneten Normmittelwert) hinsichtlich ihrer G¨ ute ganz allgemein und konkret f¨ ur den Fall, dass ein Material eine wahre mittlere Zugfestigkeit von 302 kp aufweist ! /

4.8

Es liegt eine normalverteilte Grundgesamtheit mit unbekanntem Mittelwert µ und bekannter Streuung σ 2 = 2.56 vor. Es soll die Hypothese H0 : µ < 12 gegen¨ uber HA : µ ≥ 12 mit α = 0.05 aus einer Stichprobe mit dem Umfang n = 36 getestet werden ! a)

Gib den R¨ uckweisungsbereich der Stichprobenfunktion f¨ ur x an !

b)

Berechne und zeichne die G¨ utefunktion ! /

4.9

Besteht ein signifikanter Unterschied zwischen den beiden Mittelwerten (95 %) ? 1. Stichprobe 2. Stichprobe

110 120 110 140 130 130 140 120 110 120 /

18

4.10

Teste die Hypothese, dass der Anteil der einsilbigen W¨orter bei beiden Dichtern gleich groß ist (95 %) ! Anzahl der Silben 1 2 3 4 5 n

Goethe

Lichtenberg

587 410 146 49 8 1200

539 317 136 49 7 1048 /

4.11

Es liegen 2 unabh¨angige Stichproben aus normalverteilten Grundgesamtheiten vor: n1 = 1000 X 1 = 78 s21 = 112 n2 = 1200 X 2 = 76 s22 = 120 Teste die Hypothese H0 : µ1 = µ2 gegen HA : µ1 6= µ2 (α = 0.05) unter der Annahme, a)

dass gleiche Varianzen vorliegen !

b)

dass verschiedene Varianzen vorliegen !

c)

dass beide Stichproben dieselbe Varianz σ12 = σ22 = σ 2 = 115 aufweisen ! /

4.12

Gegeben sind 2 unabh¨angige Stichproben aus normalverteilten Grundgesamtheiten: A B

75 20 70 70 85 90 20 35 55 50 65 40

100

40

35 85 90

35

Ist der Unterschied zwischen den Varianzen signifikant ? 4.13

/

Der Benzinverbrauch zweier Autotypen wurde stichprobenweise erhoben:

A B

Benzinverbrauch in ` pro 100 km im Stadtverkehr 20.3 13.7 13.8 12.4 16.0 12.5 19.4 30.1 35.6 24.6 19.9 13.2 8.8 11.7 14.6 14.1 21.8 25.5 35.1 25.5

a)

Teste unter der Annahme, dass die Stichproben aus normalverteilten Grundgesamtheiten mit gleicher Varianz stammen, ob der Benzinverbrauch gleich ist !

b)

Teste die Annahme gleicher Varianzen ! / 19

4.14

Mendel erzielte 1865 bei einem seiner ber¨ uhmten Kreuzungsversuche folgendes Ergebnis: 355 gelbe Erbsen

123 gr¨ une Erbsen

Nach seiner Theorie m¨ usste sich die Zahl der gelben Erbsen zur Zahl der gr¨ unen Erbsen wie 3:1 verhalten. Spricht die Stichprobe bei einem Fehler von α = 1 % f¨ ur die Richtigkeit der Mendel’schen Vererbungss¨atze ? /

20