Inferenzstatistisches Testen im Zweistichprobenfall Eine Baustelle Version 1.8

Alexander Walther [email protected] Psychologisches Institut Mainz Abteilung Methodenlehre

Inhaltsverzeichnis 1

Zum Inhalt

1

2

Über Hypothesen und Fehler

2

2.1 2.1.1 2.2 2.3

3

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

Parametergebundene Tests 3.1 3.2 3.3 3.3.1 3.3.2 3.4 3.4.1 3.4.2 3.5 3.5.1 3.5.2 3.5.3 3.5.4 3.6

4

Was sind Hypothesen? . . . Hypothesenarten . . . . . . α- und β-Fehler . . . . . . Der zentrale Grenzwertsatz

Konfidenzintervalle . . . . . . . . . . . . . . z-Test . . . . . . . . . . . . . . . . . . . . . . Pretests . . . . . . . . . . . . . . . . . . . . . F-Test . . . . . . . . . . . . . . . . . . . . . . Bartlett-Test . . . . . . . . . . . . . . . . . . t-Tests . . . . . . . . . . . . . . . . . . . . . t-Test für unabhängige Stichproben . . . . . t-Test für abhängige Stichproben . . . . . . . χ2 -Tests . . . . . . . . . . . . . . . . . . . . . Testen von Häufigkeitsunterschieden . . . . . Unabhängigkeitstest . . . . . . . . . . . . . . φ-Korrelation . . . . . . . . . . . . . . . . . . χ2 -Anpassungstest . . . . . . . . . . . . . . Korrelationstest und Fisher-z-Transformation

7 . . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

Parameterfreie Tests 4.1 4.2 4.2.1 4.2.2 4.3

2 3 4 6

Mann-Whitney-U-Test . . . . . . . . . . . . . Wilcoxon-Tests . . . . . . . . . . . . . . . . . . Wilcoxon-Test für abhängige Stichproben . . Wilcoxon-Vorzeichen-Rangtest für den Median Binomialtest . . . . . . . . . . . . . . . . . . .

7 8 9 10 10 11 11 12 13 13 14 16 16 18 20

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

20 22 22 24 25

II

Inhaltsverzeichnis

5

En plus 5.1 5.2 5.3

Effektstärke . . . . . . . . . . . . . . . . . . . . . . . . . . . . Teststärke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Standardisierter Mittelwertabstand . . . . . . . . . . . . . . .

27 27 27 28

III

Tabellenverzeichnis 3.1 3.2

Absolute Häufigkeiten einer Population (Beispiel). . . . . . . . Variableverteilung im χ2 -Test. . . . . . . . . . . . . . . . . . .

14 15

4.1 4.2 4.3 4.4 4.5

Datensatz zweier Stichproben (Beispiel). . . . . . . . . . . . Ranking der Datensätze. . . . . . . . . . . . . . . . . . . . . Rangplätze, stichprobenweise separiert (Beispiel). . . . . . . Datensatz zweier Stichproben (Beispiel). . . . . . . . . . . . Differenzenbeträge der Stichprobendaten und deren Ranking.

20 21 21 23 23

. . . . .

IV

1 Zum Inhalt Dieses Skript ist vielleicht als bessere Formelsammlung anzusehen und explizit für solche geschrieben, die sich mit der Inferenzstatistik und ihrer Anwendung schwer tun. Es umfasst alle behandelten univariaten Testverfahren1 für den Einsowie Zweistichprobenfall und ist – was mein Verständnis angeht – keinesfalls vollständig. Ich hatte beim Verfassen den bewussten Anspruch, eine möglichst komprimierte, übersichtliche und einfache Zusammenfassung der schließenden Statistik, wie sie im Grundstudium Psychologie am Psychologischen Institut der Universität Mainz gelehrt wird, zu schreiben, so dass gerade Studenten mit weniger hohem Interesse sie anwenden können. Für jene, die an einem tieferen Verständnis der mathematischen Hintergründe interessiert sind oder sein müssen gibt es Literatur zu Hauf. Bei Fehlern inhaltlicher, grammatikalischer oder typografischer Art bin ich für eine Mitteilung stets dankbar.

1

Stand: Sommersemester 2007 am Psychologischen Institut Universität Mainz

1

2 Über Hypothesen und Fehler »Wenn man Zahlen richtig foltert, gestehen sie, was man will.« Peter E. Schumacher, (*1941), deutscher Publizist

2.1 Was sind Hypothesen? Am Anfang jedes statistischen Tests steht die wissenschaftliche Hypothese, entsprungen einer bestimmten Theorie und vielem Vorwissen. Diese wissenschaftliche Hypothese muss in eine statistische umgeformt werden, damit sie empirisch belegbar ist. Der Gang dorthin ist nicht eindeutig; man kann von einer wissenschaftlichen Annahme zu verschiedenen statistischen Hypothesen gelangen. Im nächsten Schritt wird aus der Population eine Stichprobe erhoben, deren Zusammensetzung im Sinne des Experiments stehen muss. Satz 1 (Population und Stichprobe) Als Population bezeichnet man die Menge aller für ein Experiment potentiell zur Verfügung stehenden Elemente, die mindestens ein gemeinsames Merkmal aufweisen (z.B. Radfahrer). Die Stichprobe ist eine Teilmenge davon, nach festgelegten Auswahlkriterien und dem Zufallsprinzip gemäß gewonnen. Ein geeignetes Testverfahren wird ausgewählt und durchgeführt, dessen Ergebnis dann wiederum Einfluss auf die wissenschaftliche Hypothese nimmt. Das Testschema sieht also wie folgt aus: 1. Aufstellen einer statistischen Hypothesen, z.B. µ0 = µ1 . µ0 und µ1 seien hierbei der Erwartungswerte zweier Populationen. Hypothesen können gerichtet (einseitig) oder ungerichtet (zweiseitig), spezifisch oder unspezifisch formuliert sein. 2. Festlegung der Teststatistik oder Prüfgröße, d.h. des Wertes, der beim Hpothesentest dazu verwendet wird, die statistische Entscheidung (Beibehaltung oder Ablehnung der Hypothese) zu treffen. 3. Stichprobe ziehen und die Verteilung der Stichprobenparameter bestimmen/ausrechnen (eventuell nur approximativ, siehe 3.5.4).

2

2.1 Was sind Hypothesen? 4. Festlegung des Signifikanzniveaus (siehe α- und β-Fehler). 5. Testen und entscheiden. Die Hypothese, die unserer Theorie entspringt, nennt man im Normalfall Alternativhypothese, H1 ; ihr komplementäres Gegenteil ist die zu testende Nullhypothese, H0 . Normalerweise sind wir daran interessiert, Unterschiede aufzuzeigen, also z.B. H1 : µ0 ≤ µ1 . Das Prinzip der Tests ist es, H0 zu testen und zu widerlegen, um H1 im Umkehrschluß zu bestätigen. Stochastisch bedeutet dies: Führt das Testverfahren zu einem Ergebnis, dass bei den erhobenen Daten sehr unwahrscheinlich ist, wird H0 verworfen. Satz 2 (Entscheidungsprinzip) Nimmt die aus den Stichprobendaten ermittelte Teststatistik unter H0 einen unwahrscheinlichen Wert an, wird H0 verworfen und H1 als richtig angenommen.

2.1.1 Hypothesenarten Statistische Hypothesen können – je nach expertimenteller Handhabung – unterschiedlich aufgestellt werden. Sie können spezifisch bzw. unspezifisch sowie gerichtet bzw. ungerichtet formuliert sein. Dies ist sehr davon abhängig, wie hoch der Informationsgehalt über Stärke und Richtung des Effekts bereits ist, den es zu experimentell und statistisch zu untersuchen gilt. Ist noch wenig über den Untersuchungseffekt bekannt, bietet sich eine ungerichtete, unspezifische Hypothese1 an: H0 : µ0 = µ1 Diese Hypothese muss im statistischen Test zweiseitig getestet werden, da wir keine Kenntnis über die Richtung des Effekt haben. Dies impliziert, dass die Teststatistik ebenfalls richtungslos sein muss; wir ignorieren ihr Vorzeichen, sofern ein Vorzeichenwechsel überhaupt möglich ist – einige Verteilungen wie beispielsweise χ2 sind nur für den positiven Bereich definiert – indem wir den Betrag setzen: |z| > zcrit Hypothesen lassen sich auch Effektrichtungen zuordnen, zum Beispiel: 1

Alle folgend vorgestellten Tests werden allgemein an diesem Fall erklärt und lassen Spezialfälle unberücksichtigt.

3

2.2 α- und β-Fehler

H0 : µ0 ≤ µ1

Dies würde bedeuten, dass wir hypothetisch eindeutig festlegen würden, dass der Effekt im Mittel innerhalb der Experimentalgruppe wenigstens genauso groß ist wie in der Kontrollgruppe, bezogen auf die Gesamtpopulation. Bei gerichteten Hypothesen bleibt auch die statistische Prüfung nicht richtungslos; wir beziehen also somit das Vorzeichen in die Testentscheidung mit ein: z > zcrit −z < −zcrit Wollen wir die Stärke eines Effekts testen, so formulieren wir diesen als absoluten Abweichungswert vom Populationsmittel: H0 : µ0 = µ1 + 17

2.2 α- und β-Fehler Entscheiden wir uns dazu, unsere Testhypothese zu verwerfen, so ist dieser Verwurf potentiell fehlerbehaftet. Der beobachtete Stichprobenmittelwert x ¯ kann auch mit einem sehr extremen Wert der Annahme der H0 entsprechen, dennoch wäre dieser Wert eventuell so unwahrscheinlich, dass wir über ihn die H0 ablehnen würden, obwohl sie zutreffend wäre. Wenn wir innerhalb der Verteilung, in der wir testen, einen (sehr unwahrscheinlichen) Bereich bestimmen, ab dem wir die H0 immer ablehnen, bestimmen wir so auch die Fehlerwahrscheinlichkeit. Diesen Bereich nennt man Ablehnungsbereich.

Abbildung 2.1: α-Fehler oder »False Alarm«.

4

2.2 α- und β-Fehler Ein konventioneller Wert für den Ablehnungsbereich, das sogenannte Signifikanzniveau ist 5 %, das bedeutet: Die Wahrscheinlichkeit einer Fehlentscheidung beim Verwerfen der H0 ist kleiner (oder kleiner gleich) als 5 %. Das Signifikanzniveau bestimmt man je nach Schwere der Fehlentscheidung, die man α-Fehler nennt (Abbildung 2.1). Satz 3 (α-Fehler) Einen α-Fehler zu begehen bedeutet, die korrekte Nullhypothese zugunsten der Alternativhypothese abzulehnen. Sein Pendant ist der β-Fehler (Abbildung 2.2):

Abbildung 2.2: β-Fehler oder »Miss«.

Es kann sein, dass x ¯ in den schwarz eingefärbten Bereich links der Signifikanzschranke der (unwahren) Verteilung von H0 fällt, obwohl es aus der (wahren) H1 -Verteilung stammt. Dann würde man fälschlicherweise H0 beibehalten, obwohl H1 zuträfe. Satz 4 (β-Fehler) Einen β-Fehler zu begehen bedeutet, die korrekte Alternativhypothese zugunsten der Nullhypothese abzulehnen. Im Gegensatz zum α-Fehler kann man ihn nur dann berechnen, wenn H1 nicht allgemein formuliert, sondern genau spezifiziert ist. Der Tatsache, dass bei jedem Test die Möglichkeit besteht, Entscheidungsfehler zu begehen, wird mit dem Signifikanzniveau Rechnung getragen. Mit Verringerung des α-Niveaus vergrößert sich der β-Fehler und vice versa. Dies hat Einfluss auf die Festlegung des Signifikanzniveaus: Es kann Fälle geben, in denen es gravierende Folgen hätte, die Alternativhypothese erst spät zu bestätigen; in diesen Fällen sind wir bereit, einen hohen α-Fehler in Kauf zu nehmen. Ein typisches Beispiel hierfür sind Pretests.

5

2.3 Der zentrale Grenzwertsatz

Nehmen wir an, ein Pharmakonzern beabsichtige, ein verbessertes, krebsheilendes Präparat auf den Markt zu bringen und wir sollten empririsch belegen, ob dieses Medikament tatsächlich signifikant bessere Heilungschancen verspricht oder nicht. Wir würden somit als Alternativhypothese die Unterschiedlichkeit zwischen herkömmlichem und verbessertem Präparat (µ0 #= µ1 ) postulieren – die positiv oder negativ gerichtet sein mag – und in der Nullhypothese auf Mittelwertsgleichheit testen. Da es uns wichtig wäre, so früh wie möglich eine Medikamentsverbesserung aufzuzeigen, würden wir die Wahrscheinlichkeit, die tatsächlich zutreffende Alternativhypothese abzulehnen, sehr gering halten wollten, also: Den β-Fehler verkleinern. Dies ist nur durch gleichzeitige Erhöhung des α-Niveaus möglich.

2.3 Der zentrale Grenzwertsatz Seien x1 , x2 , .., xN unabhängige Zufallsgrößen, alle identisch verteilt und SN , wobei µ(x) und σ 2 (x) endliche Größen seien. Dann gilt für ν=

!N

k=1 x

=

SN − N · µ √ N ·σ

für wachsende N und unter Verwendung der Parametern µ(νN ) = 0 und σ(νN ) = 1 folgende Beziehung: lim P (u ≤ νN ≤ o) =

N →∞

" o u

−x2 1 √ · e 2 = φ(x) 2π

Dies bedeutet, dass die Fläche zwischen u und o unter der Verteilung von νN für hinreichend große N (N → ∞) gegen die Fläche zwischen u und o unter φ(x) konvergiert. φ bezeichnet man als Gauß’sche Normalverteilung. Diesen Zusammenhang zwischen der empirischen Verteilung und ihrer normalverteilten Approximation für große N nennt man den zentralen Grenzwertsatz und bildet das Fundament der Inferenzstatistik. Satz 5 (Zentraler Grenzwertsatz) Die Summe von stochastisch unabhängigen Zufallsvariablen ist für hinreichend große N annähernd normalverteilt.

6

3 Parametergebundene Tests 3.1 Konfidenzintervalle Spannen wir mit Hilfe der Stichprobendaten rechnerisch ein Intervall auf (d.h. wir bestimmen zwei Zahlen), in dem mit »hohen Wahrscheinlichkeit« unter den gegebenen Stichprobendaten der wahre Parameter befindet, so nennen wir diesen Bereich Konfidenzintervall. Satz 6 (Konfidenzintervall) Das Konfidenzintervall begrenzt den Bereich, in dem sich mit einer bestimmten Wahrscheinlichkeit (z.B. 95 %) alle möglichen Populationsparameter (z.B. µ) befinden, die den Stichprobenkennwert (z.B. x ¯) erzeugt haben können. Wenn wir sagen mit einer »hohen Wahrscheinlichkeit«, müssen wir diese genau quantifizieren: Die Wahrscheinlichkeit (P (x)), dass der wahre Populationsparameter innerhalb des Intervalls liegt, muss sinngemäß sehr groß sein (nahe Eins); die Wahrscheinlichkeit, dass man sich irrt und der Parameter nicht in unserem Intervall liegt, (1 − P (x)) sehr klein. Will man diese Irrtumswahscheinlichkeit verkleinern, muss man die Stichprobe oder das Intervall vergrößern. Typische Fragestellungen »Produziert die Maschiene am Sollwert?« »Gehören die Mädchen aus der Stichprobe zur Population mit dem Erwartungswert µ?« Vorgehen Im Unterschied zu den folgenden Testverfahren liegt der Verteilung ein Ein-Stichprobenfall zu Grunde. Getestet wird in der Normalverteilung der Mittelwerte (¯ x). Das Konfidenzintervall errechnet sich allgemein aus CIµ : µ = x ± zcrit · σx CIx : x = µ ± zcrit · σx

(3.1) (3.2)

7

3.2 z-Test je nachdem, welcher Parameter unbekannt ist; dies ergibt sich aus Umformulierung der z-Standardisierungsformel, wobei wir bei CIµ noch x ¯ als erwartungstreuen Schätzer für µ einsetzen. Ist σx unbekannt, wird es geschätzt aus σpop s #x = √ = √ σ n n−1 $ n #pop = σ n−1

(3.3) (3.4)

Es ergeben sich zwei Grenzwerte, die das Konfidenzintervall aufspannen. Befindet sich der unbekannte Populationsparameter nicht innerhalb dieses Intervalls, ist er mit der Wahrscheinlichkeit P (x) nicht Erzeuger der Stichprobenwerte und vice versa. Natürlich ist es auch möglich, zwei Konfidenzintervalle hinsichtlich ihrer Überschneidung zu vergleichen; findet diese nicht statt, ist der Unterschied der Parameter signifikant. Man kann jedoch dazu raten, in solcherlei Fällen auf die folgenden, testschärferen Verfahren zurückzugreifen und das Konfidenzintervall nur für den Ein-Stichprobenfall zu verwenden.

3.2 z-Test Was teste ich? Das Bestehen eines Unterschiedes zwischen zwei normalverteilten Stichproben, d.h. mit N1 + N2 ≥ 50. Typische Fragestellungen »Unterscheiden sich die Stichproben signifikant?« »Prüfe, ob sich die Populationsmittelwerte um x unterscheiden.« Vorgehen Getestet wird in der Normalverteilung der Differenzen der Mittelwerte, ∆¯ x. Der z-Wert der zu testenden ∆¯ x ergibt sich aus z=

(¯ x1 − x ¯2 ) − (µ1 − µ2 ) σ∆¯x

(3.5)

mit der aus den Stichproben geschätzten Standardabweichung

#∆¯x = σ

%

n1 s21 + n2 s22 1 1 ·( + ) n1 + n2 − 2 n1 n2

(3.6)

8

3.3 Pretests Für N1 = N2 vereinfach sich 3.6 zu

σ∆x =

%

s21 + s22 n−1

(3.7)

Gilt N1 = N2 und s1 = s2 :

#∆¯x σ



√ 2 2 =s· √ = σpop · √ n−1 N

(3.8)

Sind die Populationsvarianzen bekannt, berechnet man

σ∆¯x =

%

σ12 σ22 + n1 n2

(3.9)

Hat man den z-Wert errechnet, bestimmt man je nach α-Niveau und Art der Fragestellung (ein- oder zweiseitig) den zcrit -Wert. Dieser ist immer an der Gegenwahrscheinlichkeit des α-Fehlers abzulesen, z1-α . Einseitig: zcrit = 1.65 α = 5% zcrit = 2.33 α = 1% Zweiseitig: zcrit = 1.96 α = 5% zcrit = 2.58 α = 1% Eine Ablehnung der H0 erfolgt, wenn gilt |z| > zcrit .

3.3 Pretests Einige Testverfahren setzten für ihr erfolgreiches Gelingen vorraus, dass sich die Streuungen der gezogenen Stichprobe unterschiedlicher Populationen annäherend gleichen. Dies ist einsichtig, wenn man bedenkt, dass das Dispersionsmaß der Stichprobe die Populationsstreuung nicht exakt wiedergeben kann und deshalb mathematisch modifiziert werden muss; man spricht vom nicht erwartungstreuen Schätzer. Varianzen, die hinreichend ähnlich sind, nennen wir

9

3.3 Pretests homogen. Pretests wie der Bartlett-Test können die Varianzhomogenität testen und somit das Erfüllen dieser Vorraussetzung sicherstellen. Beim Testen auf homogene Varianzen sind wir daran interessiert, die Inhomogenität relativ früh festzustellen, (d.h. H1 : σ02 #= σ12 anzunehmen), um die Testschärfe des Folgetests sicherzustellen. Deshalb testet man auf einem relativ hohen α-Niveau von 0.10 oder 0.25, um β zu minimieren.

3.3.1 F-Test Was teste ich? Die Stichprobenvarianzhomogenität. Typische Fragestellungen »Entstammen die Stichprobenvarianzen derselben Grundgesamtheit?« »Sind die Vorraussetzungen für den t-Test für unabhängige Stichproben erfüllt?« Vorgehen Teststatistik ist der Quotient zweier χ2 -verteiler Variablen, definiert als F : s2 · #2 σ F = 12 = 2 #2 s · σ

n1 n1 −1 n2 n2 −1

(3.10)

Die größere Varianz ist in den Zähler zu stellen. Fcrit ermittelt sich aus dem Signifikanzniveau, sowie n1 -1 Zähler- und n2 -1 Nennerfreiheitsgraden. Es besteht keine Varianzhomogenität, wenn gilt F > Fcrit .

3.3.2 Bartlett-Test Was teste ich? Die Stichprobenvarianzhomogenität; der Bartlett-Test testet schärfer als der F-Test. Typische Fragestellungen Siehe 3.3.1. Vorgehen Getestet wird in der χ2 -Verteilung. Die Prüfgröße ist definiert als χ2 = −

& ) 2.303 '( 2 · ni − 2 · log10 (σpooled ) C i

( i

*

(ni − 1) · log10 (σi2 )

(3.11)

10

3.4 t-Tests mit 2 #pooled = σ

n1 · s21 + n2 · s22 (n1 − 1) + (n2 − 1) 

1 ( C =1+ · 3

i

(3.12) 

1 1  −!  ni − 1 (ni − 1)

(3.13)

i

Man summiert also den Stichprobenumfang (Ni bzw Ni − 1) auf, berechnet ihre Varianzen (σi ), σpooled und noch C.

3.4 t-Tests Der t-Test approximiert für große Stichproben immer genauer die Normalverteilung und ist deshalb auch bei sehr großen N möglich; für N1 + N2 ≤ 100 kann man ihn der Normalverteilung vorziehen, da er schärfer testet.

3.4.1 t-Test für unabhängige Stichproben Was teste ich? Das Bestehen eines Unterschieds zwischen zwei Stichproben. Gilt N1 + N2 < 50 müssen die Stichproben aus normalverteilten Grundgesamtheiten stammen. Weitere Vorraussetzungen Die Populationsvarianzen der Stichproben müssen homogen sein (siehe F-Test). Besteht keine Varianzhomogenität, muss auf ein parameterfreies Testverfahren zurückgegriffen werden (siehe 4.1). Die Stichproben müssen unabhängig sein. Typische Fragestellungen Siehe 3.2. Vorgehen Getestet wird in der t-Verteilung der Differenzen von Mittelwerten (∆¯ x). Der zu testende t-Wert wird bestimmt durch t=

(¯ x1 − x ¯2 ) − (µ1 − µ2 ) σ∆¯x

(3.14)

Die Standardabweichung wird wie beim z-Test bestimmt. tcrit wird mit Hilfe des Signifikanzniveaus und der Freiheitsgrade bestimmt, wobei

11

3.4 t-Tests

tcrit = t1− α2 (zweiseitig) tcrit = t1−α (einseitig) Die Anzahl der Freiheitsgrade (degrees of freedom, df ) beim unabhängigen t-Test beträgt df = n1 + n2 − 2

(3.15)

Eine Ablehnung der H0 erfolgt, wenn |t| > tcrit .

3.4.2 t-Test für abhängige Stichproben Was teste ich? Das Bestehen eines Unterschieds zwischen zwei abhängigen Stichproben. Gilt N < 30 (N entspricht der Anzahl der Messwertpaare) müssen die Stichproben aus normalverteilten Grundgesamtheiten stammen. Abhängige Testdesigns sind z.B. Re-Test-Verfahren oder Paar-Tests. Bei abhängigen Designs gilt: N1 =N2 . Typische Fragestellungen Siehe 3.2. Vorgehen Getestet wird in der Normalverteilung der Mittelwerte der Differenzen. Die Varianzen der Stichproben müssen nicht homogen sein. Der zu testende t-Wert errechnet sich aus t=

x∆ − µ∆ (x1 − x2 ) − (µ1 − µ2 ) = σ x∆ σ x∆

(3.16)

Satz 7 (Verteilungen der t-Tests) ∆x¯ im unabhängigen t-Test entspricht somit x ¯∆ im abhängigen t-Test. Da die Standardfehler der Verteilungen verschieden sind (σ∆¯x #= σx∆ ) handelt es sich dennoch um unterschiedliche Verteilungen. Es gilt σ∆ s∆ # x∆ = √ = √ σ n n−1

(3.17)

#x∆ kann entweder direkt aus den Messwertpaaren oder den Einzelwerten σ geschätzt werden.

12

3.5 χ2 -Tests 1. Schätzung aus Messwertpaaren:

σ∆ =

1 2! 2 N 2 (∆xi − x∆ )2 3 i=1

N −1

=

%

N · s2∆ N −1

(3.18)

∆xi entspricht hierbei der Differenz eines beliebigen Messwertpaares; x ¯∆ entspricht dem Mittelwert aller dieser Differenzen. 2. Schätzung aus Einzelwerten: s∆ =

4

s21 + s22 − 2 · Cov(x1 , x2 )

(3.19)

tcrit wird mit Hilfe des Signifikanzniveaus und der Freiheitsgrade bestimmt: df = n − 1

(3.20)

Eine Ablehnung der H0 erfolgt, wenn |t| > tcrit .

3.5 χ2 -Tests 3.5.1 Testen von Häufigkeitsunterschieden Wann benutze ich den Test? Zur Analyse von Häufigkeitsunterschieden. Typische Fragestellungen »Acht Käsesorten werden angeboten. Verkauft sich eine Sorte davon signifikant häufiger?« Vorgehen Getestet wird in der χ2 -Verteilung. Der zu testende χ2 -Wert errechnet sich aus χ2 =

k ( (oi − ei )2 i=1

ei

(3.21)

wobei k die Anzahl der Kategorien angibt (z.B. Anzahl der verschiedenen Jahreszeiten) und nicht mit N zu verwechseln ist. oi entspricht einem beliebigen

13

3.5 χ2 -Tests beobachteten Wert (Tabellenwert) und ei einen nach einer Hypothese erwarteten Wert dazu, der sich errechnet aus dem Mittelwert von oi . Gilt

k !

i=1

oi =

k !

i=1

ei = N , ist also die Summe der beobachteten Werte gleich

groß jener der erwarteten, so gilt folgender Spezialfall: χ2 =

k ( o2 i

i=1

ei

(3.22)

−N

χ2crit wird anhand des Signifikanzniveaus und k − 1 Freiheitsgraden (für eindimensionale Häufigkeitstabellen; siehe Unabhängigkeitstest) bestimmt. χ2crit = χ2(1−α;k−1)

(3.23)

H0 wird abgelehnt, wenn gilt χ2 > χ2crit .

3.5.2 Unabhängigkeitstest Wann benutze ich den Test? Beim Testen der stochastischen Unabhängigkeit zweier Merkmalshäufigkeiten. Typische Fragestellungen »Gibt es tedenziell mehr weibliche oder männliche Psychologiestudenten?« »Wieviele Versuchspersonen benötigt man, damit das Testergebnis signifikant wird?« Verfahren Man habe ein dichotomes Merkmal zweistufig untersucht: Tabelle 3.1: Absolute Häufigkeiten einer Population (Beispiel). !

Raucher + Raucher !

Männlich (+)

Weiblich (-)

68 45 113

56 38 94

124 83 207

Wir wollen für den Test davon ausgehen, dass die Merkmale unabhängig voneinander sind. Die erwartete absolute Häufigkeit für Zeile i und Spalte j ist dann eij und berechnet sich nach dem Unabhängigkeitssatz aus

14

3.5 χ2 -Tests

eij =

oi · oj Zeilensumme · Spaltensumme = N N

Im Beispiel wäre e11 also e11 =

o1 · o1 124 · 113 = ≈ 67.69 207 207

eij wird für jede Tabellensparte seperat ausgerechnet. Handelt es sich nicht wie im Beispiel um absolute, sondern um relative Häufigkeiten, müssen diese erst durch Multiplikation mit N zuerst in absolute Häufigkeiten umgerechnet werden. Die Teststatistik χ2 berechnet sich dann aus χ2 =

l ( k ( (oij − eij )2 i=1 i=1

(3.24)

eij

wobei "ij den beobachteten absoluten Häufigkeitswert der jeweiligen Tabellensparte meint (im Beispiel wäre "11 = 68), von dem der dazugehörige erwartete absolute Häufigkeitswert, den wir errechnet haben (zu "11 wäre dies e11 = 67.69) subtrahieren, dann quadrieren und noch einmal durch eij dividieren. Das Aufsummieren dieser Werte ergibt dann χ2 . Alternativ ist auch folgende Formel möglich: Tabelle 3.2: Variableverteilung im χ2 -Test.

Männlich (+)

Weiblich (-)

a c

b d

Raucher + Raucher χ2 = N ·

(a · d − b · c)2 (a + b) · (c + d) · (a + c) · (b + d)

(3.25)

Die Signifikanzschranke wird comme d’habitude bestimmt: χ2crit = χ2(1−α;df )

(3.26)

wobei df = (l − 1)(k − 1) mit l Zeilen und k Spalten; bei zwei zweistufig untersuchten Merkmalen gilt also df = 1. Die Entscheidungsregel entspricht der des χ2 -Tests für Häufigkeitsunterschiede.

15

3.5 χ2 -Tests

3.5.3 φ-Korrelation Der χ2 -Unabhängigkeitstest ist auch der Signifikanztest für die φ-Korrelation, d.h. er prüft, ob gilt |φ| > 0. φ ist folgendermaßen definiert: φ=

%

χ2 N

(3.27)

Ihr Wertebereich befindet sich also per definitionem zwischen 0 und 1. Alternativ lässt sich der Koeffizient auch direkt über die beobachteten Häufigkeiten bestimmen: φ= 5

a·d−b·c (a + c) · (b + d) · (a + b) · (c + d)

(3.28)

was den Wertebereich in den negativen Bereich (−1 ≤ φ ≤ 1) erweitert. φ gibt die Stärke des Zusammenhangs zwischen den beiden Merkmalen an und zugleich über sein Vorzeichen auch die Richtung dieser Korrelation; ein positives Vorzeichen bedeutet hierbei auch eine positive Korrelation und vice versa. Wird die Anordnung innerhalb der Vierfeldertafel vertauscht, verliert das Vorzeichen seine Aussagekraft; in diesem Fall lässt sich die Art des Zusammenhangs nur mit Hinblick auf die Häufigkeiten innerhalb der Vierfeldertafel bestimmen. Wäre in unserem Beispiel φ positiv, hieße dies, das die Tendenz, dass Männer eher Raucher sind (und Frauen nicht), stärker ist, als jene, das Männer eher keine Raucher sind (Frauen aber schon).

3.5.4 χ2 -Anpassungstest Wann benutze ich den Test? Um zu testen, ob die unbekannte Verteilung eines statistischen Merkmals annährend normalverteilt ist. Typische Fragestellungen »Reicht die Verteilung der Messwerte approximativ an die Normalverteilung heran?« Vorgehen Getestet wird in der χ2 -Veteiltung nach folgendem Schema; 1. Zuerst bestimmt man jeweils die Mitte der Tabellenpaare (ug und og meinen dabei den unteren und den oberen Wert):

16

3.5 χ2 -Tests

xM itte =

xug + xog 2

(3.29)

i) 2. Man nimmt N = Σh(xi ), bestimmt durch h(x N die relativen Häufigkeiten und berechnet den Stichprobenmittelwert, die Varianz und Standardabweichung:

x=

n ( i=1

s2 =

xi ·

n ( i=1

h(xi ) N

(xi − x)2 ·

(3.30)

h(xi ) N

(3.31)

3. Man berechnet die z-Werte für jeden Tabellenwert xog :

zogi =

xogi − x s

(3.32)

4. Man bestimmt mit Hilfe der Standardnormalverteilungstabelle den Wert der zu z gehörenden Wahrscheinlichkeit F (zogi ). Hiermit berechnet man anschließend die erwarteten relativen Häufigkeiten der Verteilung (P ) mit F (zogi+1 ) − F (zogi ), also z.B. F (z2 ) − F (z1 ). F (z1 ) wird hierbei nicht korrigiert. 5. Durch Pi · N = ei erhält man die absoluten erwarteten Häufigkeiten der Verteilung. Werte ≤ 5 werden dabei ignoriert; df = k − 1 muss bei der Berechnung von χ2crit dann angepasst werden, indem man die Anzahl der ignorierten Werte von k subtrahiert. 6. χ2 berechnet sich aus

χ2 =

n ( (h(xi ) − ei )2 i=1

ei

(3.33)

7. Die Verteilung ist nicht annährend normalverteilt, wenn gilt χ2 > χ2crit .

17

3.6 Korrelationstest und Fisher-z-Transformation

3.6 Korrelationstest und Fisher-z-Transformation Wann benutze ich den Test? Um zu testen, ob die Stichprobenkorrelation r der Population mit der wahren Korrelation ρ entstammt. Typische Fragestellungen »Kann man aufgrund der Stichprobenkorrelation sagen, dass innerhalb der Population kein Zusammenhang besteht?« »Unterscheiden sich die Stichprobenkorrelationen signifikant?« Vorgehen Gilt ρ = 0, wird in der t-Verteilung der Korrelationskoeffizienten (r) getestet. Der zu testende t-Wert errechnet sich in diesem Fall aus r·



t= 5

N −2 1 − r2

(3.34)

Die Entscheidung wird wie gewohnt durch einen Vergleich mit tcrit getroffen (df = N − 2). Will man die kritische Korrelation der Verteilung bestimmen, berechnet man diese durch r0 = ± 5

t0 N − 2 + t2o

(3.35)

r0 gibt hierbei den Wert der Signifikanzgrenze an (t = tcrit ); wird dieser Wert überschritten, ist das Testergebnis signifikant. Will man prüfen, ob die Stichprobenkorrelation r einer Population mit der wahren Korrelation ρ entstammt, testet man, je nach Stichprobengröße, in der Fisher-z-Standadnormalverteilung der Korrelationskoeffizienten (Z(r)) oder der t-Verteilung. Der zu testende z-Wert errechnet sich aus der Fisher-z-Transformation: z=

Z(r) − Z(ρ) σZ

(3.36)

mit 1 1+ρ · ln( ) 2 1−ρ 1 1+r Z(r) = · ln( ) 2 1−r

Z(ρ) =

(3.37) (3.38)

18

3.6 Korrelationstest und Fisher-z-Transformation und

σZ =

%

1 N −3

(3.39)

Siginifikanz besteht, wenn gilt z > zcrit . Ist die Stichprobe zu klein, um annährend normalverteilt zu sein (z.B. N = 20), wird mit df = N − 2 und folgendem t-Wert in der t-Verteilung getestet √ r−ρ 5 t= 5 · N −2 2 2 (1 − r ) · (1 − ρ )

(3.40)

Will man testen, ob zwei verschiedene Stichprobenkorrelationen aus einer Population mit derselben Korrelation ρ stammen, testet man mit Z(r1 ) − Z(r2 ) σZ(r1 )−Z(r2 )

(3.41)

1 1 + N1 − 3 N2 − 3

(3.42)

z= σZ(r1 )−Z(r2 ) =

%

19

4 Parameterfreie Tests Bestimmte Testszenarios verbieten es, von einer Normalverteilung der Population der Testwerte auszugehen; Reaktionszeiten sind ein gutes Beispiel hierfür. Dies gilt auch, wenn keine Varianzhomogenität zwischen zweien oder mehreren Populationen besteht. Das bedeutet, dass wir nicht auf Basis einer Intervallskala testen können. Wir müssen somit das Skalenniveau erniedrigen und auf die folgenden, ordinalskalierten Verfahren zurückgreifen. Der Signifikanztest für Anteile basiert auf hypergeometrisch- bzw. binomialverteilten Daten und ist deshalb binomialskaliert, lässt sich aber gut an die Normalverteilung approximieren.

4.1 Mann-Whitney-U-Test Wann benutze ich den Test? Kann aufgrund verletzter Varianzhomogenität kein t-Test durchgeführt werden, muss man auf den parameterfreien U-Test für unabhängige Stichproben ausweichen. Dieser Test prüft, wie der t-Test, ob zwei verschiedene Verteilungen zur selben Grundgesamtheit gehören. Vorgehen Getestet wird für kleine Stichproben (N1 + N2 ≤ 201 ) in der UVerteilung, für größere in der Standardnormalverteilung. Man habe die Rangdaten zweier unabhängiger Stichproben N1 und N2 : Tabelle 4.1: Datensatz zweier Stichproben (Beispiel).

N1

8

15

12

14

N2

14

16

14

18

1. Zuerst wird ein gemeinsames Ranking beider Stichprobendaten erstellt, d.h. man weist dem niedrigsten Wert aus beiden Stichproben Platz 1 zu, dem zweitniedrigsten Platz 2, usw., also:

1

Diese Faustregel variiert je nach Literatur sehr. Andere Angaben wären N1 + N2 ≤ 16 oder – für eine sehr schwache Approximation – N1 + N2 ≤ 10

20

4.1 Mann-Whitney-U-Test

Tabelle 4.2: Ranking der Datensätze.

Platz

1

2

4

6

7

8

Wert

8

12

14

15

16

18

Zu Beachten ist hierbei, dass der Wert 14 zweimal in N2 und einmal in N1 auftritt, deshalb bildet man zur Bestimmung des Rangplatzes hier das arithmetische Mittel der theoretisch anfallenden Rangplätze 3+4+5 = 4. 3 Diese Rangbindung nimmt auch Einfluss auf die Standardabweichung, wie wir später sehen werden. 2. Die Rangplätze werden wieder auf die verschiedenen Stichproben aufgeteilt Tabelle 4.3: Rangplätze, stichprobenweise separiert (Beispiel).

N1

1

2

4

6

N2

4

4

7

8

und zu T1 ,T2 aufsummiert, in diesem Beispiel: T1 =13 und T2 =23. Rangbindungen werden also ihrer Anzahl entsprechend aufsummiert (hier: dreimal Rang 4). 3. Die Teststatistik U bzw. U $ errechnet sich aus N1 (N1 + 1) − T1 2 N2 (N2 + 1) U $ = N1 · N2 + − T2 2 U = N1 · N2 +

(4.1) (4.2)

Es gilt die Beziehung U $ + U = N1 · N2

(4.3)

Eine Kontrollrechnung ist somit bespielweise folgendermaßen möglich: U $ = N1 · N2 − U

(4.4)

21

4.2 Wilcoxon-Tests 4. a) Man testet mit dem kleinere U-Wert. Dieser muss Ucrit unterschreiten (!), wir lehnen die Ho also ab, wenn gilt U < Ucrit . b) Bei größeren Stichproben testet man in der Standardnormalverteilung (Symmetrie!) mit U − µU σU U $ − µU −z = σU z=

(4.5) (4.6)

wobei

µU =

N1 · N2 2

(4.7)

σU =

%

(4.8)

N1 · N2 (N1 + N2 + 1) 12

Im Falle von Rangbindungen muss σU korrigiert werden:

σU,Korr =

%

1 2

k 2N3 − N ( N1 · N2 t3i − ti ·3 − N · (N − 1) 12 12 i=1

(4.9)

N =N1 +N2 ti ist die Anzahl der Personen, die sich einen Rangplatz teilen (im Beispiel: t=3). k ist die Anzahl der Gruppen, die sich einen Rangplatz teilen (im Beispiel: k=1) H0 wird abgelehnt, wenn gilt |z| > zcrit .

4.2 Wilcoxon-Tests 4.2.1 Wilcoxon-Test für abhängige Stichproben Was teste ich? Der Test prüft, ob zwei abhängigen Stichproben aus der selben Grundgesamtheit stammen; im Gegensatz zum t-Test für abhängige Stichproben ist der Wilcoxon-Test an keine Verteilung gebunden, d.h. die Stichproben müssen nicht aus normalverteilten Grundgesamtheiten stammen.

22

4.2 Wilcoxon-Tests Vorgehen Für N > 20 testet man in der Standardnormalverteilung, für kleinere Werte ist die Teststatistik. Getestet wird nach folgendem Schema: Man habe die Rangdaten zweier abhängiger Stichproben N1 und N2 : Tabelle 4.4: Datensatz zweier Stichproben (Beispiel).

N1

9

10

2

3

6

N2

9

1

9

5

11

1. Man bildet die Differenzen der Einzelwerte (∆) mit ∆i =xi1 -xi2 , wobei Nulldifferenzen ignoriert werden. Dann bestimmt man deren Betrag (|∆|), nach denen man die Rangplätze verteilt: Tabelle 4.5: Differenzenbeträge der Stichprobendaten und deren Ranking.

N1

9

10

2

3

6

N2

9

1

9

5

11



9

-7

-2

-5

|∆|

9

7

2

5

4

3

1

2

Platz

2. Die Plätze werden nach Vorzeichen sortiert und zu T , T $ aufsummiert; Der T-Wert mit dem selteneren Vorzeichen wird als Teststatistik verwendet: Platz + Platz -

4 3

1

Eine Kontrollrechnung ist durch folgende Beziehung möglich:

T =

N · (N + 1) − T$ 2

(4.10)

3. a) Tcrit wird durch α und N (abzüglich der Nulldifferenzen) bestimmt; N meint auch hier wieder die Anzahl der Messwertpaare. Eine Ablehnung der H0 erfolgt, wenn gilt T 25 sind T und T $ normalverteilt; der zu testende z-Wert errechnet sich dann aus

23

4.2 Wilcoxon-Tests

T − µT σT $ T − µT −z = σT z=

(4.11) (4.12)

Treten Rangbindungen aus, wird auch hier σT korrigiert:

µT =

N · (N + 1) 4

σT,Korr =

(4.13)

1 2 k t3 −t ! 2 i i 2 N · (N + 1) · (2 · N + 1) − 2 3 i=1

24

(4.14)

4.2.2 Wilcoxon-Vorzeichen-Rangtest für den Median Wann benutze ich den Test? Man habe eine einfache Stichprobe, die nicht sicher aus einer normalverteilten Grundgesamtheit stammt und wollen deren Abweichung vom Median Typische Fragestellungen »Weichen die Stichprobendaten sigfinikant vom Sollwert ab?« Vorgehen Teststatistik ist die Rangsumme der positiven Abweichungen vom Median x0 (W +), d.h. es gilt: W+ =

αi

6

(

(4.15)

rg|di | · αi

1 wenn ∆i > 0 0 wenn ∆i < 0

7

(4.16)

Das Verfahren ist dem Wilcoxon-Tests für abhängige Stichproben ähnlich, aber

24

4.3 Binomialtest zu 1.: Es gilt ∆i = xi − x0 , d.h. es werden die Differenzen der Werte vom Median gebildet. Die Stichprobe wird hierbei zweigeteilt in Werte, die über (W + ) und unter (W − ) x0 liegen. zu 2.: Nur die positiven Ränge werden nach dem Ranking zu W + zusammengefasst.2 Ein Vergleich von W + und W − zeigt jedoch schon die Tendenz der Mediansabweichung. H0 wird abgelehnt, wenn gilt + • W + < Wα+ oder W + > W1−α für einseitiges Testen und + • W + < W α+ oder W + > W1− α für zweiseitiges Testen. 2

2

Für N > 20 ist W + normalverteilt; µW + und σW + errechnet man dann aus µW + =

N · (N + 1) 4

(4.17)

2 σW+ =

N · (N + 1)(2 · N + 1) 24

(4.18)

4.3 Binomialtest Was teste ich? Es handelt sich um einen Anteilstest; man testet, ob der in einer Stichprobe beobachtete Anteil p der Population mit dem wahren Anteil P entstammt. Typische Fragestellungen »In einer Berliner Stichprobe mit N Befragten beträgt der Anteil Spätaussiedler 2,3%, in einer Mainzer Stichprobe (N ) nur 1,8%. Unterschieden sich die Umfrageergebnisse signifikant?« »Eine Stichprobe beim Obstverkäufer zeigt, das drei von zwanzig Litschis faul sind. Kann man damit Verkäufer bei einem Signifikanzniveau von 10% trauen, wenn er sagt, dass höchstens 5% seiner Ware faul ist?« 2

Es ist auch möglich, W + und W − als Teststatistiken zu verwenden. Befindet sich einer der Prüfwerte jenseits seiner zugeordneten Signifikanzschranke, führt dies zur Ablehnung der H0 .

25

4.3 Binomialtest Vorgehen p sei definiert als p=

nA n

(4.19)

wobei n die Stichprobengröße meint und nA die Anzahl der beobachteten Werte, an deren Anteil (p) an der Stichprobe man interessiert ist. Die Prüfgröße ist hierbei P (nA |n) und berechnet sich je nach Aufgabenstellung, hier für »höchstens nA Teile aus n«: P (x ≤ nA |n) =

nA (

x=1

8 9

n · P x · (1 − P )n−x x

(4.20)

P (nA |n) wird dann mit einem kritischen Wert aus der Binomialtabelle (Pn,p,α ) verglichen; da dieser Wert nicht so genau wie in anderen Verteilungen bestimmbar ist, entscheidet man sich meistens für ein konservatives Kriterium, d.h. H0 begünstigend. Gilt n · p · q ≥ 9 existiert ein Konfidenzintervall ∆crit = P ± z1− α2 · σ%

(4.21)

mit

σ% =

%

P · (1 − P ) n

(4.22)

Hat man zwei Anteile p1 und p2 und gilt n · p · q ≥ 9, so ist ihre Differenz ∆p normalverteilt mit σ∆P =

z=

$

p1 · q 1 p 2 · q 2 + n1 n2

p1 − p2 σ∆P

(4.23)

(4.24)

26

5 En plus 5.1 Effektstärke Die Verteilungen der Nullhypothese und Alternativhypothese müssen mindestens um einen bestimmten Wert differieren, damit das Testverfahren einen inhaltlich bedeutsamen (hiermit ist nicht die statistische Signifikanz gemeint) Unterschied konstatieren kann. Das standardisierte Maß hierfür ist die Effektstärke. Satz 8 (Effektstärke) Die Effektstärke gibt den Abweichungswert des Parameters µ1 von µ0 an, der notwenig ist, um einen spürbaren Effekt zu erhalten. Sie ist definiert als ε=



2 · (µ1 − µ0 ) σ

(5.1)

α-Fehler, β-Fehler und * bilden die inhaltichen Parameter des Testverfahrens; da bei (zu) kleinen Stichprobengrößen schon geringe Mittelwertsunterschiede einen relativ hohen Effekt hervorrufen, werden sie auch als Parameter für den optimalen Stichprobenumfang eines Tests benutzt. Des Weiteren ist sie notwenig, um die Teststärke eines Testverfahrens zu bestimmen.

5.2 Teststärke Die Teststärke gibt die Wahrscheinlichkeit an, mit der ein Test zugunsten einer spezifischen Alternativhypothese entscheidet, d.h. eine falsche Nullhypothese auch als solche zu erkennen. Definiert ist sie mit 1 − β. Sie ist abhängig vom Stichprobenumfang N und der Effektgröße. Um eine hohe Trennschärfe zu erhalten, wird somit (meistens) ein möglichst kleiner β-Fehler angestrebt. Hat man den Wert der Signifikanzschranke x ¯0 , den Populationsparamter µ1 und den Standardfehler σx¯ gegeben, brechnet sich zβ aus zβ =

xo − µ1 σX

(5.2)

27

5.3 Standardisierter Mittelwertabstand womit sich dann die Wahrscheinlichkeit für den β-Fehler aus der Standardnormalverteilungstabelle bestimmen lässt. Je geringer der Unterschied zwischen µ0 und µ1 ist, desto unschärfer testet das Verfahren. Dies gilt auch für eine hohe Stichprobenstreuung, die sich in einem ebenfalls hohen Standardfehler niederschlägt; dies lässt sich durch eine entsprechend hohe Stichprobengröße vermeiden.

5.3 Standardisierter Mittelwertabstand Sind die Varianzen zweier Standardnormalverteilungen identisch, berechnet sich der standartisierte Mittelwertabstand d$ aus d = z0 − z1 = F −1 {Correct Rejection} − F −1 {Miss} "

(5.3)

in Einheiten der Standardabweichung. Das sogenannte faire Kriterium liegt vor, wenn gilt z0 = z1 mit x0 =

1 · (µ1 + µ0 ) 2

(5.4)

Allgemein bestimmt sich der Kriteriumswert aus x0 =

σ0 µ1 + σ1 µ0 σ0 + σ1

(5.5)

28