Idee des Testens. Heuristische Verfahren

(c) Projekt Neue Statistik 2003 - Lernmodul: Idee des Testens Idee des Testens Heuristische Verfahren Datensituation Testproblem Überprüfen der Hypot...
3 downloads 2 Views 35KB Size
(c) Projekt Neue Statistik 2003 - Lernmodul: Idee des Testens

Idee des Testens Heuristische Verfahren Datensituation Testproblem Überprüfen der Hypothese Rangvergabe Prüfgröße Prüfverteilung Testentscheidungen - Signifikanzniveau Testentscheidung - Kritischer Wert

-

Wirkt Medikament A besser als Medikament B? Ist das Einkommen von FDP-Wählern größer als das von SPD-Wählern? Zahlt man in Norddeutschland weniger für 1l Normalbenzin als in Süddeutschland? Schneit es mehr in den französischen oder in den schweizer Alpen?

In all diesen Fragestellungen geht es darum, ob die Daten zweier Stichproben einen auffälligen Unterschied in ihrer Lage aufweisen - sind die Werte der einen Stichprobe tendenziell kleiner als die Werte der anderen Stichprobe? Dabei heißt "auffällig", dass der Unterschied, den wir für die Stichproben sehen, auch für die entsprechenden Grundgesamtheiten gilt. Überlegen Sie, wie Sie aufgrund zweier Stichproben entscheiden könnten, ob die Vermutung "französische Skigebiete haben mehr Schnee als schweizer Skigebiete" zutrifft.

Histogramme, empirische Verteilungsfunktionen, Boxplots, arithmetische Mittel, Mediane, Varianzen geben einen ersten Einblick in die Daten. (Siehe ) Heuristische Verfahren Lageunterschied Am einfachsten lässt sich ein solches Problem lösen, wenn wir davon ausgehen können, dass die beiden Verteilungen vom selben Typ sind. Sie haben also dieselbe Form und besitzen dieselbe Varianz, und unterscheiden sich lediglich durch ihre Lage auf der

Page 1

(c) Projekt Neue Statistik 2003 - Lernmodul: Idee des Testens

horizontalen Achse. Betrachten wir einmal die folgenden Boxplots:

Boxplots von simulierten Normalverteilungen mit jeweils 1000 Zufallswerten für E(Blau)=0 und Var(Blau)=1 sowie E(Orange)=5 und Var(Orange)=1.

Die Grafik zeigt Boxplots von simulierten Normalverteilungen, die sich zwar in ihrem Mittelwert unterscheiden, nicht aber durch ihre Varianz. Verteilungen, die sich nur durch ihre Lage, nicht aber durch ihre Variabilität oder ihre Form unterscheiden, können gut miteinander verglichen werden. Skalenunterschied Schwieriger wird es, wenn die Annahme gleicher Varianzen nicht unterstellt werden kann. In der nächsten Abbildung ist diese Annahme verletzt. Es wurden zwei Normalverteilungen mit unterschiedlichen Mittelwerten sowie unterschiedlichen Varianzen simuliert.

Page 2

(c) Projekt Neue Statistik 2003 - Lernmodul: Idee des Testens

Boxplots von simulierten Normalverteilungen mit jeweils 1000 Zufallswerten für sowie E(Blau)=0 und Var(Blau)=4 sowie E(Orange)=5 und Var(Orange)=1.

Fazit Obwohl sich die orange und die blaue Verteilung offensichtlich in ihrer Lage unterscheiden, wird es schwierig sein, diesen Unterschied festzustellen, ohne die Varianzen mit zu berücksichtigen. In Abbildung 1 wird der Lageunterschied dadurch deutlich, dass die orange Stichprobe überwiegend größere Werte annimmt, d.h. der Wert der orangen Verteilung an einer bestimmten Stelle meist größer ist als der der blauen Verteilung an der Stelle . Diese Separation der Daten lässt sich bei den Boxplots in Abbildung 2 nicht erkennen. Dadurch, dass die Werte der blauen Verteilung sehr breit streuen, liegt der Wertebereich der orangen Verteilung vollständig in dem Wertebereich der blauen Verteilung. Man kann also nicht sagen, dass die orange Verteilung tendenziell größere Werte besitzt, denn dieselben Werte kann auch die blaue Verteilung annehmen. Zu einem Lageunterschied kommt also noch ein Skalenunterschied dazu. In einem solchen Fall muss bei einem Test auf Lagealternativen zusätzlich die Streuung der Daten berücksichtigt werden. Im Folgenden sollen im Gegensatz zu obigen eher heuristischen Verfahren objektive Methoden, so genannte statistische Tests, eingeführt werden, die einen Lageunterschied zwischen zwei Verteilungen überprüfen, denen dieselbe Varianz zugrunde liegt, also solchen Verteilungen, wie sie in Abbildung 1 dargestellt sind. Im Applet Lage-/Skalenunterschiede (a47.jar) können Sie sich intensiver mit der Bedeutung von Lage- und Skalenunterschieden vertraut machen. Zusätzlich weist das Applet zwei verschiedene Ansichten auf: die Modellebene und die Empirieebene. Die Modellebene zeigt Ihnen die theoretischen Verteilungen. Aus diesen werden zufällig die Stichproben gezogen. Für viele statistische Tests müssen im Vorfeld bestimmte Annahmen über die Verteilung der Grundgesamtheit gemacht werden (z.B. das die Normalverteilung zugrunde gelegt wird). Links daneben zeigt Ihnen die empirische Ebene, wie sich die realen Daten aus der Stichprobe verteilen. Als Darstellungsweise können Sie zwischen Histogramm und Boxplot wählen. Sie können folgendes beobachten: Die Daten aus den Stichproben schwanken unterschiedlich stark um das theoretische Modell, aus dem die Stichproben gezogen wurden. (Weitere Informationen finden Sie in der Hilfe des Applets.) Aufgaben A) Wie verhält sich die Empirieebene gegenüber der Modellebene, wenn die Anzahl der Beobachtungen erhöht wird? B) Wann ist ein Lage- und/oder ein Skalenunterschied besser zu erkennen:

Page 3

(c) Projekt Neue Statistik 2003 - Lernmodul: Idee des Testens

a) bei weniger / mehr Beobachtungen? b) bei einem kleinem / großen Abstand der Mittelwerte? c) bei gleicher / unterschiedlicher Streuung? d) im Boxplot / im Histogramm? Datensituation Wir wollen das Problem, einen Lageunterschied zu erkennen, näher erläutern, indem wir zwei Zahlenreihen und mit jeweils n=m=4 Beobachtungen betrachten. Von diesen nehmen wir an, dass wir sie aus zwei Grundgesamtheiten G1 und G2 zufällig gezogen haben: Wir vermuten, dass in der ersten Zahlenreihe tendenziell kleinere Werte auftreten als in

Versuchen Sie dieses Problem als Testproblem, d.h. über zwei sich ausschließende Hypothesen in Worten zu beschreiben. Testproblem Testproblem Wir haben den Verdacht, dass die Zahlenreihe aus einer Grundgesamtheit stammt, die tendenziell kleinere Werte hervorbringt, als die Grundgesamtheit, aus der die Zahlenreihe stammt. Diesen Verdacht wollen wir statistisch beweisen und absichern. Die interessierende Forschungshypothese wird dabei in die Alternativhypothese geschrieben. Warum dies so ist, lernen Sie in dem . In der Nullhypothese steht, woran wir festhalten, solange das Gegenteil nicht bewiesen ist. Bitte beachten Sie, dass das Festhalten an der Nullhypothese kein statistischer Beweis für die Nullhypothese ist! Denken Sie an das Richterbeispiel aus dem Lernmodul Grundlegende Bemerkungen. Durch diese Überlegungen ergibt sich für unser Zahlenbeispiel folgendes Testproblem: Nullhypothese

Alternativhypothese Die Werte von

sind

Die Werte von sind tendenziell nicht kleiner als die tendenziell kleiner als die Werte von Werte von

Überprüfen der Hypothese Gepoolte Stichprobe Um das aufgestellte Testproblem mit einem statistischen Test zu überprüfen, betrachten

Page 4

(c) Projekt Neue Statistik 2003 - Lernmodul: Idee des Testens

wir zuerst die Lage der Zahlen zueinander. Wenn die Werte zum Beispiel auf einen Zahlenstrang abgebildet werden, würden die Werte von dann wohl eher links von den Werten von liegen? Die Werte beider Zahlenreihen werden folglich am besten kombiniert und der Größe nach geordnet, ohne jedoch zu vergessen, aus welcher der Ursprungsreihen - oder - sie stammen. Die Zusammenführung mehrerer Stichproben nennt man gepoolte Stichprobe. Hier besteht die gepoolte Stichprobe aus N=8 Werten. Betrachten Sie die gepoolte Stichprobe aus und Die Daten interessieren an sich nicht, sondern nur die Lage der Beobachtungen innerhalb der gepoolten Stichprobe. Was kann getan werden, um das zu verdeutlichen? Rangvergabe Uns interessiert nur die Lage der Daten, nicht aber, wie weit die Daten auseinander liegen. Deshalb ist es ausreichend, die Anordnung der Daten in der gemeinsamen Datenreihe zu berücksichtigen. Um diese Information zu erhalten, vergeben wir den Werten aufsteigend Ränge: Rangzahlen werden im Kapitel Deskriptive Statistik behandelt, z.B. beim . Frage Was wäre Ihrer Meinung nach nun ein sinnvolles Vorgehen, um und miteinander zu vergleichen? Prüfgröße Rangsummen Falls nun die Werte von eher kleinere Rangzahlen aufweisen und zu

hauptsächlich

die höheren gehören, dann könnte das darauf hindeuten, dass die Werte von tatsächlich tendenziell kleiner sind. Um das zu überprüfen, summieren wir für jede der beiden Datenreihen die Ränge auf. Für

erhalten wir die Rangsumme:

R(11)+R(14)+R(17)+R(20) = 1 + 2 + 4 + 6 = 13. Die Rangsumme für ergibt sich automatisch aus den übrigen Rängen: R(15)+R(19)+R(21)+R(22) = 3 + 5 + 7 + 8 = 23. Auf diese Weise haben wir die gesamte Information aus den beiden Datenreihen in jeweils einem Wert zusammengefasst. Dies entspricht dem Vorgehen, das wir schon beim Berechnen von Schätzern kennen gelernt haben. (Siehe das einführende .) Hier nennt man die zusammengefasste Information Prüfgröße oder auch Teststatistik, wobei es ausreicht, eine der beiden Rangsummen als Prüfgröße zu verwenden (denn die

Page 5

(c) Projekt Neue Statistik 2003 - Lernmodul: Idee des Testens

Gesamtsumme der beiden Rangsummen ist die Summe der Zahlen ). Führen wir als Symbol für die Rangsummen-Prüfgröße, benannt nach Wilcoxon F. (1945) ein, so berechnet sich diese als dabei bezeichnet den Rang der i-ten Beobachtung von Vergleichen wir beide Rangsummen, ist die von eindeutig größer. Aber bedenken Sie, dass wir letztendlich entscheiden wollen, ob sich die dahinter stehenden Grundgesamtheiten unterscheiden und nicht nur die Stichproben. Das heißt, wir müssen überlegen, ob die beobachteten Unterschiede in den beiden Stichproben auch möglich gewesen wären, wenn die Grundgesamtheiten an sich gleich sind. Inwieweit ein Rückschluss auf die Grundgesamtheit nicht immer einfach ist, können Sie im Labor untersuchen mit der Aufgabe "Schluss auf die Grundgesamtheit". (Ein Portrait von Frank Wilcoxon finden sie unter diesem Link: .) In dieser Laboraufgabe ziehen Sie zwei Stichproben aus der gleichen Grundgesamtheit und bilden die gepoolte Stichprobe. Weil wir aus derselben Grundgesamtheit ziehen, gehen wir davon aus, dass die Ränge in der gepoolten Stichprobe gut durchmischt sind und keine Polarisierung stattfindet. Starten Sie das Experiment mehrere Male. Deutet die Rangvergabe immer darauf hin, dass und aus derselben Grundgesamtheit stammen? (Eine umfangreiche Anleitung gibt Ihnen der Hilfeassistent im Labor.) Schlüsse ziehen ( b78.zmpf ) Aus den Grundgesamtheiten G1 und G2 werden jeweils die Zufallsstichprobe und gezogen. Für dieses Laborbeispiel legen wir fest, dass mit dem Zufallsgenerator aus normalverteilten Daten mit Mittelwert 1 und Varianz 1 gezogen wird. Für die Stichprobe gilt: (Bitte beachten Sie, dass die Varianzen in beiden Gruppen gleich sind.) Erzeugen Sie am Zufallsgenerator neue Stichproben. Was können Sie im Stabdiagramm beobachten? Lageunterschied ( b9a.zmpf ) Prüfverteilung Um festzustellen, ob sich die Grundgesamtheiten von und unterscheiden, erstellen wir eine Verteilung über alle möglichen Werte, welche die Prüfgröße annehmen kann, falls die Grundgesamtheit von und gleich sind. In unserem Beispiel nimmt die kleinste Rangkombination (1,2,3,4) die Rangsumme 10 an. Die nächst größere ist (1,2,3,5) mit Rangsumme 11. Die größte Rangkombination (5,6,7,8) nimmt die Rangsumme 26 an. Allerdings können manche Rangsumme auch

Page 6

(c) Projekt Neue Statistik 2003 - Lernmodul: Idee des Testens

aus mehreren, unterschiedlichen Rangkombinationen gebildet werden. Das können Sie in der Abbildung sehen. Die Verteilung für n=m=4. In den blauen Balken sehen Sie die möglichen Rangkombinationen. Auf der x-Achse sind die Rangsummen w abgetragen.

Erstellen der Wahrscheinlichkeitsverteilung Wir wollen nun wissen, wie wahrscheinlich jeder Wert zwischen 10 und 26 ist. D.h. es sind die Wahrscheinlichkeiten für die verschiedenen möglichen Aufteilungen der Ränge auf die beiden Stichproben unter der Annahme zu berechnen, dass die zugrunde liegenden Grundgesamtheiten sich nicht bzgl. des uns interessierenden Charakteristikums unterscheiden. Zunächst überlegen wir uns, wie viele verschiedene Rangkombinationen für möglich sind (die Rangkombinationen für ergeben sich dann zwangsläufig). Wenn jeder Zahl von zufällig ein Rang von acht möglichen zugewiesen wird, wobei jeder Rang nur einmal vergeben wird, dann entstehen für insgesamt verschiedene Rangkombinationen. Jede dieser Rangkombination tritt mit der gleichen Wahrscheinlichkeit auf; in unserem Zahlenbeispiel mit Wahrscheinlichkeit Auf diese Weise kann die exakte Wahrscheinlichkeitsverteilung aller möglichen Rangsummen berechnet werden. Stellen Sie im Applet Wilcoxon-Verteilung (be0.jar) die Verteilung für n=m=4 ein. Zusätzlich sehen Sie die dazugehörige Wahrscheinlichkeitsfunktion und -verteilung. Aber Die Wahrscheinlichkeitsverteilung kann nur unter der Annahme berechnet werden, dass die Werte von und aus derselben Grundgesamtheit stammen! Falls in einer Zahlenreihe nur kleine Ränge vorkommen, besteht demnach die Frage, ob dies zufällig oder systematisch bedingt durch einen Lageunterschied entstanden ist. Wie wahrscheinlich ist unsere Prüfgröße unter Annahme der Nullhypothese? In unserem Zahlenbeispiel wollten wir wissen, ob gegenüber kleinere Werte annimmt, also nach links verschoben ist. Wie vorher berechnet, summieren sich die Ränge von zu 13 auf. Vorausgesetzt und unterscheiden sich nicht in ihrer Lage, können wir im Applet Wilcoxon-Verteilung die Wahrscheinlichkeit dafür ablesen, dass die Rangsumme von höchstens 13 beträgt: Mit 10% Wahrscheinlichkeit erhält man also eine Rangsumme, die kleiner oder gleich 13 ist, obwohl die und dieselbe Verteilung besitzen. Sind nun 10% schon so "unwahrscheinlich", um behaupten zu können, dass bezüglich wirklich nach links verschoben ist? Oder dürfen als Werte nur die kleinsten Beobachtungen auftreten, d.h. ist nur das Auftreten der Rangkombination (1,2,3,4) überzeugend genug, um wirklich von einem Lageunterschied sprechen zu können? Frage Was benötigen wir für eine Entscheidungsfindung? Testentscheidungen - Signifikanzniveau Signifikanzniveau alpha

Page 7

(c) Projekt Neue Statistik 2003 - Lernmodul: Idee des Testens

Um eine sinnvolle Entscheidung treffen zu können, benötigen wir eine Grenze, die uns hilft, eine "zu unwahrscheinliche" Rangsumme von einer "noch wahrscheinlichen" Rangsumme trennen zu können. In der Statistik wird diese Grenze über das Signifikanzniveau festgelegt. Das Signifikanzniveau besagt, dass wir uns für einen linksseitigen Lageunterschied entscheiden, falls wobei d.h. ist gerade das Quantil der Verteilung von unter (Die Wahrscheinlichkeit, eine Rangsumme kleiner unter zu erhalten, beträgt höchstens 100%.) Ist jedoch muss auch weiter davon ausgegangen werden, dass die Zahlen aus der gleichen Verteilung stammen. Üblicherweise wird gesetzt. Diese Voreinstellung ist nicht zwingend, sondern kann problemspezifisch angepasst werden. Für eine objektive Entscheidungsfindung ist es aber unerlässlich, dass festgelegt wird, bevor die Daten untersucht werden! (Das Signifikanzniveau wird ausführlich im behandelt.) Würden Sie sich aufgrund des vorliegenden Zahlenmaterials des Beispiels bei einem Signifikanzniveau von dafür entscheiden, dass sich die beiden Gruppen und in der Lage unterscheiden? Nutzen Sie das Applet Wilcoxon-Verteilung. Antwort Nein. Für erhält man: Aus diesem Grund können wir nicht sagen, dass und sich zu einem Signifikanzniveau von 5% in ihrer Lage unterscheiden. Testentscheidung - Kritischer Wert Kritischer Wert Ausgehend von dem Signifikanzniveau könnte man sich aber auch fragen, welchen Wert hätte die Rangsumme annehmen müssen, damit wir uns gerade noch beibehalten. Gesucht wird demnach die Rangsumme für die gilt: Im Applet können Sie sehen, dass für ein vorgegebenes die Rangsumme oder die Rangsumme diese Grenze am ehesten darstellt. Im ersten Fall wird nicht ausgeschöpft, weil und für die nächst größere Rangsumme gilt die den vorgegebenen Wert leicht überschreitet. Gesucht ist jedoch der äußerste Punkt innerhalb des Annahmebereichs. Dieser Wert, hier das Quantil der Verteilung von wird kritischer Wert genannt. In diesem Fall ist der kritische Wert Damit der Test sich für die Alternativhypothese entscheidet, muss die Prüfgröße kleiner als der kritische Wert sein. Das Auftreten der Rangkombinationen (1,2,3,4) oder (1,2,3,5) ist zu selten, als das wir annehmen wollen, dass die Stichproben X und Y aus der selben Grundgesamtheit stammen. Der statistische Test (basierend auf einem 5%igen Signifikanzniveau) verwirft die Nullhypothese, falls der Prüfgrößenwert (hier gleich der Rangsumme) den Wert 10 oder 11 annimmt. Dann wäre statistische bewiesen, dass die zwei Stichproben aus unterschiedlichen Grundgesamtheiten stammen, die sich in ihrer Lage unterscheiden.

Page 8

(c) Projekt Neue Statistik 2003 - Lernmodul: Idee des Testens

(Kritische Werte werden ausführlicher im erläutert.) Ausblick Eine kompakte Zusammenfassung des Wilcoxon-Rangsummen-Tests finden Sie im . Mehr über Fehlerwahrscheinlichkeiten und das Signifikanzniveau steht in . Mehr über die Vorgehensweise bei Testentscheidungen finden Sie in Anmerkung Die Prinzipien des Testens können Sie auch in diverser Literatur nachlesen, wie z.B. in Fahrmeir et al. (2002) oder Schlittgen (2000). Erstellen Sie für folgende Stichproben die zugehörigen Rangkombinationen und deren Verteilung (z.B. mit Papier und Bleistift so, wie es in den obigen Bildern zu sehen ist). Plotten Sie dann die Verteilung im Labor. a) b) c) Laborskizze: Aufgabe a ( d0f.spf ) Literaturangabe Fahrmeir, L., Künstler, R., Pigeot, I. und Tutz, G. (2002) Statistik. Der Weg zur Datenanalyse. 4. Auflage, Springer, Berlin. Schlittgen, R. (2000). Einführung in die Statistik. Analyse und Modellierung von Daten. 9. Auflage, Oldenbourg, München.

(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de

Page 9