Kapitel 10. Stichproben

Kapitel 10 Stichproben In der deskriptiven Statistik werden die Charakteristika eines Datensatzes durch Grafiken verdeutlicht und durch Maßzahlen zusam...
Author: Theodor Messner
43 downloads 0 Views 115KB Size
Kapitel 10 Stichproben In der deskriptiven Statistik werden die Charakteristika eines Datensatzes durch Grafiken verdeutlicht und durch Maßzahlen zusammengefasst. In der Regel ist man aber nicht nur an der Verteilung des Merkmals im Datensatz interessiert, sondern man will auf Basis der Daten eine Aussage u ¨ber die Verteilung des Merkmals in der Grundgesamtheit machen, aus der die Daten gezogen wurden. Man nennt die Teilgesamtheit auch eine Stichprobe. So k¨onnte die Durchschnittsnote aller Studenten der Wirtschaftswissenschaften im Abitur und der Anteil der Studenten, die den Mathematik Leistungskurs besucht haben, von Interesse sein. Die Durchschnittsnote ist der Erwartungswert µ. Einen Anteil in einer Grundgesamtheit bezeichnen wir im folgenden mit p. Allgemein bezeichnen wir eine Gr¨oße einer Verteilung, an der wir interessiert sind, als Parameter θ. Will man einen oder mehrere Werte f¨ ur den Parameter angeben, so spricht man vom Sch¨ atzen. Hierbei unterscheidet man Punktsch¨ atzung und Intervallsch¨ atzung. Bei der Punktsch¨atzung bestimmt man aus den Daten einen Wert f¨ ur den unbekannten Parameter, w¨ahrend man bei der Intervallsch¨atzung ein Intervall angibt. Soll eine Vermutung u uft werden, so spricht man vom Testen. ¨ber den Parameter u ¨berpr¨ Um verstehen zu k¨onnen, warum und wann man auf Basis einer Stichprobe Aussagen u ¨ber eine Grundgesamtheit machen kann, muss man sich Gedanken u ber Stichproben machen. ¨ Ausgangspunkt der schließenden Statistik ist eine Grundgesamtheit. Dies ist die Menge aller Personen bzw. Objekte, bei denen das oder die interessierenden Merkmale erhoben werden k¨onnen. So ist die Menge aller Studenten der Wirtschaftswissenschaften in Deutschland eine Grundgesamtheit. Hier k¨onnten der Frauenanteil, die erwartete Dauer des Studiums oder die Durschnittsnote im Diplom von Interesse sein.

231

KAPITEL 10. STICHPROBEN

232

Beispiel 85 Eine Grundgesamtheit besteht aus 4 Personen. Die K¨orpergr¨oße der Personen betr¨agt 168 172 176 180 Die durchschnittliche K¨orpergr¨oße E(X) = µ aller 4 Personen betr¨agt 174 und die Varianz V ar(X) = σ 2 der K¨orpergr¨oße ist 20. Es liegt nahe, bei allen Personen bzw. Objekten der Grundgesamtheit die interessienden Merkmale zu erheben. Man spricht in diesem Fall von einer Vollerhebung. Ein Beispiel hierf¨ ur ist die Volksz¨ahlung. Bei dieser werden in regelm¨aßigen Abst¨anden eine Reihe von Merkmalen von allen B¨ urgern der Bundesrepublik Deutschland erfragt. In der Regel ist eine Vollerhebung aber zu teuer oder zu aufwendig. Oft ist es auch gar nicht m¨oglich, die Grundgesamtheit vollst¨andig zu untersuchen. Dies ist der Fall, wenn die Untersuchung eines Objekts zu dessen Zerst¨orung f¨ uhrt. Kennt man die Lebensdauer einer Gl¨ uhbirne oder eines Autoreifens, so kann man sie nicht mehr gebrauchen. Man spricht von zerst¨ orender Pru ¨ fung. Da Vollerhebungen eine Reihe Nachteile besitzen, wird man nur einen Teil der Grundgesamtheit, eine sogenannte Teilgesamtheit untersuchen. Will man von der Teilgesamtheit sinnvoll auf die Grundgesamtheit schließen, so muss die Teilgesamtheit repr¨asentativ f¨ ur die Grundgesamtheit sein. Dies ist unter anderem dann der Fall, wenn jedes Element der Grundgesamtheit die gleiche Chance hat, in die Teilgesamtheit zu gelangen. Man spricht dann von einer Zufallsstichprobe. Die folgende Abbildung visualisiert den Ziehungsprozess.

Grundgesamtheit

X X

X X X X X

X

X

Stichprobe

233 Bezeichnen wir mit xi den Wert des interessierenden Merkmals beim i-ten Objekt der Teilgesamtheit, so ist x1 , . . . , xn die Stichprobe. Beispiel 85 (fortgesetzt) Nehmen wir an, dass die Grundgesamtheit nicht vollst¨andig beobachtet wird. Es k¨onnen nur zwei Personen beobachtet werden. Man zieht also eine Stichprobe (x1 , x2 ) vom Umfang n = 2. Dabei ist x1 die Gr¨oße der ersten gezogenen Person und x2 die Gr¨oße der zweiten gezogenen Person. Beim Ziehen ohne Zur¨ ucklegen gibt es 4 · 3 = 12 m¨ogliche Sichproben. Sie sind (168, 172) (172, 168) (176, 168) (180, 168)

(168, 176) (172, 176) (176, 172) (180, 172)

(168, 180) (172, 180) (176, 180) (180, 176)

Beim Ziehen mit Zur¨ ucklegen gibt es 42 = 16 m¨ogliche Sichproben. Sie sind (168, 168) (172, 168) (176, 168) (180, 168)

(168, 172) (172, 172) (176, 172) (180, 172)

(168, 176) (172, 176) (176, 176) (180, 176)

(168, 180) (172, 180) (176, 180) (180, 180)

Bei einer Zufallsstichprobe hat jedes Element der Grundgesamtheit die gleiche Chance, in die Stichprobe zu gelangen. In der folgenden Abbildung werden die Objekte in der Ellipse in der Grundgesamtheit bei der Ziehung nicht ber¨ ucksichtigt. Man spricht von einer verzerrten Stichprobe.

Grundgesamtheit

X O

X O X X X

X

X

Stichprobe

234

KAPITEL 10. STICHPROBEN

Schauen wir uns am Beispiel an, was passiert, wenn bestimmte Elemente der Grundgesamtheit nicht in die Stichprobe gelangen k¨onnen. Beispiel 85 (fortgesetzt) Die ersten beiden Personen sind Frauen und die beiden anderen M¨anner. Es werden aber nur die Frauen in Betracht gezogen. Ziehen wir mit Zur¨ ucklegen, dann gibt es folgende Stichproben (168, 168) (168, 172) (172, 168) (172, 172) Diese liefern alle ein verzerrtes Bild der Grundgesamtheit, da wir die K¨orpergr¨oße in der Grundgesamtheit auf Basis der Stichprobe zu klein einsch¨atzen. Wie das Beispiel zeigt, liefert eine Stichprobe ein verzerrtes Bild der Grundgesamtheit, wenn Elemente der Grundgesamtheit nicht in die Stichprobe gelangen k¨onnen. Dies kann dadurch geschehen, dass sie bei der Ziehung der Stichprobe nicht ber¨ ucksichtigt wurden. Man spricht in diesem Fall vom Selektions-Bias. Dieser liegt zum Beispiel bei Befragungen im Internet vor. Hier ist die Stichprobe sicherlich nicht repr¨asentativ f¨ ur die Bev¨olkerung, da nur ein Teil der Bev¨olkerung Zugang zum Internet besitzt. Eine verzerrte Stichprobe erh¨alt man aber auch dann, wenn Befragte eine Frage nicht beantworten und dieses Verhalten von der gestellten Frage abh¨angt. Man spricht in diesem Fall vom Nonresponse-Bias. Dieser tritt zum Beispiel bei Fragen nach dem Einkommen auf. Hier werden Personen mit sehr niedrigem oder sehr hohem Einkommen aus naheliegenden Gr¨ unden diese Frage nicht beantworten. Bei Befragungen auf freiwilliger Basis antworten oft nur die, die bei der Frage besonders involviert sind. Man spricht hier vom SelfselectionBias. Beispiel 86 Der Literary Digest hatte seit 1916 den Gewinner der Pr¨asidentschaftswahlen in den USA immer richtig prognostiziert. Im Jahr 1936 trat der Kandidat der Republikaner Landon gegen den demokratischen Pr¨asidenten Roosevelt an. Eine Befragung von 2,4 Milionen Amerikanern durch den Literary Digest ergab, dass aber 57 Prozent Landon w¨ahlen w¨ urden. Bei der Wahl wurde Roosevelt von 62 Prozent der W¨ahler gew¨ahlt. Woran lag das schlechte Prognose des Literary Digest? Der Literary Digest hatte Frageb¨ogen an 10 Millionen Haushalte verschickt. Von diesen haben aber nur 24 Prozent geantwortet. Dies spricht f¨ ur einen Nonresponse-Bias. Besitzt man keine Informationen u ¨ber eine Grundgesamtheit, so sollte man eine Zufallsstichprobe ziehen. Liegen jedoch Informationen u ¨ber die Grundgesamtheit vor, so sollten diese bei der Stichprobenziehung ber¨ ucksichtigt

235 werden. Ein Beispiel hierf¨ ur sind geschichtete Stichproben. Bei diesen sind bei jedem Merkmalstr¨ager die Auspr¨agungen eines oder mehrerer Merkmale bekannt. Auf der Basis dieser Merkmale teilt man die Grundgesamtheit in disjunkte Klassen ein, die man auch Schichten nennt. Man zieht aus jeder der Schichten eine Zufallsstichprobe. Die folgende Abbildung visualisiert die Schichtenbildung und den Ziehungsvorgang. Dabei bilden die Kreise die eine und die Kreuze die andere Schicht.

Grundgesamtheit O O

X O X X X

O

X

Stichprobe

Beispiel 85 (fortgesetzt) Die ersten beiden Personen seien Frauen, die beiden anderen M¨anner. Die erste Schicht besteht aus den Frauen und die zweite aus den M¨annern. Aus jeder der beiden Schichten wird eine Stichprobe vom Umfang n = 1 gezogen. Es gibt also folgende Stichproben: (168, 176) (168, 180) (172, 176) (172, 180) Oft werden Personen oder Objekte zu einer Einheit zusammengefasst. So ist es bei m¨ undlichen Befragungen aus Kostengr¨ unden sinnvoll, Personen zu befragen, die nahe beieinander wohnen. Eine Auswahleinheit ist dann nicht die Person, sondern die Gruppe. Man spricht auch von Klumpen und dem Klumpenverfahren. Die folgende Abbildung illustriert das Klumpenverfahren. Dabei gibt es drei Klumpen. Die Objekte des ersten Klumpen sind

KAPITEL 10. STICHPROBEN

236

durch ein ’X’, die des zweiten durch ein ’O’ und die des dritten durch ein ’+’ veranschaulicht.

Grundgesamtheit O X

+ X O + O

X

+

Stichprobe

Beispiel 85 (fortgesetzt) Wir fassen die ersten beiden Personen zu einem Klumpen und die beiden anderen Personen zum anderen Klumpen zusammen. Es wird ein Klumpen als Stichprobe ausgew¨ahlt. Es gibt also folgende Stichproben: (168, 172) (176, 180) Beispiel 87 Der Mikrozensus ist eine Erhebung, bei der jedes Jahr 1 Prozent der Bev¨olkerung der Bundesrepublik Deutschland befragt wird. Im Mikrozensusgesetz wird die Aufgabe des Mikrozensus beschrieben. Es sollen ’statistische Angaben in tiefer fachlicher Gliederung u ¨ber die Bev¨olkerungsstruktur, die wirtschaftliche und soziale Lage der Bev¨olkerung, der Familien und der Haushalte, den Arbeitsmarkt, die berufliche Gliederung und die Ausbildung der Erwerbsbev¨olkerung sowie die Wohnverh¨altnisse’ bereitgestellt werden. Beim Mikrozensus wird das Schichtungsverfahren und das Klumpenverfahren verwendet. Die Klumpen bestehen dabei aus Haushalten, wobei ein Klumpen aus h¨ochstens 9 Wohnungen besteht. Außerdem wird nach mehreren Variablen geschichtet. Es werden zun¨achst regionale Schichten gebildet, die im

237 Mittel 350000 Einwohner enthalten. So bilden Kreise, Zusammenfassungen von Kreisen oder Großst¨adte regionale Schichten. Sehr große St¨adte werden in regionale Schichten geteilt. Als weiteres Schichtungsmerkmal wird die Geb¨audegr¨oße betrachtet. Hierbei werden 4 Schichten gebildet. Schicht 1 enth¨alt alle Geb¨aude, die mindestens eine aber h¨ochstens vier Wohungen enthalten, Schicht 2 enth¨alt alle Geb¨aude mit 5 bis 10 Wohnungen, Schicht 3 alle Geb¨aude mit mindestens 11 Wohnungen und Schicht 4 alle Geb¨aude, in denen eine Anstalt vermutet wird. Aus jeder Schicht wird ein Prozent der Personen ausgew¨ahlt. Die Stadt Bielefeld mit ihren ungef¨ahr 300000 Einwohnern bildet eine eigene regionale Schicht, in der es die vier Schichten der Geb¨audegr¨oßen gibt. Aus jeder dieser Schichten wird eine Stichprobe gezogen.