JProf. Dr. Hans Manner

Erhebungstechniken

Grundbegriffe der Wahrscheinlichkeitsrechnung Notation: Y y

Zufallsvariable Merkmalswert

Definition 1 Eine Zufallsvariable Y heißt a) diskret, falls sie nur endlich oder abz¨ ahlbar unendlich viele Werte y1 , y2 , . . . annimmt. b) stetig, falls sie beliebig viele Werte annehmen kann und die Verteilungsfunktion FY (y) = P (Y ≤ y) stetig ist.

2. Stichprobenverfahren - Einf¨ uhrung

1

JProf. Dr. Hans Manner

Erhebungstechniken

Definition 2 Erwartungswert a) Sei Y eine diskrete Zufallsvariable, die Werte yi mit Wahrscheinlichkeit P (Y = yi ), i = 1, . . . , N annehmen kann. PN Dann heißt E(Y ) = i=1 yi P (Y = yi ) Erwartungswert von Y .

b) Sei Y eine stetige Zufallsvariable mit Dichte fY (y). Dann heißt R∞ E(Y ) = −∞ yfY (y)dy Erwartungswert von Y .

2. Stichprobenverfahren - Einf¨ uhrung

2

JProf. Dr. Hans Manner

Erhebungstechniken

Definition 3 Varianz, Standardabweichung, Variationskoeffizient a) Sei Y eine diskrete Zufallsvariable, die Werte yi mit Wahrscheinlichkeit P (Y = yi ), i = 1, . . . , N annehmen kann. PN 2 Dann heißt σY Var (Y ) = i=1 (yi − E(Y ))2 P (Y = yi ) Varianz von Y . b) Sei Y eine stetige Zufallsvariable mit Dichte fY (y). Dann heißt R∞ 2 σY = Var (Y ) = −∞ (y − E(Y ))2 fY (y)dy Varianz von Y . p c) Sei Y eine Zufallsvariable. Dann heißt σY = Var (Y ) Standardabweichung von Y σY d) Sei Y eine Zufallsvariable. Dann heit CV (Y) = E(Y) Varianzkoeffizient von Y (hier¨ uber l¨ asst sich das Streuverhalten verschiedener Zufallsvariablen vergleichen).

2. Stichprobenverfahren - Einf¨ uhrung

3

JProf. Dr. Hans Manner

Erhebungstechniken

Spezielle Verteilungen Definition 4 Binomial-Verteilung Eine diskrete Zufallsvariable Y , die die Werte 0, 1, 2, . . . , n mit Wahrscheinlichkeiten   n P (Y = m) = P m (1 − P )n−m , m = 0, 1, 2, . . . , n m annehmen kann, heißt binomialverteilt mit Parametern n und P , oder Y ∼ B(n, P ). Satz 1 Sei Y ∼ B(n, P ). Dann gilt: a) E(Y ) = nP b) Var (Y ) = nP (1 − P ] 2. Stichprobenverfahren - Einf¨ uhrung

4

JProf. Dr. Hans Manner

Erhebungstechniken

Definition 5 Hypergeometrische Verteilung Eine diskrete Zufallsvariable Y , die die Werte 0, 1, 2, . . . , n mit Wahrscheinlichkeiten   M N −M P (Y = m) =

m

n−m  N n

annimmt f¨ ur m = 0, 1, . . . , n, m ≤ M und n − m ≤ N − M heißt hypergeometrisch verteilt mit Parametern N, n, M , oder Y ∼ H(N, n, M ). Satz 2 Sei Y ∼ H(N, n, M ). Dann gilt: a) E(Y ) = n M N (= nP ) (P = M/N Wahrscheinlichkeit von ’Erfolg’) −n b) Var (Y ) = nP (1 − P ) N N −1

2. Stichprobenverfahren - Einf¨ uhrung

5

JProf. Dr. Hans Manner

Erhebungstechniken

Definition 6 Normalverteilung Eine stetige Zufallsvariable Y heißt normalverteilt mit Parametern µ und σ 2 , falls ihre Dichte die Form   1 (y − µ)2 1 exp − fY (y) = √ 2 σ2 2πσ hat, oder Y ∼ N (µ, σ 2 ). Satz 3 Sei Y ∼ N (µ, σ 2 ). Dann gilt: a) E(Y ) = µ b) Var (Y ) = σ 2

2. Stichprobenverfahren - Einf¨ uhrung

6

JProf. Dr. Hans Manner

Erhebungstechniken

Definition 7 Seien Y1 und Y2 Zufallsvariablen, dann heißen Y1 und Y2 stochastisch unabh¨ angig, falls f¨ ur alle a, b ∈ R gilt P (Y1 ≤ a, Y2 ≤ b) = P (Y1 ≤ a)P (Y2 ≤ b). Definition 8 F¨ ur zwei Zufallsvariablen Y1 , Y2 bezeichnet Cov (Y1 , Y2 ) = E [(Y1 − E(Y1 ))(Y2 − E(Y2 ))] die Kovarianz zwischen Y1 und Y2 . Definition 9 Die Gr¨ oße Cov (Y1 , Y2 ) ρ(Y1 , Y2 ) = ρ = p Var (Y1 )Var (Y2 )

heißt Korrelationskoeffizient zwischen Y1 und Y2 . 2. Stichprobenverfahren - Einf¨ uhrung

7

JProf. Dr. Hans Manner

Erhebungstechniken

Zentraler Grenzwertsatz Satz 4 F¨ ur Zufallsvariablen Sn ∼ B(n, P ), n ∈ N, gilt Sn − nP n→∞ p −→ N (0, 1) nP (1 − P )

(Schwache Konvergenz)

Satz 5 Seinen Y1 , Y2 , . . . eine Folge stochastisch unabh¨ angiger identisch verteilter (i.i.d.) Zufallsvariablen mit Erwartungswert E(Yk ) und Var (Yk ) < ∞ f¨ ur alle k ∈ N. Dann gilt n

1 X Yk − E(Yk ) n→∞ √ p −→ N (0, 1) n Var (Yk ) k=1

2. Stichprobenverfahren - Einf¨ uhrung

8

JProf. Dr. Hans Manner

Erhebungstechniken

Stichprobe “Das Wort Stichprobe stammt urspr¨ unglich aus der Eisenverh¨ uttung und bezeichnete den Abstich am Hochofen zur Entnahme einer Probe des fl¨ ussigen Metalls. Aber auch bei Getreides¨ acken gab es Stichproben. Zur Entnahme einer Getreideprobe wurde eine kegelf¨ ormige Sonde in den nicht ge¨offneten Jute-Sack geschoben (gestochen) und damit eine Probe entnommen, ohne dass der Sack besch¨ adigt wurde.”

2. Stichprobenverfahren - Einf¨ uhrung

9

JProf. Dr. Hans Manner

Erhebungstechniken

Einf¨ uhrung • Stichprobenmethode: Durch bewusste Auswahl und Messung eines Teils des Ganzen sollten R¨ uckschl¨ usse auf das Ganze gemacht werden • Welche Schwankungen treten in Stichprobenergebnissen auf und wie lassen sich diese beeinflussen • Gibt es f¨ ur eine gegebene Situation ein bestes Verfahren? • Warum keine Vollerhebung?

2. Stichprobenverfahren - Einf¨ uhrung

10

JProf. Dr. Hans Manner

Erhebungstechniken

Einf¨ uhrung • Wie bekommt man nach Schließung der Wahllokale genaue Wahlprognosen durch eine Befragung von nur 2000 Personen? • Wie w¨ahlt man die Personen aus? • Wie h¨ angt die Berechnung der Prognose von der Auswahl der Personen aus? • Wie sollte man es nicht tun? • Weitere Anwendungen von Stichprobenverfahren: – Marktforschung

– Mikrozensus und Sozio¨okonomisches Panel – Medizinisch-epidemiologische Studien – Absch¨ atzung von Umweltbelastungen – ... 2. Stichprobenverfahren - Einf¨ uhrung

11

JProf. Dr. Hans Manner

Erhebungstechniken

Population und Stichprobe • Die Population oder Grundgesamtheit ist die Menge alle Individuen oder Objekte, u ¨ber die eine Aussage getroffen werden soll. • Merkmalstr¨ ager, Untersuchungseinheiten, statistische Einheiten oder Individuen sind die Einheiten oder Objekte, an denen Untersuchungen, Messungen oder Beobachtungen vorgenommen werden • Merkmale sind die Eigenschaften der statistischen Einheiten, die untersucht, beobachtet oder gemessen werden • Eine Stichprobe S ist die Teilmenge der Population, an der die Merkmale erhoben werden • Wir unterscheiden eine Vollerhebung und eine Teilerhebung 2. Stichprobenverfahren - Einf¨ uhrung

12

JProf. Dr. Hans Manner

Erhebungstechniken

Notation • Die Menge potentieller Untersuchungseinheiten {U1 , U2 , . . . , UN } heißt Grundgesamtheit (kurz: GG) vom Umfang N . • Jeder Untersuchungseinheit Ui wird ein eindeutig fester Merkmalswert Yi zugeordnet. • Es wird eine zuf¨ allige Stichprobe vom Umfang n gezogen. • Die “Ergebnisse” yi , i = 1, . . . , n, repr¨ asentieren Zufallsvariablen. • Notation bei Stichprobenverfahren In der Grundgesamtheit: Großbuchstaben, feste Werte (meist) unbekannt In der Stichprobe: Kleinbuchstaben, zuf¨ allige Werte, Realisationen von Zufallsvariablen 2. Stichprobenverfahren - Einf¨ uhrung

13

JProf. Dr. Hans Manner

Erhebungstechniken

Studienpopulation • Eine Studienpopulation ist eine zur Verf¨ ugung stehende Untermenge der Population • Beispiel: Leute mit Telefon bei einer Telefonumfrage

2. Stichprobenverfahren - Einf¨ uhrung

14

JProf. Dr. Hans Manner

Erhebungstechniken

Homograd und heterograd Ist Yi qualitativ, Yi ∈ {0, 1}, sprechen wir vom homograden Fall. Hier interessieren uns in der Regel Anteilwerte. (Beispiele?)

Sind die Merkmalswerte Yi quantitativ, Yi ∈ R, sprechen wir vom heterograden Fall. Hier interessieren uns in der Regel Mittelwerte. (Beispiele?) 2. Stichprobenverfahren - Einf¨ uhrung

15

JProf. Dr. Hans Manner

Erhebungstechniken

G¨ utekriterien im Rahmen der Stichprobentheorie • Erwartungstreue: Sei θ der interessierende Parameter, dann heißt T (y1 , . . . , yn ) erwartungstreu f¨ ur θ, falls E(T (y1 , . . . , yn )) = E(T ) = θ. • Varianzvergleich: Seien T1 und T2 zwei erwartungstreue Sch¨ atzer f¨ ur θ, dann heißt T1 ”besser” als T2 , falls Var(T1 ) < Var(T2 ). • MSE-Vergleich: Seien T1 und T2 zwei beliebige Sch¨ atzer f¨ ur θ, dann heißt T1 ”besser” als T2 , falls MSE(T1 ) < MSE(T2 ). (Hinweis: MSE(T ) = Var(T ) + [E(T ) − θ]2 )

2. Stichprobenverfahren - Einf¨ uhrung

16

JProf. Dr. Hans Manner

Erhebungstechniken

G¨ utekriterien In der Regel interessiert uns der Mittelwert der Population N X 1 Yi Y¯ = N i=1

und die dazu geh¨orige Varianz N

2 1 X 2 ¯ S = Yi − Y . N − 1 i=1 ¯ Außerdem interessiert uns f¨ ur einen Sch¨ atzer Yˆ V ar(Yˆ¯ )

2. Stichprobenverfahren - Einf¨ uhrung

17

JProf. Dr. Hans Manner

Erhebungstechniken

G¨ utekriterien • Wir m¨ochten diese Gr¨ oßen unverzerrt sch¨ atzen • Wir wollen idealerweise ein Stichprobenverfahren und den dazu geh¨origen Sch¨ atzer so w¨ahlen, dass die Varianz des Mittelwertsch¨ atzers so klein wie m¨oglich ist • Berechnung von Konfidenzintervallen • Wie w¨ahlt man den Stichprobenumfang n unter bestimmten Zieloder Kostenfunktionen?

2. Stichprobenverfahren - Einf¨ uhrung

18

JProf. Dr. Hans Manner

Erhebungstechniken

Nicht-zuf¨ allige Auswahlverfahren • Auswahl auf “Geratewohl”, den “Mann auf der Straße” befragen • Beispiel: Zuf¨allige Befragung an einem Vormittag im Supermarkt zur Kundenzufriedenheit • Typische Stichprobe • Beispiele: Warenkorb zur Inflationsberechnung, Stadt Haßloch als Testmarkt • Quotenstichprobe, z.B Altersgruppen und Geschlechterverteilung exakt auf die Population abstimmen → St¨orgr¨ oßen werden kontrolliert, aber zuf¨ allige Auswahl n¨ otig • Systematische Stichproben: W¨ ahle jedes p’te Element aus der Population 2. Stichprobenverfahren - Einf¨ uhrung

19

JProf. Dr. Hans Manner

Erhebungstechniken

Verzerrungen • Eine Stichprobe kann f¨ ur eine Fragestellung geeignet sein, f¨ ur eine andere jedoch nicht • Beispiel: Eine Gemeinde in einem Landkreis kann repr¨ asentativ f¨ ur das Konsumverhalten im Landkreis sein, aber nicht f¨ ur die Parteipr¨aferenz f¨ ur eine bestimmte Partei, weil z.B. eine sehr beliebter B¨ urgermeister dieser Partei in der Gemeinde ist • Man hat also eine verzerrte Stichprobe bez¨ uglich der Parteipr¨aferenz • Anderes Beispiel: Man befragt vormittags in einem Supermarkt die Leute nach ihren Berufen

2. Stichprobenverfahren - Einf¨ uhrung

20

JProf. Dr. Hans Manner

Erhebungstechniken

Auswahlform 1 • Alle N Element sind verf¨ ugbar und mit Nummern (labels) versehen → wir haben eine Populationsliste • Zufallsauswahl aus den Nummern 1, . . . , N • Die dazugeh¨origen Untersuchungseinheiten bilden die Stichprobe S • Man kann mit Zur¨ ucklegen (mZ) oder ohne Zur¨ ucklegen (oZ) ziehen • Eigentlich interessiert nur oZ, aber Formeln f¨ ur mZ in der Regel einfacher • Wenn der Auswahlsatz n/N klein ist kann man oZ Stichproben wie mZ behandeln 2. Stichprobenverfahren - Einf¨ uhrung

21

JProf. Dr. Hans Manner

Erhebungstechniken

Auswahlform 1: Einfache Stichprobe Die Wahrscheinlichkeit einer bestimmten Stichprobe S vom Umfang n ist dann 1 P (S) = N +n−1 n

beim Ziehen mZ und

P (S) =

1 N n



beim Ziehen oZ. Jedes Element die gleiche Wahrscheinlichkeit in die Stichprobe zu gelangen. Diese Auswahlwahrscheinlichkeit ist im Fall ohne Zur¨ ucklegen gegeben durch π=

2. Stichprobenverfahren - Einf¨ uhrung

n N

22

JProf. Dr. Hans Manner

Erhebungstechniken

Auswahlform 2: Gebundene Hochrechnung ¯ • Wir beobachten ein weiteres Merkmal X und wir kennen X • Wir unterstellen einen linearen Zusammenhang zwischen X und Y • Wir verwenden diese Vorkenntnis u ¨ber X um Y¯ zu sch¨ atzen • F¨ uhrt in der Regel zu Varianzreduktion • Beispiel: Bei der Wahlprognose kennen wir das Ergebnis bei der letzten Wahl genau und erfragen das Wahlverhalten bei der letzten Wahl

2. Stichprobenverfahren - Einf¨ uhrung

23

JProf. Dr. Hans Manner

Erhebungstechniken

Auswahlform 3: Geschichtete Stichprobe • Die Grundgesamtheit ist in M Teilgesamtheiten vom Umfang Nh f¨ ur die h-te Teilmenge zerlegt • Diese Teilmengen nennt man Schichten • Man zieht aus jeder Schicht und setzt die Gesamtstichprobe daraus zusammen • Dies kann zu einer Reduktion der Varianz der Mittelwertsch¨ atzung im Vergleich zur einfachen Stichprobe f¨ uhren • Beispiel: Deutschland und die Bundesl¨ander 2. Stichprobenverfahren - Einf¨ uhrung

24

JProf. Dr. Hans Manner

Erhebungstechniken

Auswahlform 4: Klumpenstichproben • Man zerlegt die GG in M disjunkte Teilmenge • Man w¨ahlt zuf¨ allig m dieser Teilmengen • F¨ ur jede dieser gew¨ ahlten Teilmengen f¨ uhrt man eine Vollerhebung durch • Beispiel: GG ist die Menge aller Schulanf¨anger in einer Stadt. Es werden ganze Klassen ausgew¨ ahlt und vollst¨ andig befragt

2. Stichprobenverfahren - Einf¨ uhrung

25

JProf. Dr. Hans Manner

Erhebungstechniken

Auswahlform 5: Zweiphasige Stichprobe ¯ ist unbekannt • Situation wie bei 2, aber X • Wir nehmen an, dass X relative g¨ unstig erhoben werden kann ¯ • In Phase 1 ziehen wir eine Stichprobe und sch¨ atzen X • In Phase 2 gehen wir vor wie in 2

2. Stichprobenverfahren - Einf¨ uhrung

26

JProf. Dr. Hans Manner

Erhebungstechniken

Auswahlform 6: Gr¨ oßenproportionale Stichproben (pps) • Wir w¨ahlen die Auswahlwahrscheinlichkeiten πi proportional zu Yi • Hilfsvariable Xi die mit Yi korreliert wird dazu verwendet • So werden informativere Beobachtungen mit h¨ oherer Wahrscheinlichkeit gew¨ ahlt • Varianzreduktion bei der Mittelwertsch¨ atzung

2. Stichprobenverfahren - Einf¨ uhrung

27

JProf. Dr. Hans Manner

Erhebungstechniken

Auswahlform 7: Capture-Recapture Verfahren • Wie viele Ratten gibt es in New York? • Fange 1000 Ratten • Markiere diese und lasse Sie wieder frei • Fange nach einem Monat wieder 1000 Ratten • Wie viele sind davon markiert?

2. Stichprobenverfahren - Einf¨ uhrung

28

JProf. Dr. Hans Manner

Erhebungstechniken

In der Praxis: Mehrstufige Verfahren • Kombination von verschiedenen Stichprobenpl¨ anen • Z.B. Auswahl von Wahlbezirken aus verschiedenen Bundesl¨andern mit Wahrscheinlichkeiten proportional zur Gr¨ oße • Auswahl von zuf¨ alligen Haushalten • Vollerhebung im Haushalt • Praktische Vorteile wie Kostenersparnis in der Feldarbeit m¨oglich • Statistische Eigenschaften h¨ aufig schwierig zu analysieren

2. Stichprobenverfahren - Einf¨ uhrung

29