Analyse von Querschnittsdaten. Drittvariablenkontrolle

Analyse von Querschnittsdaten Drittvariablenkontrolle Warum geht es in den folgenden Sitzungen? Datum Kontinuierliche Variablen Deskriptive Modell...
Author: Mina Frei
10 downloads 0 Views 290KB Size
Analyse von Querschnittsdaten Drittvariablenkontrolle

Warum geht es in den folgenden Sitzungen? Datum

Kontinuierliche Variablen

Deskriptive Modelle

kategoriale Variablen

Vorlesung

18.10.2006

Einführung

18.10.2006

Beispiele

25.10.2006

Daten

08.11.2006

Variablen

15.11.2006

Bivariate Regression

22.11.2006

Kontrolle von Drittvariablen

29.11.2006

Multiple Regression

06.12.2006

Statistische Inferenz

13.12.2006

Signifikanztests I

20.12.2006

Signifikanztests II

10.01.2007

Spezifikation der unabhängigen Variablen

17.01.2007

Spezifikation der Regressionsfunktion

24.01.2007

Heteroskedastizität

31.01.2007

Regression mit Dummy-Variablen

07.02.2007

Logistische Regression

Gliederung 1. 2. 3. 4.

Drittvariablenkontrolle: Was ist das? Kategoriale Variablen Kontinuierliche Variablen Regression und Korrelation

Wie hat sich die Arbeitslosigkeit verändert? •

Nürnberg, 3. November 2004, rb/rtr/dpa: Wie die Bundesagentur für Arbeit mitteilte, waren im Oktober bundesweit rund 4,206 Millionen Erwerbslose registriert. Dies seien 50.100 weniger gewesen als im September, aber 55.300 mehr als vor einem Jahr.

1. Welcher der beiden Vergleiche ist aussagekräftiger? 2. Warum ist das ein Beispiel für die Kontrolle von Drittvariablen?

Drittvariablenkontrolle • Ausgangssituation – Es existiert ein statistischer Zusammenhang zwischen zwei Variablen x und y. – Es gibt eine Alternativerklärung für den Zusammenhang (eine dritte Variable z).

• Analyseproblem – Wie kann man den Zusammenhang zwischen x und y „frei“ von Einflüssen von z untersuchen?

• Lösung – Man betrachtet den Zusammenhang zwischen x und y unter Konstanthaltung von z.

Gliederung 1. Drittvariablenkontrolle: Was ist das? 2. Kategoriale Variablen a. Konstanthaltung von z: Kendall-Lazarsfeld-Ansatz

3. Kontinuierliche Variablen 4. Regression und Korrelation

Beispiel 1: Jugenddelinquenz Berufstätigkeit der Mutter Delinquenz

nein

ja

Insgesamt

ja

44%

59%

50%

nein

56%

41%

50%

Insgesamt

100% (590)

100% (391)

100% (981)

Beispiel 1: Jugenddelinquenz • Daten: leicht abgewandelt aus Glueck, S. / Glueck, E. (1950): Unraveling juvenil delinquency. Cambridge, MA • Ausgangssituation – Kinder berufstätiger Mütter werden häufiger straffällig. – Erklärung: mangelnde Betreuung durch Abwesenheit der Mutter im Falle von Berufstätigkeit.

• Alternativerklärung – Auch eine berufstätige Mutter kann ihre Kinder angemessen betreuen, die reine zeitliche Abwesenheit ist nicht entscheidend. – Indikator: Aussagen über das Verhältnis zur Mutter.

Kontrolliere Kontakt mit Mutter Kontakt: schlecht

Kontakt: gut

Berufstätigkeit der Mutter

Berufstätigkeit der Mutter

Delinquenz

nein

ja

Insg.

Delinquenz

nein

ja

Insg.

ja

85%

83%

84%

ja

31%

27%

30%

nein

15%

17%

16%

nein

69%

73%

70%

Insg.

100% (149)

100% (226)

100% (375)

Insg.

100% (441)

100% (165)

100% (606)

Gliederung 1. Drittvariablenkontrolle: Was ist das? 2. Kategoriale Variablen 3. Kontinuierliche Variablen a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen? b. Auspartialisierung von z: Berechnung „zu Fuß“ c. Trivariate Regression: analytische Lösung

4. Regression und Korrelation

Einkommen

Bivariater Zusammenhang

Ausbildungsdauer

Beispiel 2: Einkommen • Ausgangssituation – Mit zunehmender Ausbildungsdauer beobachtet man höhere Einkommen – Erklärung: Humankapitaltheorie.

• Alternativerklärung – Einkommen bemessen sich an der Produktivität der Personen. – Fähigere Personen erzielen höhere Einkommen. – Indikator: Ergebnisse eines Intelligenztestes.

• Beispiel 2 verwendet zu Demonstrationszwecken simulierte Daten.

Wie unterscheiden sich die Personen nach Intelligenz IQ = 130 Einkommen

IQ = 110 IQ = 90 IQ = 70 Ausbildungsdauer

Bei gleicher Ausbildungsdauer (s. rote Linie) werden intelligentere Personen besser entlohnt.

Wie kann man sich die Kontrolle einer Drittvariablen vorstellen? IQ = 130 Einkommen

IQ = 110 IQ = 90 IQ = 70 Ausbildungsdauer

Es werden getrennte Regressionsmodelle für Personen mit gleicher Intelligenz berechnet (Konstanthaltung von z).

Geringerer Ausbildungseffekt bei Kontrolle der Intelligenz IQ = 130 Einkommen

IQ = 110 IQ = 90 IQ = 70 Ausbildungsdauer

Vergleiche bivariate Regressionsgerade und Regressionsgeraden in den vier Subgruppen.

Beispiel 3: Erwerbseinkommen männlicher Arbeitnehmer

0

600

Monthly Earnings 1000 2000

Fitted values of monthly earnings 800 1000 1200

3000

1400

reale Daten, n=935, wage2.dta wage: Monatliches Nettoeinkommen in Dollar educ: Ausbildungsdauer in Jahren IQ: Intelligenztestpunkte vier Subgruppen: Quartile von IQ

8

10

12 14 years of education

16

18

8

10

12 14 years of education

16

18

Fitted values of monthly earnings 800 1000 1200

1400

Ausbildungseffekt geringer bei Kontrolle der Intelligenz

600

Zum Vergleich: bivariate Regression

8

10

Variable Ausbildung Intelligenz Konstante R² n

12 14 years of education

Koeffizient 60.21 146.95 0.11 935

16

18

Koeffizient 42.06 5.14 -128.89 0.13 935

Zerlegung in Subgruppen ist ein Denkmodell! • Verwendung aus didaktischen Gründen • Wenn die dritte Variable kontinuierlich ist, hat sie viele Ausprägungen und nicht nur vier. • Beispiel 3: Warum nur vier Gruppen (Quartile), warum nicht zehn (Perzentile) oder mehr? • Je mehr Gruppen, desto weniger Fälle pro Gruppe und desto weniger sinnvoll, pro Subgruppe ein Regressionsmodell zu rechnen. ÖEffizientere Kontrolle der Drittvariablen gesucht.

Gliederung 1. Drittvariablenkontrolle: Was ist das? 2. Kategoriale Variablen 3. Kontinuierliche Variablen a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen? b. Auspartialisierung von z: Berechnung „zu Fuß“ c. Trivariate Regression: analytische Lösung

4. Regression und Korrelation

6

6

8

8

Einkommen 10 12

Einkommen 10 12

14

14

16

16

Einkommen hängt mit Ausbildung und mit Intelligenz zusammen

6

8

10 Ausbildung

12

14

60

80

100 Intelligenz

120

140

Problem: Ausbildungsdauer und Intelligenz sind korreliert IQ = 130 Einkommen

IQ = 110 IQ = 90 IQ = 70 Ausbildungsdauer

Bivariater Effekt der Ausbildung misst Effekt der Intelligenz mit. Gesucht: Überbzw. unterdurchschnittliche Ausbildungsdauer für ein gegebenes Intelligenzniveau

6

8

Ausbildungsdauer 10

12

14

Regression von Ausbildung auf Intelligenz

60

80

100 Intelligenz

120

140

Residuen dieser Regression zeigen, welche Ausbildungsdauer bei einem gegebenen Intelligenzniveau über- bzw. unterdurchschnittlich ist.

6

8

Einkommen 10 12

14

16

Regression der Einkommen auf die Residuen der Ausbildungsdauer

-2

-1

0 1 Bereinigte Ausbildungsdauer

2

Durch Verwendung der Residuen wird der Effekt der Intelligenz „auspartialisiert“.

Zusammenfassung 1. Regression von x auf z edˆuc = 4,5 + 0,5 ⋅ intell 2. Berechnen und Abspeichern der Residuen rˆ = educ − edˆuc educ

1. reg x z 2. predict rx, residuals 3. reg y rx 4. reg y x z

3. Regression von y auf rˆx waˆge = 11 + 0,7 ⋅ rˆeduc 4. Zum Vergleich : triviate Regression waˆge = −2,15 + 0,7 ⋅ educ + 0,065 ⋅ intell

Auf beiden Wegen erhält man den gleichen Regressionskoeffizienten für x (educ).

Formeln trivariat

zum Vergleich : bivariat

yi = β 0 + β1 xi1 + β 2 xi 2 + r

yi = β 0 + β1 xi1 + r

n

βˆ1 =

∑ rˆ ( y i =1

i1

n

i

∑ rˆi1 i =1

− y)

n

~

β1 = 2

∑ ( x − x )( y i

i =1

n

i

− y)

2 − ( x x ) ∑ i i =1

Residuum der Regression von x1 auf x2 : ~ ~ rˆi1 = xi1 − xˆi1 = xi1 − (δ 0 + δ 1 xi 2 )

Gliederung 1. Drittvariablenkontrolle: Was ist das? 2. Kategoriale Variablen 3. Kontinuierliche Variablen a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen? b. Auspartialisierung von z: Berechnung „zu Fuß“ c. Trivariate Regression: analytische Lösung

4. Regression und Korrelation

Kleinste-Quadrate Methode n

Allgemein : minimiere SSR = ∑ ( yi − yˆ i ) 2 i =1

Trivariate Regression : yˆ i = βˆ0 + βˆ1 xi1 + βˆ2 xi 2 n

Minimiere SSR = ∑ ( yi − βˆ0 − βˆ1 xi1 − βˆ2 xi 2 ) 2 i =1

Bilde partielle Ableitungen : n

∑1⋅ ( y i =1 n

i

− βˆ0 − βˆ1 xi1 − βˆ2 xi 2 ) = 0

∑x i =1 n

ˆ − βˆ x − βˆ x ) = 0 ⋅ ( y − β 0 1 i1 2 i2 i1 i

∑ xi 2 ⋅ ( yi − βˆ0 − βˆ1 xi1 − βˆ2 xi 2 ) = 0 i =1

Die sogenannten Normalgleichungen bilden ein Gleichungssystem mit drei Unbekannten:

βˆ0 , βˆ1 , βˆ2

Gliederung 1. 2. 3. 4.

Drittvariablenkontrolle: Was ist das? Kategoriale Variablen Kontinuierliche Variablen Regression und Korrelation

Korrelation und Regression trivariat

zum Vergleich : bivariat

ryx1 , ryx2 , rx1 x2

ryx1

ryx1 − ryx2 rx1x2 s y ˆ β1 = ⋅ 2 1 − rx1x2 s x1 2 2 r r + yx1 yx2 − 2ryx1 ryx2 rx1 x2 2 R y. x1x2 = 1 − rx21x2 ⎛ ⎞ ⎛ s s x2 x 2 1 ˆ ˆ R y. x1x2 = ryx1 ⎜ β1 ⋅ ⎟ + ryx2 ⎜ β 2 ⋅ ⎜ ⎟ ⎜ s sy y ⎠ ⎝ ⎝

~

β1 = ryx ⋅ 1

sy s x1

R y2. x1 = ryx2 1 ⎞ ⎟ ⎟ ⎠

R

2 y . x1

⎛ ~ s x1 ⎞ = ryx1 ⎜ β1 ⋅ ⎟ ⎜ ⎟ s y ⎠ ⎝

Wann ist der bivariate gleich dem trivariaten Regressionskoeffizienten? trivariat r r r − s yx yx x x y 1 2 1 2 βˆ1 = ⋅ s x1 1 − rx21x2

zum Vergleich : bivariat ~

β1 = ryx ⋅ 1

sy s x1

• Die beiden unabhängigen Variablen x1 und x2 korrelieren nicht miteinander. • Beispiel: Einkommen als Funktion von Ausbildung und Körpergröße (Korrelation Ausbildung-Größe null).

Kann der bivariate Koeffizient positiv und der trivariate negativ sein? trivariat

zum Vergleich : bivariat

ryx1 − ryx2 rx1x2 s y ˆ β1 = ⋅ 2 s x1 1 − rx1x2

β1 = ryx ⋅ 1

sy s x1

Einkommen

• Das Produkt dieser Korrelationen ist positiv und betragsmäßig größer als die bivariate Korrelation. • Frage: Was müsste man an Beispiel 1 ändern?

~

Ausbildungsdauer

Determinationskoeffizient entspricht nicht der Summe der R²-Werte Variable Ausbildung Intelligenz Konstante R² n

R y2. x1x2 = R y2. x1x2

Koeffizient 60.21 146.95 0.11 935

Koeffizient 8.30 116.99 0.10 935

Koeffizient 42.06 5.14 -128.89 0.13 935

ryx2 1 + ryx2 2 − 2ryx1 ryx2 rx1x2 1 − rx21x2

0,332 + 0,312 − 2 ⋅ 0,33 ⋅ 0,31 ⋅ 0,52 = ≈ 0,13 2 1 − 0,52

Einzeln und gemeinsam erklärte Varianz Gesamtvarianz von y

y von x1 erklärte Varianz

von x2 erklärte Varianz

x1

x2 von x1 und x2 erklärte Varianz

Konsequenzen • Der Determinationskoeffizient des trivariaten Modells entspricht nur dann der Summe der bivariaten R², wenn x1 und x2 unabhängig sind. • Im allgemeinen Fall hängt die Zunahme des R²–Wertes vom bivariaten zum trivariaten Modell davon ab, welche Variable (x1 oder x2) zuerst betrachtet und welche dann hinzugefügt wird.

Zum Schluss

Literatur • Wooldridge, J. (2003): Introductory econometrics: a modern approach. South Western College Publishing. – Kapitel 3 diskutiert sowohl das trivariate als auch das allgemeine multiple Regressionsmodell. Lesen Sie nur die Passagen (WO 68-84), die sich auf den deskriptiven Teil der Regressionsanalyse beziehen.

• Bohrnstedt, G.W. / Knoke, D. (1994): Statistics for Social Data Analysis. 3rd edition. Itasca, Ill: Peacock – Der Zusammenhang zwischen Korrelation und multipler Regression lässt sich am besten bei BK (Kapitel 8) nachlesen.

• Kühnel, S.M. / Krebs, D. (2001): Statistik für die Sozialwissenschaften. Grundlagen, Methoden, Anwendungen. Reinbek: Rowohlt – Kapitel 15 demonstriert die Kontrolle von Drittvariablen bei kategorialen Daten mit dem Kendall-Lazarsfeld-Ansatz.

Zusammenfassung Kontrolle von Drittvariablen

Überprüfung von Alternativerklärungen durch Konstanthaltung dieser Variablen

Kategoriale Variablen

Betrachtung von Subgruppen, innerhalb derer die Drittvariable konstant ist.

Kontinuierliche Variablen

Konstanthaltung von Drittvariablen funktioniert als Denkmodell, praktisch werden Drittvariablen jedoch durch Auspartialisierung kontrolliert.

Auspartialisierung Bereinigung einer unabhängigen Variablen xk um die Einflüsse der anderen unabhängigen Variablen. Achtung I

Bivariater und trivariater Regressionskoeffizient können voneinander abweichen.

Achtung II

Trivariater Determinationskoeffizient ergibt sich nicht einfach aus der Summe der bivariaten Determinationskoeffizienten.

Wichtige Fachausdrücke Deutsch

Englisch

Auspartialisierung

partialling out

Deutsch

Englisch

Stata-Befehle reg y x z

Regression von y auf x und z (Kleinste-Quadrate Methode)

Nach dem Regressionskommando kann man mit dem predict-Befehl verschiedene interne Regressionsergebnisse abrufen. predict yhat, xb

Berechnung der Prognosen und Abspeichern in neuer Variablen yhat

predict yres, residuals

Berechnung der Residuen und Abspeichern in neuer Variablen yres

corr y x z

Korrelation von y, x und z