Analyse von Querschnittsdaten Drittvariablenkontrolle
Warum geht es in den folgenden Sitzungen? Datum
Kontinuierliche Variablen
Deskriptive Modelle
kategoriale Variablen
Vorlesung
18.10.2006
Einführung
18.10.2006
Beispiele
25.10.2006
Daten
08.11.2006
Variablen
15.11.2006
Bivariate Regression
22.11.2006
Kontrolle von Drittvariablen
29.11.2006
Multiple Regression
06.12.2006
Statistische Inferenz
13.12.2006
Signifikanztests I
20.12.2006
Signifikanztests II
10.01.2007
Spezifikation der unabhängigen Variablen
17.01.2007
Spezifikation der Regressionsfunktion
24.01.2007
Heteroskedastizität
31.01.2007
Regression mit Dummy-Variablen
07.02.2007
Logistische Regression
Gliederung 1. 2. 3. 4.
Drittvariablenkontrolle: Was ist das? Kategoriale Variablen Kontinuierliche Variablen Regression und Korrelation
Wie hat sich die Arbeitslosigkeit verändert? •
Nürnberg, 3. November 2004, rb/rtr/dpa: Wie die Bundesagentur für Arbeit mitteilte, waren im Oktober bundesweit rund 4,206 Millionen Erwerbslose registriert. Dies seien 50.100 weniger gewesen als im September, aber 55.300 mehr als vor einem Jahr.
1. Welcher der beiden Vergleiche ist aussagekräftiger? 2. Warum ist das ein Beispiel für die Kontrolle von Drittvariablen?
Drittvariablenkontrolle • Ausgangssituation – Es existiert ein statistischer Zusammenhang zwischen zwei Variablen x und y. – Es gibt eine Alternativerklärung für den Zusammenhang (eine dritte Variable z).
• Analyseproblem – Wie kann man den Zusammenhang zwischen x und y „frei“ von Einflüssen von z untersuchen?
• Lösung – Man betrachtet den Zusammenhang zwischen x und y unter Konstanthaltung von z.
Gliederung 1. Drittvariablenkontrolle: Was ist das? 2. Kategoriale Variablen a. Konstanthaltung von z: Kendall-Lazarsfeld-Ansatz
3. Kontinuierliche Variablen 4. Regression und Korrelation
Beispiel 1: Jugenddelinquenz Berufstätigkeit der Mutter Delinquenz
nein
ja
Insgesamt
ja
44%
59%
50%
nein
56%
41%
50%
Insgesamt
100% (590)
100% (391)
100% (981)
Beispiel 1: Jugenddelinquenz • Daten: leicht abgewandelt aus Glueck, S. / Glueck, E. (1950): Unraveling juvenil delinquency. Cambridge, MA • Ausgangssituation – Kinder berufstätiger Mütter werden häufiger straffällig. – Erklärung: mangelnde Betreuung durch Abwesenheit der Mutter im Falle von Berufstätigkeit.
• Alternativerklärung – Auch eine berufstätige Mutter kann ihre Kinder angemessen betreuen, die reine zeitliche Abwesenheit ist nicht entscheidend. – Indikator: Aussagen über das Verhältnis zur Mutter.
Kontrolliere Kontakt mit Mutter Kontakt: schlecht
Kontakt: gut
Berufstätigkeit der Mutter
Berufstätigkeit der Mutter
Delinquenz
nein
ja
Insg.
Delinquenz
nein
ja
Insg.
ja
85%
83%
84%
ja
31%
27%
30%
nein
15%
17%
16%
nein
69%
73%
70%
Insg.
100% (149)
100% (226)
100% (375)
Insg.
100% (441)
100% (165)
100% (606)
Gliederung 1. Drittvariablenkontrolle: Was ist das? 2. Kategoriale Variablen 3. Kontinuierliche Variablen a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen? b. Auspartialisierung von z: Berechnung „zu Fuß“ c. Trivariate Regression: analytische Lösung
4. Regression und Korrelation
Einkommen
Bivariater Zusammenhang
Ausbildungsdauer
Beispiel 2: Einkommen • Ausgangssituation – Mit zunehmender Ausbildungsdauer beobachtet man höhere Einkommen – Erklärung: Humankapitaltheorie.
• Alternativerklärung – Einkommen bemessen sich an der Produktivität der Personen. – Fähigere Personen erzielen höhere Einkommen. – Indikator: Ergebnisse eines Intelligenztestes.
• Beispiel 2 verwendet zu Demonstrationszwecken simulierte Daten.
Wie unterscheiden sich die Personen nach Intelligenz IQ = 130 Einkommen
IQ = 110 IQ = 90 IQ = 70 Ausbildungsdauer
Bei gleicher Ausbildungsdauer (s. rote Linie) werden intelligentere Personen besser entlohnt.
Wie kann man sich die Kontrolle einer Drittvariablen vorstellen? IQ = 130 Einkommen
IQ = 110 IQ = 90 IQ = 70 Ausbildungsdauer
Es werden getrennte Regressionsmodelle für Personen mit gleicher Intelligenz berechnet (Konstanthaltung von z).
Geringerer Ausbildungseffekt bei Kontrolle der Intelligenz IQ = 130 Einkommen
IQ = 110 IQ = 90 IQ = 70 Ausbildungsdauer
Vergleiche bivariate Regressionsgerade und Regressionsgeraden in den vier Subgruppen.
Beispiel 3: Erwerbseinkommen männlicher Arbeitnehmer
0
600
Monthly Earnings 1000 2000
Fitted values of monthly earnings 800 1000 1200
3000
1400
reale Daten, n=935, wage2.dta wage: Monatliches Nettoeinkommen in Dollar educ: Ausbildungsdauer in Jahren IQ: Intelligenztestpunkte vier Subgruppen: Quartile von IQ
8
10
12 14 years of education
16
18
8
10
12 14 years of education
16
18
Fitted values of monthly earnings 800 1000 1200
1400
Ausbildungseffekt geringer bei Kontrolle der Intelligenz
600
Zum Vergleich: bivariate Regression
8
10
Variable Ausbildung Intelligenz Konstante R² n
12 14 years of education
Koeffizient 60.21 146.95 0.11 935
16
18
Koeffizient 42.06 5.14 -128.89 0.13 935
Zerlegung in Subgruppen ist ein Denkmodell! • Verwendung aus didaktischen Gründen • Wenn die dritte Variable kontinuierlich ist, hat sie viele Ausprägungen und nicht nur vier. • Beispiel 3: Warum nur vier Gruppen (Quartile), warum nicht zehn (Perzentile) oder mehr? • Je mehr Gruppen, desto weniger Fälle pro Gruppe und desto weniger sinnvoll, pro Subgruppe ein Regressionsmodell zu rechnen. ÖEffizientere Kontrolle der Drittvariablen gesucht.
Gliederung 1. Drittvariablenkontrolle: Was ist das? 2. Kategoriale Variablen 3. Kontinuierliche Variablen a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen? b. Auspartialisierung von z: Berechnung „zu Fuß“ c. Trivariate Regression: analytische Lösung
4. Regression und Korrelation
6
6
8
8
Einkommen 10 12
Einkommen 10 12
14
14
16
16
Einkommen hängt mit Ausbildung und mit Intelligenz zusammen
6
8
10 Ausbildung
12
14
60
80
100 Intelligenz
120
140
Problem: Ausbildungsdauer und Intelligenz sind korreliert IQ = 130 Einkommen
IQ = 110 IQ = 90 IQ = 70 Ausbildungsdauer
Bivariater Effekt der Ausbildung misst Effekt der Intelligenz mit. Gesucht: Überbzw. unterdurchschnittliche Ausbildungsdauer für ein gegebenes Intelligenzniveau
6
8
Ausbildungsdauer 10
12
14
Regression von Ausbildung auf Intelligenz
60
80
100 Intelligenz
120
140
Residuen dieser Regression zeigen, welche Ausbildungsdauer bei einem gegebenen Intelligenzniveau über- bzw. unterdurchschnittlich ist.
6
8
Einkommen 10 12
14
16
Regression der Einkommen auf die Residuen der Ausbildungsdauer
-2
-1
0 1 Bereinigte Ausbildungsdauer
2
Durch Verwendung der Residuen wird der Effekt der Intelligenz „auspartialisiert“.
Zusammenfassung 1. Regression von x auf z edˆuc = 4,5 + 0,5 ⋅ intell 2. Berechnen und Abspeichern der Residuen rˆ = educ − edˆuc educ
1. reg x z 2. predict rx, residuals 3. reg y rx 4. reg y x z
3. Regression von y auf rˆx waˆge = 11 + 0,7 ⋅ rˆeduc 4. Zum Vergleich : triviate Regression waˆge = −2,15 + 0,7 ⋅ educ + 0,065 ⋅ intell
Auf beiden Wegen erhält man den gleichen Regressionskoeffizienten für x (educ).
Formeln trivariat
zum Vergleich : bivariat
yi = β 0 + β1 xi1 + β 2 xi 2 + r
yi = β 0 + β1 xi1 + r
n
βˆ1 =
∑ rˆ ( y i =1
i1
n
i
∑ rˆi1 i =1
− y)
n
~
β1 = 2
∑ ( x − x )( y i
i =1
n
i
− y)
2 − ( x x ) ∑ i i =1
Residuum der Regression von x1 auf x2 : ~ ~ rˆi1 = xi1 − xˆi1 = xi1 − (δ 0 + δ 1 xi 2 )
Gliederung 1. Drittvariablenkontrolle: Was ist das? 2. Kategoriale Variablen 3. Kontinuierliche Variablen a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen? b. Auspartialisierung von z: Berechnung „zu Fuß“ c. Trivariate Regression: analytische Lösung
4. Regression und Korrelation
Kleinste-Quadrate Methode n
Allgemein : minimiere SSR = ∑ ( yi − yˆ i ) 2 i =1
Trivariate Regression : yˆ i = βˆ0 + βˆ1 xi1 + βˆ2 xi 2 n
Minimiere SSR = ∑ ( yi − βˆ0 − βˆ1 xi1 − βˆ2 xi 2 ) 2 i =1
Bilde partielle Ableitungen : n
∑1⋅ ( y i =1 n
i
− βˆ0 − βˆ1 xi1 − βˆ2 xi 2 ) = 0
∑x i =1 n
ˆ − βˆ x − βˆ x ) = 0 ⋅ ( y − β 0 1 i1 2 i2 i1 i
∑ xi 2 ⋅ ( yi − βˆ0 − βˆ1 xi1 − βˆ2 xi 2 ) = 0 i =1
Die sogenannten Normalgleichungen bilden ein Gleichungssystem mit drei Unbekannten:
βˆ0 , βˆ1 , βˆ2
Gliederung 1. 2. 3. 4.
Drittvariablenkontrolle: Was ist das? Kategoriale Variablen Kontinuierliche Variablen Regression und Korrelation
Korrelation und Regression trivariat
zum Vergleich : bivariat
ryx1 , ryx2 , rx1 x2
ryx1
ryx1 − ryx2 rx1x2 s y ˆ β1 = ⋅ 2 1 − rx1x2 s x1 2 2 r r + yx1 yx2 − 2ryx1 ryx2 rx1 x2 2 R y. x1x2 = 1 − rx21x2 ⎛ ⎞ ⎛ s s x2 x 2 1 ˆ ˆ R y. x1x2 = ryx1 ⎜ β1 ⋅ ⎟ + ryx2 ⎜ β 2 ⋅ ⎜ ⎟ ⎜ s sy y ⎠ ⎝ ⎝
~
β1 = ryx ⋅ 1
sy s x1
R y2. x1 = ryx2 1 ⎞ ⎟ ⎟ ⎠
R
2 y . x1
⎛ ~ s x1 ⎞ = ryx1 ⎜ β1 ⋅ ⎟ ⎜ ⎟ s y ⎠ ⎝
Wann ist der bivariate gleich dem trivariaten Regressionskoeffizienten? trivariat r r r − s yx yx x x y 1 2 1 2 βˆ1 = ⋅ s x1 1 − rx21x2
zum Vergleich : bivariat ~
β1 = ryx ⋅ 1
sy s x1
• Die beiden unabhängigen Variablen x1 und x2 korrelieren nicht miteinander. • Beispiel: Einkommen als Funktion von Ausbildung und Körpergröße (Korrelation Ausbildung-Größe null).
Kann der bivariate Koeffizient positiv und der trivariate negativ sein? trivariat
zum Vergleich : bivariat
ryx1 − ryx2 rx1x2 s y ˆ β1 = ⋅ 2 s x1 1 − rx1x2
β1 = ryx ⋅ 1
sy s x1
Einkommen
• Das Produkt dieser Korrelationen ist positiv und betragsmäßig größer als die bivariate Korrelation. • Frage: Was müsste man an Beispiel 1 ändern?
~
Ausbildungsdauer
Determinationskoeffizient entspricht nicht der Summe der R²-Werte Variable Ausbildung Intelligenz Konstante R² n
R y2. x1x2 = R y2. x1x2
Koeffizient 60.21 146.95 0.11 935
Koeffizient 8.30 116.99 0.10 935
Koeffizient 42.06 5.14 -128.89 0.13 935
ryx2 1 + ryx2 2 − 2ryx1 ryx2 rx1x2 1 − rx21x2
0,332 + 0,312 − 2 ⋅ 0,33 ⋅ 0,31 ⋅ 0,52 = ≈ 0,13 2 1 − 0,52
Einzeln und gemeinsam erklärte Varianz Gesamtvarianz von y
y von x1 erklärte Varianz
von x2 erklärte Varianz
x1
x2 von x1 und x2 erklärte Varianz
Konsequenzen • Der Determinationskoeffizient des trivariaten Modells entspricht nur dann der Summe der bivariaten R², wenn x1 und x2 unabhängig sind. • Im allgemeinen Fall hängt die Zunahme des R²–Wertes vom bivariaten zum trivariaten Modell davon ab, welche Variable (x1 oder x2) zuerst betrachtet und welche dann hinzugefügt wird.
Zum Schluss
Literatur • Wooldridge, J. (2003): Introductory econometrics: a modern approach. South Western College Publishing. – Kapitel 3 diskutiert sowohl das trivariate als auch das allgemeine multiple Regressionsmodell. Lesen Sie nur die Passagen (WO 68-84), die sich auf den deskriptiven Teil der Regressionsanalyse beziehen.
• Bohrnstedt, G.W. / Knoke, D. (1994): Statistics for Social Data Analysis. 3rd edition. Itasca, Ill: Peacock – Der Zusammenhang zwischen Korrelation und multipler Regression lässt sich am besten bei BK (Kapitel 8) nachlesen.
• Kühnel, S.M. / Krebs, D. (2001): Statistik für die Sozialwissenschaften. Grundlagen, Methoden, Anwendungen. Reinbek: Rowohlt – Kapitel 15 demonstriert die Kontrolle von Drittvariablen bei kategorialen Daten mit dem Kendall-Lazarsfeld-Ansatz.
Zusammenfassung Kontrolle von Drittvariablen
Überprüfung von Alternativerklärungen durch Konstanthaltung dieser Variablen
Kategoriale Variablen
Betrachtung von Subgruppen, innerhalb derer die Drittvariable konstant ist.
Kontinuierliche Variablen
Konstanthaltung von Drittvariablen funktioniert als Denkmodell, praktisch werden Drittvariablen jedoch durch Auspartialisierung kontrolliert.
Auspartialisierung Bereinigung einer unabhängigen Variablen xk um die Einflüsse der anderen unabhängigen Variablen. Achtung I
Bivariater und trivariater Regressionskoeffizient können voneinander abweichen.
Achtung II
Trivariater Determinationskoeffizient ergibt sich nicht einfach aus der Summe der bivariaten Determinationskoeffizienten.
Wichtige Fachausdrücke Deutsch
Englisch
Auspartialisierung
partialling out
Deutsch
Englisch
Stata-Befehle reg y x z
Regression von y auf x und z (Kleinste-Quadrate Methode)
Nach dem Regressionskommando kann man mit dem predict-Befehl verschiedene interne Regressionsergebnisse abrufen. predict yhat, xb
Berechnung der Prognosen und Abspeichern in neuer Variablen yhat
predict yres, residuals
Berechnung der Residuen und Abspeichern in neuer Variablen yres
corr y x z
Korrelation von y, x und z