Analyse von Querschnittsdaten Bivariate Regression
Warum geht es in den folgenden Sitzungen?
Kontinuierliche Variablen
Deskriptive Modelle
kategoriale Variablen
Datum
Vorlesung
13.10.2004
Einführung
20.10.2004
Beispiele
27.10.2004
Daten
03.11.2004
Variablen
10.11.2004
Bivariate Regression
17.11.2004
Kontrolle von Drittvariablen
24.11.2004
Multiple Regression
01.12.2004
Statistische Inferenz
08.12.2004
Signifikanztests I
15.12.2004
Signifikanztests II
22.12.2004
Spezifikation der unabhängigen Variablen
12.01.2005
Spezifikation der Regressionsfunktion
19.01.2005
Heteroskedastizität
26.01.2005
Regression mit Dummy-Variablen
02.02.2005
Logistische Regression
Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation
Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation
Zielsetzung • Finde eine Statistik, die das Typische der vorliegenden Daten beschreibt, so dass die einzelnen Daten möglichst wenig von dieser Statistik abweichen. • einzelne Zielvariable y (unbedingte Verteilung) – y = typisch + Rest
• Zusammenhang mit einer anderen Variablen x (bedingte Verteilung) – y = typisch|x + Rest
• Die Reste werden auch als Residuen r bezeichnet, die typischen Werte auch als Prognosen yˆ
Beispiel 1: Was ist das Typische der folgenden Stimmenanteile der CDU? Neuwied Ahrweiler Koblenz Cochem Bad Kreuznach Bitburg Trier Montabaur Mainz Worms Frankenthal Ludwigshafen Neustadt-Speyer Kaiserslautern Pirmasens Südpfalz
44.21 50.13 46.60 50.94 39.10 52.68 44.82 43.42 40.86 37.99 39.71 40.86 46.48 37.68 42.79 45.09
• Sie betragen im Durchschnitt 43,96%. • Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal. • Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist. • Definition Abweichung: quadrierte Differenz (xi – 43,96)². • Statistik: arithmetisches Mittel
Beispiel 2: Was ist das Typische der folgenden Stimmenanteile der CDU? Kaiserslautern Worms Bad Kreuznach Frankenthal Mainz Ludwigshafen Pirmasens Montabaur Neuwied Trier Südpfalz Neustadt-Speyer Koblenz Ahrweiler Cochem Bitburg
37.68 37.99 39.10 39.71 40.86 40.86 42.79 43.42 44.21 44.82 45.09 46.48 46.60 50.13 50.94 52.68
• Die Hälfte der Wahlkreise hat einen Stimmenanteil unter 44,21% • Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal. • Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist. • Definition Abweichung: absolute Differenz |xi – 44,21|. • Statistik: Median
50 CDU-Anteil in % 45
CDU 44.21 50.13 46.60 50.94 39.10 52.68 44.82 43.42 40.86 37.99 39.71 40.86 46.48 37.68 42.79 45.09
40
Katholiken 55.55 81.99 73.14 70.78 32.60 91.40 87.97 50.76 51.36 32.81 31.98 38.01 45.61 34.89 45.98 55.07
35
Wahlkreis Neuwied Ahrweiler Koblenz Cochem Bad Kreuznach Bitburg Trier Montabaur Mainz Worms Frankenthal Ludwigshafen Neustadt-Speyer Kaiserslautern Pirmasens Südpfalz
55
Beispiel 3: Was ist je nach Katholikenanteil das Typische?
20
40
60 Katholikenanteil in %
80
100
Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) a. Annahmen b. Minimierungsfunktion • •
Kleinste-Quadrate Methode Kleinste-Absolutwerte Methode
c. Regressionskoeffizienten d. Determinationskoeffizient e. Interpretation
3. Nicht-lineare Beziehungen 4. Regression und Korrelation
Annahmen • y und x sind kontinuierliche Variablen im mathematischen Sinne – Wertebereich von -∞ bis +∞ – Zwischen zwei Werten a F R-squared Adj R-squared Root MSE
= = = = = =
16 37.75 0.0000 0.7295 0.7102 2.4705
-----------------------------------------------------------------------------cdu | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------kathol | .1937741 .0315362 6.14 0.000 .1261357 .2614125 _cons | 33.30363 1.840984 18.09 0.000 29.35512 37.25215 ------------------------------------------------------------------------------
βˆ0
βˆ1
Interpretation ˆ U = 33,3 + 0,194 ⋅ Katholiken • CD
n = 16, R 2 = 0,729
• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet. • 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden. • Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte. • Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.
Das Typische der Daten ˆ U = 33,3 + 0,194 ⋅ Katholiken • CD
n = 16, R 2 = 0,729
• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet. • 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden. • Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte. • Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.
Passung (Fit) der Beschreibung ˆ U = 33,3 + 0,194 ⋅ Katholiken • CD
n = 16, R 2 = 0,729
• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet. • 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden. • Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte. • Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.
Nachtrag Kleinste Absolutwerte • CDˆ U = 32,5 + 0,215 ⋅ Katholiken n = 16, R 2 = 0,5724 • Eine andere Minimierungsfunktion liefert einen leicht veränderten Zusammenhang. • Kleinste-Quadrate Methode wird üblicherweise vorgezogen, weil die Kleinste-Absolutwerte Methode Nachteile hat: – keine analytische Lösung (iterative Berechnung notwendig) – inferenzstatistische Eigenschaften nicht so gut
55
Was erklärt die Unterschiede?
50
Kleinste Absolutwerte
35
40
CDU-Anteil in % 45
Kleinste Quadrate
20
40
60 Katholikenanteil in %
80
100
Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation
Linearität 15 y 10 5 0 0
1
2
3
4
5
4
5
x
nicht-linear: y = √(x)
1.5 y 1 .5 0
¾ Unabhängigkeit von der Größe von x
2
2.5
• Der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist.
20
linear: y = 2 + 3*x
0
1
2
3 x
Beispiel 4: Absentismus • Es werden insgesamt 12 Beschäftigte untersucht. Folgende Variablen wurden erhoben: y: Anzahl der Tage, an denen die Person fehlte. x1: (Negative) Einstellung gegenüber dem Betrieb (1=sehr positiv, 13=sehr negativ). x2: Beschäftigungsdauer in dem Betrieb in Jahren. x3: Nettoeinkommen in DM. x4: Anforderungen der ausgeübten Tätigkeit (1=niedrig, 2=schwierig).
Überblick über die Daten 0
5
10
2000
3000
4000
5000 15 10
Anzahl Fehltage
5 0
10
Negative Einstellung zu Betrieb
5 0
10
Beschaeftigungsdauer in Jahren
5
0
5000 4000
Nettoeinkommen in Euro
3000 2000
10
Anforderungen der Taetigkeit
5
0 0
5
10
15
0
5
10
0
5
10
Lineare Einfachregressionen
Regression
R2
Konstante
Steigung
Variable x
y mit x1
0,90
-2,31
1,37
NEGATIV
y mit x2
0,79
-1,72
1,62
DAUER
y mit x3
0,92
25,20
-0,0053
EINKOMM
y mit x4
0,001
6,71
-0,08
ANFORD
0
5
Anzahl Fehltage 10
15
Nicht-linearer Zusammenhang
2
4
6 Anforderungen der Taetigkeit
8
10
Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation
Kovarianz
n
Cov( x, y ) =
∑ ( x − x )( y i =1
i
n −1
i
− y)
Korrelationskoeffizient • Kovarianz ist um so größer, je mehr die beiden Variablen x und y streuen. • Korrelationskoeffizient (nach Pearson) ist eine standardisierte Kovarianz n
∑ ( x − x )( y i =1
Cov( x, y ) = r= sx ⋅ s y
i
∑ ( xi − x ) n −1
− y)
n
n −1
n
i =1
i
=
n
2
∑ ( yi − y ) i =1
n −1
2
∑ ( x − x )( y i =1
i
n
∑ ( xi − x ) i =1
n
2
i
− y)
∑ ( yi − y ) 2 i =1
=
SAPxy SAQx ⋅ SAQ y
Korrelation und bivariate Regression r=
βˆ1 =
SAPxy SAQx ⋅ SAQ y SAPyx SAQx
=
SAPyx SAQx SAQx
⋅
SAQ y SAQ y
SAQ y
βˆ1 =
SAPyx SAQx SAQ y
⋅
n −1 = r sy sx SAQx n −1
Korrelation und bivariate Regression
Für den Determinationskoeffizienten gilt 2 2 R =r
Zum Schluss
Literatur • Wooldridge, J. (2003): Introductory econometrics: a modern approach. South Western College Publishing. – Kapitel 2 gibt eine Einführung in die lineare Einfachregression. Allerdings beginnt Wooldridge sofort mit inferenzstatistischen Überlegungen und unterscheidet zwischen Grundgesamtheit und Stichprobe. Das werden wir erst in späteren Sitzungen behandeln. Wir betrachten Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen. Dies erklärt auch unsere leicht abweichende Notation (z.B. Residuum r statt Fehlerterm u). Bitte die entsprechenden Passagen (vor allem Abschnitt 2.5) zunächst ignorieren. Es genügt, die Abschnitte bis einschließlich 2.3 zu lesen (WO 22-41).
Zusammenfassung Analyseziel
finde eine Statistik, die die Daten gut beschreibt, d.h., von der die Einzelwerte möglichst wenig abweichen.
Minimierungs- • Summe der Quadrate der Abweichungen funktion • Summe der Absolutwerte der Abweichungen Bivariate Analyse
mache eine möglichst gute Prognose von y für unterschiedliche Werte von x
Lineare Funktion
der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist.
Annahmen
überprüfe Annahme der Linearität durch Streudiagramm
Regression
Regressionskoeffizienten, Determinationskoeffizient
Korrelation
ergibt sich aus Regressionskoeffizient durch Multiplikation mit den Standardabweichungen von x und y
Wichtige Fachausdrücke Deutsch
Englisch
Deutsch
Englisch
Kleinste Quadrate
(ordinary) least squares (OLS)
Korrelationskoeffizient
correlation coefficient
Kleinste Absolutwerte
least absolute values (LAV)
Regressionskoeffizient
regression coefficient
Determinations -koeffizient
coefficient of determination
Stata-Befehle reg y x
Regression von y auf x (KleinsteQuadrate Methode)
qreg y x
Regression von y auf x (KleinsteAbsolutwerte Methode)
graph twoway scatter y x
Streudiagramm
graph twoway lfit y x
Graphik linearer Regression
graph twoway scatter y x || lfit y x beides in einer Graphik graph matrix x1-x5
Matrix von Streudiagrammen (jede Variable mit jeder anderen)
corr y x
Korrelation von y und x