Analyse von Querschnittsdaten. Bivariate Regression

Analyse von Querschnittsdaten Bivariate Regression Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Deskriptive Modelle katego...

Author: Lieselotte Sauer

1 downloads 3 Views 140KB Size

Report

Download PDF

Recommend Documents

Analyse von Querschnittsdaten. Drittvariablenkontrolle

Analyse von Querschnittsdaten. Arten von Variablen und Strategien der Datenanalyse

Bivariate Verteilungen [bivariate data]

0.1 blogit: Bivariate Logistic Regression for Two Dichotomous

3 Bivariate Deskription und Exploration von Daten

Bivariate Regressionsanalyse

Analyse von Reiseblogs

Analyse von Zeitreihen

Softwareproduktlinien - Analyse von Produktlinien

Analyse von Mietwagenbuchungen

ANALYSE VON SERUMBESTANDTEILEN I

3. Analyse von Nutzeranforderungen

Usability-Analyse von HbbTV

Analyse von Synchronisation

Gender-Analyse von Organisationen

Analyse von Solarzellen

Analyse von Online-Kundenbewertungen

Seminar Analyse von Softwaresystemen

Analyse von Kontingenztafeln

Analyse von Ausgangsbedingungen

Durchflusszytometrische. Analyse von Wasserproben

MONITORING BIVARIATE PROCESSES

Microarrays zur Analyse von Pflanzenschutzmitteln

Analyse von existierenden Filmportalen NO1

Analyse von Querschnittsdaten Bivariate Regression

Warum geht es in den folgenden Sitzungen?

Kontinuierliche Variablen

Deskriptive Modelle

kategoriale Variablen

Datum

Vorlesung

13.10.2004

Einführung

20.10.2004

Beispiele

27.10.2004

Daten

03.11.2004

Variablen

10.11.2004

Bivariate Regression

17.11.2004

Kontrolle von Drittvariablen

24.11.2004

Multiple Regression

01.12.2004

Statistische Inferenz

08.12.2004

Signifikanztests I

15.12.2004

Signifikanztests II

22.12.2004

Spezifikation der unabhängigen Variablen

12.01.2005

Spezifikation der Regressionsfunktion

19.01.2005

Heteroskedastizität

26.01.2005

Regression mit Dummy-Variablen

02.02.2005

Logistische Regression

Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation

Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation

Zielsetzung • Finde eine Statistik, die das Typische der vorliegenden Daten beschreibt, so dass die einzelnen Daten möglichst wenig von dieser Statistik abweichen. • einzelne Zielvariable y (unbedingte Verteilung) – y = typisch + Rest

• Zusammenhang mit einer anderen Variablen x (bedingte Verteilung) – y = typisch|x + Rest

• Die Reste werden auch als Residuen r bezeichnet, die typischen Werte auch als Prognosen yˆ

Beispiel 1: Was ist das Typische der folgenden Stimmenanteile der CDU? Neuwied Ahrweiler Koblenz Cochem Bad Kreuznach Bitburg Trier Montabaur Mainz Worms Frankenthal Ludwigshafen Neustadt-Speyer Kaiserslautern Pirmasens Südpfalz

44.21 50.13 46.60 50.94 39.10 52.68 44.82 43.42 40.86 37.99 39.71 40.86 46.48 37.68 42.79 45.09

• Sie betragen im Durchschnitt 43,96%. • Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal. • Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist. • Definition Abweichung: quadrierte Differenz (xi – 43,96)². • Statistik: arithmetisches Mittel

Beispiel 2: Was ist das Typische der folgenden Stimmenanteile der CDU? Kaiserslautern Worms Bad Kreuznach Frankenthal Mainz Ludwigshafen Pirmasens Montabaur Neuwied Trier Südpfalz Neustadt-Speyer Koblenz Ahrweiler Cochem Bitburg

37.68 37.99 39.10 39.71 40.86 40.86 42.79 43.42 44.21 44.82 45.09 46.48 46.60 50.13 50.94 52.68

• Die Hälfte der Wahlkreise hat einen Stimmenanteil unter 44,21% • Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal. • Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist. • Definition Abweichung: absolute Differenz |xi – 44,21|. • Statistik: Median

50 CDU-Anteil in % 45

CDU 44.21 50.13 46.60 50.94 39.10 52.68 44.82 43.42 40.86 37.99 39.71 40.86 46.48 37.68 42.79 45.09

40

Katholiken 55.55 81.99 73.14 70.78 32.60 91.40 87.97 50.76 51.36 32.81 31.98 38.01 45.61 34.89 45.98 55.07

35

Wahlkreis Neuwied Ahrweiler Koblenz Cochem Bad Kreuznach Bitburg Trier Montabaur Mainz Worms Frankenthal Ludwigshafen Neustadt-Speyer Kaiserslautern Pirmasens Südpfalz

55

Beispiel 3: Was ist je nach Katholikenanteil das Typische?

20

40

60 Katholikenanteil in %

80

100

Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) a. Annahmen b. Minimierungsfunktion • •

Kleinste-Quadrate Methode Kleinste-Absolutwerte Methode

c. Regressionskoeffizienten d. Determinationskoeffizient e. Interpretation

3. Nicht-lineare Beziehungen 4. Regression und Korrelation

Annahmen • y und x sind kontinuierliche Variablen im mathematischen Sinne – Wertebereich von -∞ bis +∞ – Zwischen zwei Werten a F R-squared Adj R-squared Root MSE

= = = = = =

16 37.75 0.0000 0.7295 0.7102 2.4705

-----------------------------------------------------------------------------cdu | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------kathol | .1937741 .0315362 6.14 0.000 .1261357 .2614125 _cons | 33.30363 1.840984 18.09 0.000 29.35512 37.25215 ------------------------------------------------------------------------------

βˆ0

βˆ1

Interpretation ˆ U = 33,3 + 0,194 ⋅ Katholiken • CD

n = 16, R 2 = 0,729

• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet. • 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden. • Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte. • Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.

Das Typische der Daten ˆ U = 33,3 + 0,194 ⋅ Katholiken • CD

n = 16, R 2 = 0,729

• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet. • 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden. • Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte. • Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.

Passung (Fit) der Beschreibung ˆ U = 33,3 + 0,194 ⋅ Katholiken • CD

n = 16, R 2 = 0,729

• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet. • 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden. • Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte. • Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.

Nachtrag Kleinste Absolutwerte • CDˆ U = 32,5 + 0,215 ⋅ Katholiken n = 16, R 2 = 0,5724 • Eine andere Minimierungsfunktion liefert einen leicht veränderten Zusammenhang. • Kleinste-Quadrate Methode wird üblicherweise vorgezogen, weil die Kleinste-Absolutwerte Methode Nachteile hat: – keine analytische Lösung (iterative Berechnung notwendig) – inferenzstatistische Eigenschaften nicht so gut

55

Was erklärt die Unterschiede?

50

Kleinste Absolutwerte

35

40

CDU-Anteil in % 45

Kleinste Quadrate

20

40

60 Katholikenanteil in %

80

100

Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation

Linearität 15 y 10 5 0 0

1

2

3

4

5

4

5

x

nicht-linear: y = √(x)

1.5 y 1 .5 0

¾ Unabhängigkeit von der Größe von x

2

2.5

• Der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist.

20

linear: y = 2 + 3*x

0

1

2

3 x

Beispiel 4: Absentismus • Es werden insgesamt 12 Beschäftigte untersucht. Folgende Variablen wurden erhoben: y: Anzahl der Tage, an denen die Person fehlte. x1: (Negative) Einstellung gegenüber dem Betrieb (1=sehr positiv, 13=sehr negativ). x2: Beschäftigungsdauer in dem Betrieb in Jahren. x3: Nettoeinkommen in DM. x4: Anforderungen der ausgeübten Tätigkeit (1=niedrig, 2=schwierig).

Überblick über die Daten 0

5

10

2000

3000

4000

5000 15 10

Anzahl Fehltage

5 0

10

Negative Einstellung zu Betrieb

5 0

10

Beschaeftigungsdauer in Jahren

5

0

5000 4000

Nettoeinkommen in Euro

3000 2000

10

Anforderungen der Taetigkeit

5

0 0

5

10

15

0

5

10

0

5

10

Lineare Einfachregressionen

Regression

R2

Konstante

Steigung

Variable x

y mit x1

0,90

-2,31

1,37

NEGATIV

y mit x2

0,79

-1,72

1,62

DAUER

y mit x3

0,92

25,20

-0,0053

EINKOMM

y mit x4

0,001

6,71

-0,08

ANFORD

0

5

Anzahl Fehltage 10

15

Nicht-linearer Zusammenhang

2

4

6 Anforderungen der Taetigkeit

8

10

Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation

Kovarianz

n

Cov( x, y ) =

∑ ( x − x )( y i =1

i

n −1

i

− y)

Korrelationskoeffizient • Kovarianz ist um so größer, je mehr die beiden Variablen x und y streuen. • Korrelationskoeffizient (nach Pearson) ist eine standardisierte Kovarianz n

∑ ( x − x )( y i =1

Cov( x, y ) = r= sx ⋅ s y

i

∑ ( xi − x ) n −1

− y)

n

n −1

n

i =1

i

=

n

2

∑ ( yi − y ) i =1

n −1

2

∑ ( x − x )( y i =1

i

n

∑ ( xi − x ) i =1

n

2

i

− y)

∑ ( yi − y ) 2 i =1

=

SAPxy SAQx ⋅ SAQ y

Korrelation und bivariate Regression r=

βˆ1 =

SAPxy SAQx ⋅ SAQ y SAPyx SAQx

=

SAPyx SAQx SAQx

⋅

SAQ y SAQ y

SAQ y

βˆ1 =

SAPyx SAQx SAQ y

⋅

n −1 = r sy sx SAQx n −1

Korrelation und bivariate Regression

Für den Determinationskoeffizienten gilt 2 2 R =r

Zum Schluss

Literatur • Wooldridge, J. (2003): Introductory econometrics: a modern approach. South Western College Publishing. – Kapitel 2 gibt eine Einführung in die lineare Einfachregression. Allerdings beginnt Wooldridge sofort mit inferenzstatistischen Überlegungen und unterscheidet zwischen Grundgesamtheit und Stichprobe. Das werden wir erst in späteren Sitzungen behandeln. Wir betrachten Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen. Dies erklärt auch unsere leicht abweichende Notation (z.B. Residuum r statt Fehlerterm u). Bitte die entsprechenden Passagen (vor allem Abschnitt 2.5) zunächst ignorieren. Es genügt, die Abschnitte bis einschließlich 2.3 zu lesen (WO 22-41).

Zusammenfassung Analyseziel

finde eine Statistik, die die Daten gut beschreibt, d.h., von der die Einzelwerte möglichst wenig abweichen.

Minimierungs- • Summe der Quadrate der Abweichungen funktion • Summe der Absolutwerte der Abweichungen Bivariate Analyse

mache eine möglichst gute Prognose von y für unterschiedliche Werte von x

Lineare Funktion

der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist.

Annahmen

überprüfe Annahme der Linearität durch Streudiagramm

Regression

Regressionskoeffizienten, Determinationskoeffizient

Korrelation

ergibt sich aus Regressionskoeffizient durch Multiplikation mit den Standardabweichungen von x und y

Wichtige Fachausdrücke Deutsch

Englisch

Deutsch

Englisch

Kleinste Quadrate

(ordinary) least squares (OLS)

Korrelationskoeffizient

correlation coefficient

Kleinste Absolutwerte

least absolute values (LAV)

Regressionskoeffizient

regression coefficient

Determinations -koeffizient

coefficient of determination

Stata-Befehle reg y x

Regression von y auf x (KleinsteQuadrate Methode)

qreg y x

Regression von y auf x (KleinsteAbsolutwerte Methode)

graph twoway scatter y x

Streudiagramm

graph twoway lfit y x

Graphik linearer Regression

graph twoway scatter y x || lfit y x beides in einer Graphik graph matrix x1-x5

Matrix von Streudiagrammen (jede Variable mit jeder anderen)

corr y x

Korrelation von y und x