Lineare Regression I

Lineare Regression I Statistische Zusammenhangsanalyse Um zu untersuchen, ob eine erklärende Variable X Einfluss auf eine abhängige Variable Y hat, wi...
Author: Jörg Raske
451 downloads 2 Views 136KB Size
Lineare Regression I Statistische Zusammenhangsanalyse Um zu untersuchen, ob eine erklärende Variable X Einfluss auf eine abhängige Variable Y hat, wird die gemeinsame Verteilung der beiden Variablen untersucht. Beispiel: Einfluss der Selbtpositionierung auf einer Links-Rechts-Skala (LiRe) auf die Bewertung der SPD (EvalSPD) EvalSPD * LiRe Kreuztabelle Anzahl

EvalSPD (Y) negativ

positiv Gesamt

-5.00 -4.00 -3.00 -2.00 -1.00 .00 1.00 2.00 3.00 4.00 5.00

links -5.00 11 4 12 3 3 7 9 8 26 10 11 104

LiRe: Ideologische Selbstpositionierung (X) -4.00 2 2 3 3 2 15 13 20 23 16 11 110

-3.00 8 6 10 6 4 26 30 41 90 68 29 318

-2.00 6 5 10 11 7 16 32 66 92 49 23 317

-1.00 12 7 10 15 11 38 42 56 115 39 29 374

.00 50 22 56 49 36 103 70 80 94 36 22 618

1.00 19 16 29 32 22 38 22 16 15 5 3 217

2.00 19 10 30 22 9 14 20 16 16 3 5 164

rechts 3.00

4.00 17 7 18 4 10 6 8 10 8 3 3 94

5.00 4 4 6 2 2 1 0 2 2 2 1 26

15 1 2 2 0 3 2 3 1 1 1 31

(Daten: BTW05 Nachbefragung)

1

Gesamt 163 84 186 149 106 267 248 318 482 232 138 2373

Statistische Zusammenhangsanalyse Ein Zusammenhang besteht, wenn sich die bedingten Verteilungen der abhängigen Variablen Y bei verschiedenen Ausprägungen der erklärenden Variablen Y. In der Kreuztabelle werden dazu die relativen Häufigkeiten bzw. Prozentwerte von Y über die Ausprägungen von X verglichen. EvalSPD * LiRe Kreuztabelle % von LiRe

EvalSPD

(Y)

Gesamt

-5.00 -4.00 -3.00 -2.00 -1.00 .00 1.00 2.00 3.00 4.00 5.00

-5.00 10.6% 3.8% 11.5% 2.9% 2.9% 6.7% 8.7% 7.7% 25.0% 9.6% 10.6% 100.0%

-4.00 1.8% 1.8% 2.7% 2.7% 1.8% 13.6% 11.8% 18.2% 20.9% 14.5% 10.0% 100.0%

-3.00 2.5% 1.9% 3.1% 1.9% 1.3% 8.2% 9.4% 12.9% 28.3% 21.4% 9.1% 100.0%

-2.00 1.9% 1.6% 3.2% 3.5% 2.2% 5.0% 10.1% 20.8% 29.0% 15.5% 7.3% 100.0%

-1.00 3.2% 1.9% 2.7% 4.0% 2.9% 10.2% 11.2% 15.0% 30.7% 10.4% 7.8% 100.0%

LiRe (X) .00 8.1% 3.6% 9.1% 7.9% 5.8% 16.7% 11.3% 12.9% 15.2% 5.8% 3.6% 100.0%

1.00 8.8% 7.4% 13.4% 14.7% 10.1% 17.5% 10.1% 7.4% 6.9% 2.3% 1.4% 100.0%

2.00 11.6% 6.1% 18.3% 13.4% 5.5% 8.5% 12.2% 9.8% 9.8% 1.8% 3.0% 100.0%

3.00 18.1% 7.4% 19.1% 4.3% 10.6% 6.4% 8.5% 10.6% 8.5% 3.2% 3.2% 100.0%

4.00 15.4% 15.4% 23.1% 7.7% 7.7% 3.8% 7.7% 7.7% 7.7% 3.8% 100.0%

5.00 48.4% 3.2% 6.5% 6.5% 9.7% 6.5% 9.7% 3.2% 3.2% 3.2% 100.0%

Gesamt 6.9% 3.5% 7.8% 6.3% 4.5% 11.3% 10.5% 13.4% 20.3% 9.8% 5.8% 100.0%

Haben die Variablen viele Ausprägungen, sind die resultierenden Tabellen sehr unübersichtlicht und aufgrund zu geringer Fallzahlen in den einzelnen Tabellenzellen kaum zu interpretieren.

2

Statistische Zusammenhangsanalyse EvalSPD * LiRe Kreuztabelle % von LiRe

EvalSPD

-5.00 -4.00 (Y) -3.00 -2.00 -1.00 .00 1.00 2.00 3.00 4.00 EvalSPD 5.00 Gesamt Mittelwert N Standardab weichung

-5.00 10.6% 3.8% 11.5% 2.9% 2.9% 6.7% 8.7% 7.7% 25.0% 9.6% 10.6% 100.0% -5.00 .7885 104

-4.00 1.8% 1.8% 2.7% 2.7% 1.8% 13.6% 11.8% 18.2% 20.9% 14.5% 10.0% 100.0% -4.00 1.8727 110

-3.00 2.5% 1.9% 3.1% 1.9% 1.3% 8.2% 9.4% 12.9% 28.3% 21.4% 9.1% 100.0% -3.00 2.1667 318

-2.00 1.9% 1.6% 3.2% 3.5% 2.2% 5.0% 10.1% 20.8% 29.0% 15.5% 7.3% 100.0% -2.00 2.0252 317

-1.00 3.2% 1.9% 2.7% 4.0% 2.9% 10.2% 11.2% 15.0% 30.7% 10.4% 7.8% 100.0% -1.00 1.7139 374

3.27886

2.28320

2.34162

2.21745

2.38651

LiRe (X) .00 8.1% 3.6% 9.1% 7.9% 5.8% 16.7% 11.3% 12.9% 15.2% Bericht 5.8% 3.6% LiRe 100.0% .00 .2039 618 2.75243

1.00 8.8% 7.4% 13.4% 14.7% 10.1% 17.5% 10.1% 7.4% 6.9% 2.3% 1.4% 100.0% 1.00 -.9124 217

2.00 11.6% 6.1% 18.3% 13.4% 5.5% 8.5% 12.2% 9.8% 9.8% 1.8% 3.0% 100.0% 2.00 -.8598 164

3.00 18.1% 7.4% 19.1% 4.3% 10.6% 6.4% 8.5% 10.6% 8.5% 3.2% 3.2% 100.0% 3.00 -1.1277 94

2.48825

2.80422

3.02048

4.00 15.4% 15.4% 23.1% 7.7% 7.7% 3.8%

5.00 48.4% 3.2% 6.5% 6.5%

7.7% 7.7% 7.7% 3.8% 100.0% 4.00 -1.4231 26

9.7% 6.5% 9.7% 3.2% 3.2% 3.2% 100.0% 5.00 -2.2258 31

Gesamt 6.9% 3.5% 7.8% 6.3% 4.5% 11.3% 10.5% 13.4% 20.3% 9.8% 5.8% 100.0% Insgesamt .7733 2373

3.21463

3.30363

2.85956

Statt die gesamten bedingten Verteilungen zu betrachten, werden dann einzelne Verteilungsparameter über die Ausprägungen der erklärenden Variablen verglichen. In erster Linie werden dabei die bedingten Mittelwerte (bzw. bedingten Erwartungswerte) der abhängigen Variable verglichen.

3

Das lineare Regressionsmodell Bericht EvalSPD LiRe Mittelwert N Standardab weichung

-5.00 .7885 104

-4.00 1.8727 110

-3.00 2.1667 318

-2.00 2.0252 317

-1.00 1.7139 374

.00 .2039 618

1.00 -.9124 217

2.00 -.8598 164

3.00 -1.1277 94

4.00 -1.4231 26

5.00 -2.2258 31

Insgesamt .7733 2373

3.27886

2.28320

2.34162

2.21745

2.38651

2.75243

2.48825

2.80422

3.02048

3.21463

3.30363

2.85956

Die Betrachtung der bedingten Erwartungswerte einer abhängigen Variablen als Funktion der Ausprägungen der erklärenden Variablen heißt Regressionsfunktion. 5 4 3 2 1 0 EvalSPD -1 -2 -3 -4 -5 -5.00 -4.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 4.00 5.00 LiRe

Von einer linearen Regression spricht man, wenn die Regressionsfunktion eine Gerade ist. 4

Das lineare Regressionsmodell 5 4 3 –5·β1 2 β1 2·β1 3·β1 4·β1 5·β1 1 0 β0 –4·β1 –3·β1 –2·β1 –1·β1 EvalSPD -1 -2 -3 -4 -5 -5.00 -4.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 4.00 5.00 LiRe

Die Gerade lässt sich algebraisch durch eine einfache Funktion beschreiben: μ Y X = β0 + β1 ⋅ x Die Lage der Regressionsgerade wird durch die beiden Regressionskoeffizienten β0 und β1 bestimmt. Die Regressionskonstante β0 gibt den bedingten Erwartungswert wieder, wenn die erklärende Variable den Wert 0 aufweist. Das Regressionsgewicht β1 gibt die Steigung der Regressionsgerade an. 5

Das lineare Regressionsmodell 5 4 3 2 1 0 EvalSPD -1 -2 -3 -4 -5 -5.00 -4.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 4.00 5.00 LiRe

Ein lineares Regressionsmodell unterstellt, dass die empirische Beziehung zwischen abhängiger und erklärender Variablen durch eine lineare Regressionsfunktion beschrieben werden kann. Die Anwendung eines Regressionsmodells erfordert • empirische (Stichproben-) Daten, auf die das Modell angewendet werden kann • eine geeignete Schätzmethode zur Bestimmung der Regressionskoeffizienten • Kriterien, um die Angemessenheit des Regressionsmodells zu beurteilen • statistische Tests, um Hypothesen über die Parameter der Regressionsfunktion prüfen zu können. 6

Das lineare Regressionsmodell: OLS-Schätzung der Regressionskoeffizienten

Die klassische Methode zur Bestimmung der Regressionskoeffizienten ist die (ungewichtete) Kleinstquadratmethode (engl: ordinary least squares, OLS). Bei der OLS-Schätzung werden die Regressionskoeffizienten so bestimmt, dass die Summe der quadrierten Differenzen der empirischen Realisierungen von der geschätzten Regressionsfunktion minimal ist: QOLS 7 6 5 4 Y 3 2 1 0 0

1

2

(

)

n

( (

βˆ 0 , βˆ 1 = ∑ yi − βˆ 0 + βˆ 1 ⋅ x i i =1

)) = min 2 !

X 1 y–(1+1·x) 2 ˆ = 1 + 1⋅ X 2 Y 2.5 3 3 3.5 4 3 4 5 6 4 X 5 ∑ 30

Y Y–(1+1·X) (Y–1–1·X)2 2 0 0 1 –2 4 5 2 4 1 –2.5 6.25 2 –2 4 6 2 4 7 2.5 6.25 3 –2 4 7 2 4 6 0 0 40 0 36.5 7

Eigenschaften der OLS-Schätzer 5 4 3 2 1 0 EvalSPD -1 -2 -3 -4 -5 -5.00 -4.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 4.00 5.00 LiRe

Die mit der OLS-Schätzung bestimmte lineare Regressionsfunktion ist: μˆ Y X = βˆ 0 + βˆ 1 ⋅ x yˆ = b 0 + b1 ⋅ x = −.392 − .492 ⋅ x

Es kann gezeigt werden, dass die OLS-Methode unter bestimmten Voraussetzungen sehr erwünschte statistische Eigenschaften aufweist.

8

Eigenschaften der OLS-Schätzer

Wenn a) die Stichprobendaten eine (einfache) Zufallsauswahl aus einer Population sind, b) die Regressionsfunktion der bedingten Populationsmittelwerte von Y gegeben X in der Population eine lineare Gleichung ist und c) die bedingten Populationsvarianzen von Y gegeben X konstant sind haben die OLS-Schätzer folgende Eigenschaften: (1) Die OLS-Schätzer sind konsistente und erwartungstreue Schätzer der Regressionskoeffizienten in der Population. (2) Es gibt keine anderen (linearen) Schätzfunktionen der Regressionskoeffizienten in der Population, die kleinere Standardfehler haben, d.h. die OLS-chätzer sind effizient. (3) Die Varianzen und Kovarianzen der Schätzer lassen sich konsistent und unverzerrt aus den Stichprobendaten schätzen. (4) Die Schätzer sind asymptotisch normalverteilt.

9

Konsistenz, Erwartungstreue und Effizienz der OLS-Schätzer Konsistenz Konsistenz bedeutet, dass mit steigendem Stichprobenumfang n die Wahrscheinlichkeit gegen eins geht, dass die Abweichung einer Schätzung vom zu schätzenden Populationswert kleiner als eine beliebig kleine Größe ist: Pr ob ( bi − βi < ε ) ⎯⎯⎯ →1 n =∞

Erwartungstreue Erwartungstreue bedeutet, dass der Erwartungswert (Mittelwert) der Schätzung eines Regressionskoeffizienten über die Gesamtheit aller möglichen Stichproben gerade der zu schätzende Populationskoeffizient ist:

μ ( b i ) = βi Effizienz Ein erwartungstreuer Schätzer ist effizient, wenn die Standardabweichung über die Gesamtheit aller möglichen Stichproben verglichen mir anderen Schätzern minimal ist. Unter den Anwendungsvoraussetzungen ist der OLS-Schätzer in der Klasse der linearen erwartungstreuen Schätzer effizient (engl: best linear unbiased, BLU).

10

Kennwerteverteilung der OLS-Schätzer

Die Varianzen und Kovarianzen der OLS-Schätzer sind im bivariaten Regressionsmodell: b1

b0 n

∑x b0

i =1

2 i

n

n ⋅ ∑ ( xi − x )

⋅ σ 2Y X

2

i =1

b1

−x n

n ⋅ ∑ ( xi − x )

⋅ σ 2Y X

2

i =1

1 n

n ⋅ ∑ ( xi − x )

2

⋅ σY2 X

i =1

Die in den Formeln auftauchende bedingte Varianz der abhängigen Variable (Residualvarianz) lässt sich konsistent und erwartungstreu schätzen nach: n

σˆ Y X =

∑( y − (b i =1

i

0

+ b1 ⋅ x i ) )

df

n

2

=

∑( y i =1

i

− yˆ i )

df

n

2

=

∑e i =1

2 i

df

wobei die Zahl der Freiheitsgrade df gleich der Fallzahl minus der Anzahl der geschätzten Regressionskoeffizienten ist. 11

Kennwerteverteilung der OLS-Schätzer

Die positive Quadratwurzel aus der Varianz eines Schätzers ist sein Standardfehler. Durch Einsetzen der geschätzten Residualvarianz in die Formeln für die Standardfehler ergeben sich die geschätzten Standardfehler. Im bivariaten Modell gilt: n

σˆ ( b 0 ) =

∑x i =1

n

2 i

n

n ⋅ ∑ ( xi − x )

⋅ 2

∑e i =1

2 i

n−2

i =1

n

σˆ ( b1 ) =

1 n

n ⋅ ∑ ( xi − x )

⋅ 2

∑e i =1

2 i

n−2

i =1

Da die Kennwerteverteilung der erwartungstreuen OLS-Schätzer asymptotisch normalverteilt ist, kann sie mit Hilfe der geschätzten Standardfehler berechnet werden. 12

Klassische Darstellug des linearen Regressionsmodells

Das lineare Regressionsmodells wurde über die bedingten Erwartungswerte der abhängigen Variablen definiert. In klassischen Darstellungen wird die abhängige Variable Y i.a. als lineare Funktion der erklärenden Variablen X und einer (unbeobachteten) Residualvariable ζ dargestellt: ˆ +ζ Y = β0 + β1 ⋅ X + ζ = Y Zur Ableitung der Eigenschaften der OLS-Funktion werden dann folgende Annahmen getroffen: (1) Die Werte von X sind fest vorgegeben (fixed-X), X ist dann keine Zufallsvariable. (2) Für alle Fälle der Stichprobe gilt, dass die Realisierungen der Residualvariable unabhängig und identisch (engl: independent and identical distributed) verteilt ist (iid-Annahme). (3) Der Erwartungswert jedes Residuums ist null. (4) Die Residuen sind normalverteilt. Anstelle von Annahme (1) wird oft eine Konsequenz aus (1) festgehalten: (1/) Die Residualvariable ist nicht mit der erklärenden Variablen korreliert. Anstelle der Annahme (2) werden oft auch nur zwei ihrer Konsequenzen postuliert: (2a) Die Varianzen der Residuen sind gleich (Homoskedastizitätsannahme) (2b) Die Residuen sind untereinander unkorreliert (keine Autokorrelation).

13

Beurteilung der Angemessenheit des Regressionsmodells

Aus den Annahme (1) bis (3) folgen die gleichen Konsequenzen wie aus den zunächst vorgestellten Anahmen (a) bis (c). Wird zusätzlich die Normalverteilungsannahme (4) getroffen, dann sind die geschätzten Regressionskoeffizienten nicht nur asymptotisch bei hinreichend großen Fallzahlen, sondern auch bei kleinen Stichproben exakt normalverteilt. Die erwünschten Eigenschaften von OLS- wie ML-Schätzung gelten nur bei Erfüllung der Anwendungsvoraussetzungen Um diese Annahmen zumindest tendenziell zu überprüfen, werden die Residuen der Regression betrachtet. Wenn die Modellanahmen erfüllt sind, sollten die Realisationen der Residualvariable U bei allen Ausprägungen der erklärenden Variable X bzw. der Vorhersagewerte • Erwartungswerte von null aufweisen (Linearitätsannahme), • nicht mit den erklärenden Variablen korrelieren (Unkorreliertheit), • die gleiche Varianz aufweisen (Homoskedastizitätsannahme), • voneinander unabhängig sein (keine Autokorrelation) und • möglichst normalverteilt sein (Normalverteilungsannahme). Da die Populationsresiduen nicht beobachtbar sind, weil anstelle der Populationskoeffizienten α und β nur deren Schätzungen a und b vorliegen, können allerdings anstelle der Realsierungen ui von U nur die Stichprobenresiduen ei von E betrachtet werden. ˆ bzw. e = y − yˆ = y − ( b + b ⋅ x ) E=Y−Y i i i i 0 1 i

14

Prüfung der Anwendungsvoraussetzungen der Regression

Als Folge der Kleinstquadratschätzung folgt jedoch notwendigerweise, • dass der Mittelwert der Stichprobenresiduen null ist und • dass die Stichprobenresiduen nicht mit der erklärenden Variablen korrelieren. Hinzu kommt, dass die Stichprobenresiduen zwangsläufig bei verschiedenen Ausprägungen der erklärenden Variablen unterschiedliche Varianzen aufweisen müssen, selbst wenn die Populationsresiduen homoskedastisch sind. Dies liegt daran, dass die Ausprägungen yi der abhängigen Variablen Y die Summe der Vorhersagewerte und der Stichprobenresiduen sind: yi = yˆ i + ei Wenn die Homoskedastizitätsannahme zutrifft, ist die bedingte Varianz eines Falles yi bei einfacher Zufallsauswahl gleich der Populationsvarianz der Residualvariable U: σ 2 ( yi x i ) = σ 2U

Die Varianz eines Vorhersagewertes ist das Quadrat des Standardfehlers. Dann gilt also:

σ2U = σ 2 ( yi x i ) = σ 2 (ei ) + σ 2 (μ Y X = xi ) = σ 2 (ei ) + h i ⋅ σ 2U 1 mit h i = + n

( x0 − x ) n

∑(x i =1

i

2

− x)

2

15

Prüfung der Anwendungsvoraussetzungen der Regression

σ 2U = σ 2 ( yi x i ) = σ 2 (ei ) + σ 2 (μ Y X = xi ) = σ 2 (ei ) + h i ⋅ σ 2U Daraus folgt für die Varianz eines Residuums ei:

⎛ ⎞ 2 ⎜ 1 xi − x ) ⎟ ( 2 2 2 2 2 2 2 ⎟ σ (ei ) = σ U − σ (μ Y X = xi ) = σ U − h i ⋅ σ U = σ U ⋅ (1 − h i ) = σ U ⋅ ⎜1 − − n 2 ⎜ n ⎟ − x x ( ) ∑ j ⎜ ⎟ j=1 ⎝ ⎠

Die Varianz eines Stichprobenresiduums ei ist also um so kleiner, je weiter der zugeordnete Wert xi vom Mittelwert der erklärenden Variablen entfernt ist. Ersetzt man die Populationsvarianz von U durch den erwartungstreuen Schätzer dieser Varianz und zieht die Wurzel aus der Varianz, ergibt sich der geschätzte Standardfehler eines Residuums ei: ⎛ ⎞ 2 ⎜1 xi − x ) ⎟ ( ⎟ σˆ ( ei ) = σˆ U ⋅ 1 − h i = σˆ U ⋅ 1 − ⎜ + n 2 ⎜n ⎟ x x − ( ) ∑ j ⎜ ⎟ j=1 ⎝ ⎠ 16

Prüfung der Anwendungsvoraussetzungen der Regression

Bei der Kontrolle von Modellannahmen werden dann anstelle der Stichprobenresiduen E die standardisierten Residuen E* betrachtet, die sich ergeben, wenn jedes Residuum ei durch seinen Standardfehler dividiert wird: e ei e*i = i = σˆ ( ei ) ⎛ ⎞ n 2 ej 2 ∑ ⎜ 1 ⎟ ( x − x ) ⎟ ⋅ j=1 ⎜1 − − n i 2 ⎟ n−2 ⎜ n (xj − x) ⎟ ∑ ⎜ j=1 ⎝ ⎠

17

Prüfung der Linearitätsannahme 5

Standardisierte Resiuen

4 3

Einen ungefähren Eindruck über die Angemessenheit der Linearitätsannahme gibt ein Streudiagramm der (standardisierten) Residuen nach den Werten der abhängigen Variablen.

2 1 0 -1 -2 -3 15 20 25 30 35 40 45 50 55 60 65 70 75 80

Abhängige Variable

Zwischen abhängiger Variable und standardisierten Residuen besteht notwendigerweise eine positive Korrelation, da in die standardisierten Residuen die Werte der abhängigen Variablen eingehen. Auf Nichtlinearität weist ein Streudiagramm hin, bei dem die Punktewolke nicht gleichmäßig ansteigt. So besteht möglicherweise im Beispiel an den Rändern der Verteilung eine leichte Abweichung von der linearen Zunahme. 18

Prüfung der Linearitätsannahme

Wird die abhängige Variable gruppiert und die Mittelwerte der Residuen gegen die Mittelwerte der Altersgruppe eingetragen, zeigt sich jedoch weiterhin ein primär linearer Trend. Insofern scheint für die Beispieldaten die Linearitätsannahme nicht gravierend verletzt zu sein. Standardized Residual * Alter der Partnerin (gruppiert) Standardized Residual Alter der Partnerin (gruppiert) bis 20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70 ab 71 Insgesamt

Mittelwert -.4942949 -.1206064 -5.1E-02 -.3485271 1.62E-02 .1265506 .7038620 .3121954 .9924353 .8679651 1.0756006 1.1765388 9.54E-17

1.5 N 36 49 28 16 9 8 14 8 8 4 1 4 185

Standardab weichung .6022805 .5272793 .8391817 1.2660343 1.4752204 .7049125 1.8334303 1.1860818 .4890400 .5131495 . .1235232 .9972789

2

y = 6E-05x + 0.0242x - 0.9002 1

0.5

0

-0.5 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85

19

Prüfung der Homoskedastizitätsannahme

Das Streudiagramm der standardisierten Residuen gegen die Vorhersagewerte (bzw. die Werte der erklärenden Variablen) sollte bei homoskedastischen Residuen entlang der wagerechten Achse gleichmäßig um den Wert null streuen. Dass es im Streudiagramm für die Beispieldaten mehr Fälle bei niedrigen als bei hohen Vorhersagewerten gibt, spricht nicht gegen die Homoskedastizitätsannahme.

5

Standardisierte Resiuen

4 3 2 1 0 -1 -2 -3 15 20 25 30 35 40 45 50 55 60 65 70 75

Vorhersagewerte

Auf der anderen Seite scheinen aber vor allem bei mittleren und hohen Vorhersagewerten standardisierte Residuen aufzutreten, die mehr als 2 Standardabweichungen von null abweichen. Dies könnte ein Hinweis darauf sein, dass bei höherem Alter die Residualvarianzen zunehmen, die individuellen Vorhersagen also ungenauer werden. Ein deutlich sichtbarer Zusammenhang zwischen den Vorhersagewerten und den Streuungen der Residuen scheint allerdings nicht zu bestehen. 20

Prüfung der Autokorrelation

Für die Prüfung der Autokorrelation der Residuen gibt es spezielle Testverfahren. Da die Daten aus einer Bevölkerungsumfrage kommen, bei der die Respondenten unabhängig voneinander in die Stichprobe aufgenommen worden sind, ist nicht mit autokorrelierten Residuen zu rechnen. Autokorrelationen treten vor allem bei Zeitreihendaten und anderen zeitbezogenen Daten auf. Prüfung der Normalverteilungsannahme Obwohl die Normalvereilungsannahme relativ unproblematisch ist, ist es möglich, sie zu untersuchen. Dazu wird oft ein sogenanntes Q-Q-Plot betrachtet, bei denen die standardisierten Residuen gegen Quantile der Standardnormalverteilung (z-Werte) abgetragen werden, die aus der kumulierten Häufigkeitsverteilung der Residuen berechnet werden. Die z-Werte berechnen sich nach 0.5 ⎞ ⎛ zi = Φ −1 ⎜ cpi − ⎟ n ⎠ ⎝

Im Beispiel der Regression des Alters der Partnerin auf das Alter des Partners ergibt sich für das kleinste der 185 Residuen eine kumulierte relative Häufigkeit von 1/185. Der z-Wert für dieses Residuum ist dann der Quantilwert der Standardnormalverteilung, der der relativen Häufigkeit von 0.0027 (=1/185 − 0.5/185)entspricht. Der zehntkleinste Wert korrespondiert entsprechend mit dem z-Wert zum relativen Anteil 0.0514 (=10/185 − 0.5/185).

21

Prüfung der Normalverteilungsannahme

Standardisierte Residuen

5 4 3 2 1 0 -1 -2 -3 -3

-2

-1

0

1

2

3

z-Werte der kumulierten Residuen (aus: Kühnel/Krebs 2001: 447)

Wenn die Residuen normalverteilt sind, sollte das Q-Q-Plot eine Punktewolke zeigen, die relativ eng entlang der 45°-Gerade im Streudiagramm verläuft. Die Abbildung zeigt, dass dies weitgehend der Fall ist. Nur an den Rändern der Verteilung gibt es deutliche Abweichungen. 22

Ausreißer und einflussreiche Fälle

Eine implizite Annahme aller statistischer Analysen ist, dass die Population, aus der die Fälle kommen, homogen ist. Wenn die Stichprobe nämlich Fälle enthält, die von den übrigen Fällen deutlich abweichen, kann es zu Verzerrungen der Ergebnisse kommen. So fällt in den Streudiagrammen stets ein (rot eingezeichneter) Punkt auf, der ein sehr hohes standardisiertes Residuum aufweist. Es handelt sich hier um ein Paar, bei dem der Mann 17 Jahre, seine Partnerin 46 Jahre alt ist. Da dieser Fall sehr deutlich von den übrigen Datenpunkten abweicht, ist es möglich, dass er die Lage der Regressionskurve stärker beeinflusst als andere Fälle. Wenn es sich dann um einen „Datenfehler“ handelt, kann dadurch die Regressionsgerade verzerrt sein. Generell haben Datenpunkte, die weit vom Schwerpunkt der Punktewolke der abhängigen und unabhängigen Variablen entfernt sind, ein größeres Gewicht bei der Bestimmung der Regressionsgeraden, was daran liegt, das die Gerade immer durch den Schwerpunkt verläuft und gleichzeitig die Summe der quadrierten Abweichungen von der Gerade minimiert werden, große Abweichungen also stärker einfließen als kleine Abweichungen. Sichtbar wird dies an den Hebelwerten hi, die in die Berechnung der standardisierten Residuen einfließen. Je größer ein Hebelwert ist, desto stärker bestimmt der entsprechende Fall die Lage der Regressionsfunktion.

23

Henelkraft-Werte und Cook‘s Distanzen

Ausreißer und einflussreiche Fälle

In der Abbildung ist die Kurve der Hebelwerte hi und Cooks Distanzen Di nach den Werten der unabhängigen Variablen Y als Streudiagramm eingezeichnet. Deutlich sichtbar ist der uförmige Verlauf der Hebelkraftwerte.

0.15

0.10

0.05

0.00 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 (aus: Kühnel/Krebs 2001: 447)

Erklärende Variable

Neben der Hebelkraft bestimmt auch der Wert des Residuums ei den Einfluss, den ein Fall i auf die Regressionsgerade hat. Das nach dem Statistiker Cook benannte Maß Cooks Distanz D gibt für jeden Fall die Einflussstärke an. Die Berechnung erfolgt nach der Gleichung Di =

( e*i ) 2

2



hi 1 − hi 24

Henelkraft-Werte und Cook‘s Distanzen

Ausreißer und einflussreiche Fälle

Interessanter sind Cooks Distanzen. Während die meisten Werte recht klein sind, gibt, es doch einige auffallende Ausreißer. Am größten ist der Wert für das bereits erwähnte Paar des 17-jährigen Mannes und seiner 46-jährigen Partnerin.

0.15

0.10

0.05

0.00 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 (aus: Kühnel/Krebs 2001: 447)

Erklärende Variable

Wird dieser Fall von der Analyse ausgeschlossen und die Regression für die verbleibenden 184 Fälle berechnet, so ergibt sich als neue Vorhersagegleichung: ˆ = 2.13 + 0.87 ⋅ X Y

25

Ausreißer und einflussreiche Fälle

Der Ausschluss des Falles hat also eine Senkung der Regressionskonstante um immerhin 0.67 (von 2.80 auf 2.13) bewirkt. Gleichzeitig ist das Regressionsgewicht um 0.02 (von 0.85 auf 0.87) angestiegen. Auch hat sich die Korrelation von X und Y um 0.91 auf 0.92 erhöht. Der Ausschluss dieses Ausreißerpaares hat also einen sichtbaren Effekt auf die Regression. Dieser Effekt allein sollte allerdings nicht als hinreichender Grund genommen werden, den Fall tatsächlich von der Analyse auszuschließen. Wenn es sich nämlich nicht um einen Datenfehler handelt, kann der Ausschluss abweichender Fälle zur Missachtung besonders interessanter Informationen führen. Eine bessere Strategie besteht daher darin, sich solche abweichenden Fälle näher anzusehen..

26

Statistische Tests

Über die Kennwerteverteilung der Regressionskoeffizienten lassen sich statistische Tests formulieren. Einzelne Hypothesen über einen Regressionskoeffizient der Form: H0: βi = c vs. H1: βi ≠ c werden mit Hilfe der Teststatistik: T =

bi − c σˆ ( bi )

geprüft. Bei gültiger Nullhypothese ist die Teststatistik unter der Normalverteilugnsannahme mit df Freiheitsgraden t-verteilt, ohne die Normalverteilunsgannahme asymptotisch standardnormalverteilt. Die Zahl der Freiheitsgrade ist stets die Fallzahl minus der Zahl der geschätzten Regressionskoeffizienten. Anstelle eines zweiseitigen Tests lässt sich auch ein einseitiger Test der Form: H0: βi ≤ c vs. H1: βi > c bzw. H0: βi ≥ c vs. H1: βi < c durchführen. 27

Statistische Tests

Darüber hinaus gibt es Verallgemeinerungen, bei denen simultan Hypothesen über mehrere Koeffizienten oder lineare Funktionen der Koeffizienten geprüft werden. Es können auch hierarchisch geschachtelte Regressionsmoedelle gegeneinander gestestet werden. Zwei Modelle sind hierarchich geschachtelt, wenn ein Modell derart ein Spezialfall des anderen ist, dass die möglichen Werte von Regressionskoeffizienten in dem strengeren Modell gegenüber dem liberaleren Modell auf bekannte Werte oder auf Funktionen anderer Regressionskoeffizienen des Modells restringiert sind. Geprüft wird dann die Nullhypothese, dass das strengere (restringierte) Modell und nicht das liberalere (nicht restringierte) Modell zutrifft.

28

Beurteilung der Angemessenheit des Regressionsmodells u. statistsiche Tests

Wenn SS0 die Summe der quadrierten Residuen des restringierten Modells und SS1 die Summe der quadrierten Residuen des nicht restringierten Modells bezeichnet, wird folgende Teststatistik berechnet: F=

(SS0 − SS1 ) / p SS1 / df

wobei p die Anzahl der zusätzliche Restriktionen des restringierten Modells und df wieder die Fallzahl minus der Zahl der geschätzten Regressionskoeffizienten im nicht restingierten Modell ist. Bei zutreffender Nullhypothese ist die Teststatistik f-verteilt mit df1=p und df2=df Freiheitsgraden. Der F-Test wird am häufigsten zur Prüfung der Nullhypothese eingesetzt, dass alle Regressionsgewichte null sind, die bedingten Mittelwerte der abhängigen Variablen also nicht als (lineare) Funktion der erklärenden Variablen variieren. ANOVAb Modell 1

Regression Residuen Gesamt

Quadrats umme 2736.560 16659.467 19396.026

df 2 2370 2372

Mittel der Quadrate 1368.280 7.029

a. Einflußvariablen : (Konstante), region Ost/West, LiRe b. Abhängige Variable: EvalSPD

F 194.653

Signifikanz .000a

2736.560 = 19396.026 –1 6659.467 = SS0 – SS1 29

Verallgemeinerungen des bivariaten linearen Regressionsmodells

Das bivariate Regressionsmodell lässt sich leicht zum multiplen Regressionsmodell mit mehreren erklärenden Variablen verallgemeinern: K

μ Y x1 ,x 2 ,",x K = β0 + ∑ βk ⋅ x k k =1

Beispiel: Zusätzlich zur Links-Rechts-Selbstpositionierung wird die Region, in der ein befrgater lebt, zur Vorhersage der Bewertung der SPD herangezogen. Wenn der Wert 0 der Region für die alten und der Wert 1 für die neuen Bundesländer steht, ergeben sich folgende Koeffizienten bei der OLS-Schätzung: Koeffizientena

Modell 1

(Konstante) LiRe region Ost/West

Nicht standardisierte Koeffizienten Standardf B ehler -.602 .069 -.526 .027 .662 .117

a. Abhängige Variable: EvalSPD

Standardisie rte Koeffizienten Beta -.384 .111

T -8.754 -19.681 5.684

Signifikanz .000 .000 .000

30