Regression und Korrelation

Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nic...
Author: Fritz Flater
3 downloads 8 Views 95KB Size
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zuf¨alliger Art annimmt. Ein Korrelationsproblem dagegen betrachtet die gemeinsame Verteilung von zwei Variablen, von denen keine durch den Experimentator fixiert wird, beide sind also zuf¨allig. Typische Regressionsprobleme sind z.B. beim Studium des Ernteertrages mit verschiedenen Mengen von D¨ unger, bei der Lebensdauer von Tieren bei verschiedenen Strahlungsdosen etc., zu finden. Dabei werden immer die Werte einer Variablen festgehalten, und diese unterliegen keiner zuf¨alligen Variation. Ein typisches Korrelationsproblem w¨are das Studium des Zusammenhangs zwischen Intelligenzquotienten und Schulleistung von Kindern.

7.1

Das Regressionsproblem

Als einfaches Beispiel wollen wir den Zusammenhang der Verteilung des Gewichts von M¨annern mit ihrer Gr¨oße studieren. Dann w¨ahlen wir zu vorgegebenen K¨orpergr¨oßen M¨anner aus und erhalten z.B. folgende Daten (siehe Abbildung 7.1). F¨ ur jede gew¨ahlte Gr¨oße x bekommen wir eine gewisse Verteilung der Gewichte Y der M¨anner mit dieser Gr¨oße. Von dieser k¨onnen eventuell Mittel µy.x und 2 Varianz σy.x angegeben werden. Weil die Verteilung von Y von den Werten von x abh¨angt, wird Y auch als abh¨angige und x als unabh¨angige Variable bezeichnet. Es muß aber festgehalten werden, daß x hier keine Zufallsvariable darstellt. 2 Normalerweise wird die Varianz σy.x als konstant u ¨ber x angenommen. In vielen Anwendungsbeispielen der Regressionsanalyse kann die Abh¨angigkeit der Mittelwerte von Y (µy.x ) von x im Bereich der x-Werte durch eine gerade Linie angegeben werden. Man spricht von einfacher, linearer Regression und schreibt z.B. µy.x = a + b(x − x¯) , wobei a und b feste Parameter darstellen.

110

111

7.2. Sch¨atzung der Parameter

x [cm] 150 150 150 155 155 155 155 160 160 175 175 175

y = Y (ω) [kg] 55 67.5 60 60 70 65 67.5 75 72.5 85 92.5 80

95 90 85 80 75 Y (in kg) 70 65 60 55 150

160 x (in cm)

170

180

Abbildung 7.1: K¨orpergewichte u ¨ber den Gr¨oßen.

7.2

Sch¨ atzung der Parameter

Die Parameter der Regressionsgeraden m¨ ussen aus den Daten gesch¨atzt werden. Dies geschieht zumeist mit der Methode der kleinsten Quadrate. Eine lineare, erwartungstreue Sch¨atzung f¨ ur a ist dann das arithmetische Mittel der Y -Werte, a ˆ = y¯ , und f¨ ur b

wobei s2x =

ˆb = sxy = s2x 1 n−1

P

P

(xi − x¯)(yi − y¯) , P (xi − x¯)2

(xi − x¯)2 die empirische Varianz der x-Werte und sxy =

1 X (xi − x¯)(yi − y¯) n−1

die empirische Kovarianz (siehe sp¨ater) zwischen x und Y bezeichnet. (Praktisch wird sxy h¨aufig durch die ¨aquivalente Formel sxy =

i 1 hX xi yi − n¯ xy¯ n−1

berechnet.) Sei yˆx der gesch¨atzte mittlere Wert von Y an der Stelle x (also von µy.x ). Dann gilt yˆx = a ˆ + ˆb(x − x¯) .

112

7.2. Sch¨atzung der Parameter 2 Eine erwartungstreue Sch¨atzung f¨ ur σ 2 = σy.x ist

s2 =

1 X 1 X (yi − yˆi )2 = [yi − a ˆ − ˆb(xi − x¯)]2 n−2 n−2

mit der algebraisch ¨aquivalenten Formel s2 =

n − 1 2 ˆ2 2 (s − b sx ) . n−2 y

s heißt auch mittlerer Fehler oder Standardfehler der Beobachtungen. Bei der Berechnung der Werte f¨ ur das obige Beispiel der K¨orpergewichte von M¨annern ergibt sich folgendes:

s2x s2y sxy ˆb s2 yˆx

P x P i y P i xy P i2 i x P 2i

yi = = = = = =

= 1 915 x¯ = = 850 y¯ = = 136 725 = 306 675 = 61 525 1 (306675 − 12 ∗ 159.582 ) 11 1 (61525 − 12 ∗ 70.832 ) 11 1 (136725 − 12 ∗ 159.38 ∗ 70.83) 11 98.11/97.54 11 (119.70 − 1.012 ∗ 97.54) 10 70.83 + 1.01(x − 159.58)

95

95

90

90

85

85

80

80

75 Y (in kg) 70

75 Y (in kg) 70

65

65

60

60

55

55 150

160 x (in cm)

170

180

159.58 70.83

= 97.54 = 119.70 = 98.11 = 1.01 = 23.12

150

160 x (in cm)

170

Abbildung 7.2: Regression der K¨orpergewichte u ¨ber den Gr¨oßen. In der rechten Skizze der Abbildung 7.2 sind auch die Residuen yi − yˆi , also die Differenzen zwischen den gemessenen und gesch¨atzten Werten, angedeutet. Die Art

180

113

7.3. Sch¨atzungen und Tests bei Normalverteilung

der obigen Berechnung der Parameter aˆ und ˆb ergibt sich auch aus dem Prinzip der kleinsten Quadrate, das heißt, die Gerade wird so gew¨ahlt, daß die Summe der quadrierten Residuen minimal wird. Die Motivierung kommt auch aus der Ausgleichsrechnung.

7.3 7.3.1

Sch¨ atzungen und Tests bei Normalverteilung Konfidenzintervalle der Parameter

2 Bis jetzt wurde nur angenommen, daß die Varianz σy.x = σ 2 f¨ ur alle Werte von x gleich und daß die Regression linear ist. Wenn wir nun zus¨atzlich die Verteilung von Y bei jedem Wert x als normal annehmen, k¨onnen wir Konfidenzintervalle f¨ ur 2 die Parameter a, b, σ und µy.x angeben. Es gilt dann, daß die Statistiken √ (Y¯ − a) n Ta = S

und

√ (ˆb − b)sx n − 1 Tb = S eine t-Verteilung mit n − 2 Freiheitsgraden besitzen, die Verteilung von (n − 2)

S2 σ2

ist χ2n−2 mit n − 2 Freiheitsgraden. Konfidenzintervalle mit der Konfidenzzahl α erh¨alt man folglich sofort als S S Y¯ − tn−2;1− α2 √ < a < Y¯ + tn−2;1− α2 √ , n n ˆb − tn−2;1− α 2 und (n − 2)

S S √ < b < ˆb + tn−2;1− α2 √ sx n − 1 sx n − 1 S2 χ2n−2;1− α 2

< σ 2 < (n − 2)

S2 χ2n−2; α

.

2

F¨ ur unser obiges Beispiel ergeben sich 90%-Konfidenzintervalle als s

s

23.12 23.12 < a < 70.83 + 1.81 70.83 − 1.81 12 12 oder 68.32 < a < 73.34 ,

114

7.3. Sch¨atzungen und Tests bei Normalverteilung f¨ ur b

s

s

23.12 23.12 < b < 1.01 + 1.81 1.01 − 1.81 97.54 ∗ 11 97.54 ∗ 11

oder

.74 < b < 1.28 , und f¨ ur σ 2 10

23.12 23.12 < σ 2 < 10 18.31 3.94

oder 12.63 < σ 2 < 58.68 .

7.3.2

Sch¨ atzung der Mittelwerte und zuku ¨ nftiger Beobachtungen

Ein Konfidenzintervall f¨ ur den Mittelwert µy.x an der Stelle x erh¨alt man mit der Formel v v u u 2 u1 u1 (x − x ¯ ) (x − x¯)2 t α St < µ < y ˆ + t . + + yˆx − tn−2;1− α2 S y.x x n−2;1− 2 2 2

n

(n − 1)sx

n

(n − 1)sx

In unserem Beispiel erhalten wir f¨ ur M¨anner mit x = 162.5 cm K¨orpergr¨oße einen gesch¨atzten mittleren Wert f¨ ur das K¨orpergewicht yˆ162.5 = 70.83 + 1.01(162.5 − 159.58) = 73.78 und ein 95%-Konfidenzintervall s

73.78 − 2.23 23.12[ s

(162.5 − 159.58)2 1 + ] < µy.162.5 12 11 ∗ 97.54

< 73.78 + 2.23 23.12[ oder

1 (162.5 − 159.58)2 + ] 12 11 ∗ 97.54

70.54 < µy.162.5 < 77.02 . Wollen wir eine Aussage u unftige Beobachtung y an der Stelle x ¨ber eine zuk¨ machen, so kommt zur Varianz von yˆx noch ein σ 2 dazu und wir erhalten v u u 1 (x − x¯)2 yˆx − tn−2;1− α2 S t1 + + 2.23 gegeben ist, sodaß wir auf Abh¨angigkeit des K¨orpergewichts von der K¨orpergr¨oße schließen m¨ ussen.

7.4

Das Korrelationsproblem

Im Gegensatz zur Abh¨angigkeit einer Zufallsvariablen von einer deterministischen Gr¨oße betrachten wir jetzt den Zusammenhang zwischen zwei zuf¨alligen Gr¨oßen. In einer Stichprobe m¨ ussen hier immer paarweise Messungen vorliegen. Meistens werden Analysen unter der Annahme, daß das Paar der betrachteten Zufallsvariablen (X, Y ) eine bivariate Normalverteilung aufweist, durchgef¨ uhrt. Diese ist in Abbildung 7.3 dargestellt. Es ist keine der Variablen ausgezeichnet. Bei jedem fixen Wert von X besitzt Y eine Normalverteilung und umgekehrt. Neben den Mittel2 werten µX , µY und den Varianzen σX = E(X − µX )2 , σY2 = E(Y − µY )2 dient zur Charakterisierung dieser bivariaten Verteilung als Maß der Abh¨angigkeit zwischen X und Y noch die Kovarianz σXY = E[(X − µX )(Y − µY )] . z

x

y

Abbildung 7.3: Dichte der bivariaten Normalverteilung. Als relative (dimensionslose) Gr¨oße ist die Korrelation zwischen X und Y als ρXY =

σXY σX σY

117

7.4. Das Korrelationsproblem

definiert. Ihr Wert liegt zwischen -1 und +1. Unabh¨angigkeit der beiden Variablen bedeutet σXY = 0 und damit ρXY = 0. Als Sch¨atzung f¨ ur ρ dient meistens der empirische Korrelationskoeffizient rXY =

1 X 1 (xi − x¯)(yi − y¯) . sX sY n − 1

Das am Anfang des Kapitels angef¨ uhrte Beispiel der K¨orpergr¨oßen und Gewichte kann nat¨ urlich auch als Korrelationsproblem interpretiert werden. Als empirischen Korrelationskoeffizient errechnen wir rXY = √

98.11 = .91 . 97.54 ∗ 119.70

Test auf Unkorreliertheit Sind die beiden Zufallsvariablen X und Y voneinander unabh¨angig und normalverteilt, so besitzt die Statistik T =R

s

n−2 1 − R2

eine tn−2 -Verteilung, wobei R die Zufallsvariable bezeichnet, die die Werte des empirischen Korrelationskoeffizienten rXY annimmt. T kann sofort als Teststatistik zum Testen der Nullhypothese Ho : ρ = 0 verwendet werden. Bei Spezifizierung der Gegenhypothese H1 : ρ 6= 0 ergibt sich als kritischer Bereich | T | > tn−2;1− α2 . Beispiel 7.1: Betrachten wir die Abh¨angigkeit des Eisengehaltes Y (in %) kieseliger H¨amatiterze von der Dichte X (g/cm3 ), wie im Beispiel auf Seite 69. Nun testen wir Ho : ρ = 0 gegen H1 : ρ 6= 0 mit α = .05. Der Wert des empirischen Korrelationskoeffizienten R betr¨agt r = .69. Mit n = 9 ergibt sich der Wert der Teststatistik T als s

s

n−2 7 t=r = .69 = 2.52 , 2 1−r 1 − .692

was absolut gr¨oßer als tn−2;1− α2 = t7;.975 = 2.365 ausf¨allt. Die Hypothese der Unkorreliertheit muß daher verworfen werden.

Suggest Documents