14 Regression, lineare Korrelation und Hypothesen-Testverfahren

14 Regression, lineare Korrelation und Hypothesen-Testverfahren 14.1 Regressionsverfahren In der Meßtechnik kommt es h¨ aufig vor, daß eine Schar von ...
24 downloads 2 Views 348KB Size
14 Regression, lineare Korrelation und Hypothesen-Testverfahren

14.1 Regressionsverfahren In der Meßtechnik kommt es h¨ aufig vor, daß eine Schar von aufgenommenen Meßpunkten durch eine geeignete analytische Funktion in Form einer Anpaßkurve beschrieben werden soll. Im folgenden gehen wir davon aus, daß n Messungen durchgef¨ uhrt werden, welche die Wertepaare {xi , yi }(i = 1, 2, . . . , n) liefern. Anschließend wird an diese Meßwerte eine Kurve y˜(x) angepaßt. Daraus ergeben sich die Abweichungen Δi zwischen den einzelnen Meßpunkten und der Anpaßkurve im jeweiligen Meßpunkt xi zu Δi = y˜(xi ) − yi .

(14.1)

Dabei wird x als unabh¨ angige (vorgebbare) Variable und y als abh¨angige Variable bezeichnet. Der Ansatz der minimalen Fehlerquadrate gem¨aß dem sog. Gaußschen Minimalprinzip [69] (Gaußsches Prinzip der kleinsten Quadrate) ergibt Δ=

n  i=1

Δ2i =

n  ! [˜ y (xi ) − yi ]2 = min. .

(14.2)

i=1

In Gleichung (14.2) ist als unbekannte Funktion die Anpaßkurve y˜(x) enthalten. Die beschriebene Fehlerquadratsumme Δ h¨angt nun von der Wahl dieser Anpaßkurve ab. Die Festlegung der diese Anpaßkurve beschreibenden analytischen Funktion und die anschließende Berechnung ihrer Koeffizienten (s.u.) wird als Regressionsverfahren bezeichnet. Falls Proportionalit¨at zwischen der abh¨ angigen und unabh¨ angigen Variablen herrscht, l¨aßt sich in diesem Fall die Schar vom Meßwerten durch eine Gerade beschreiben. Man spricht dann von einer Ausgleichsgeraden, die durch sog. lineare Regression bestimmt wird.

434

14 Regression, lineare Korrelation und Hypothesen-Testverfahren

14.1.1 Ausgleichsgerade (lineare Regression) Die lineare Regression ist die f¨ ur die ingenieurm¨aßige Praxis wichtigste Form der Regressionsanalyse. Sie hat das Ziel, durch eine Schar von (in aller Regel) experimentell bestimmten Wertepaaren {xi , yi } eine Ausgleichsgerade zu legen. Dabei wird x als unabh¨ agige und y als abh¨angige Variable betrachtet. Die Ausgleichsgerade bestimmt letztlich die nach dem Gaußschen Minimalprinzip beste lineare Approximation der Funktion y(x), die hier von diskreten Wertetupeln repr¨ asentiert wird. Im folgenden gehen wir davon aus, daß n Meßwerte {xi , yi }(i = 1, 2, . . . , n) vorliegen. An diese Meßwerte soll eine Gerade der Form y˜(x) = mx + b angepaßt werden (Abb. 14.1). Die Abweichung der i-ten Einzelmessung lautet Δi = y˜(xi ) = [mxi + b] − yi .

(14.3)

Der Ansatz der minimalen Fehlerquadrate liefert gem¨aß Gl. (14.2) Δ=

n 

Δ2i

=

n 

i=1

! [mxi + b − yi ]2 = min. .

(14.4)

i=1

Bei dem in Gl. (14.4) geforderten Minimum m¨ ussen die partiellen Ableitungen nach den unbekannten Koeffizienten m und b gleich Null sein. Das f¨ uhrt zu der im folgenden beschriebenen Ermittlung von Steigung und Achsenabschnitt der Ausgleichsgeraden. y(x) y4

Δ4

y3

Δ3

Δ2

y2 y1

Δ1

x1

x2

x3

x4

x

Abb. 14.1: Ausgleichsgerade zur linearen Approximation aufgenommener Meßwerte

14.1 Regressionsverfahren

435

Ermittlung von Steigung m und Achsenabschnitt b der Ausgleichsgeraden Die partielle Differentiation von Gl. (14.4) nach m ergibt 2

n  [mxi + b − yi ]xi = 0 .

(14.5)

i=1

Aus der Differentiation nach b folgt 2

n  [mxi + b − yi ] = 0 .

(14.6)

i=1

Die Gleichungen (14.5) und (14.6) k¨ onnen wie folgt umgeformt werden m

n 

x2i + b

i=1

bzw. m

n 

xi =

i=1

n 

n 

y i xi

(14.7)

i=1 n 

xi + nb =

i=1

yi .

(14.8)

i=1

L¨ ost man dieses Gleichungssystem (Gl. (14.7) und (14.8)) nach den gesuchten Werten m bzw. b auf, so erh¨ alt man die Geradensteigung m n 

m=

n 

xi

i=1

yi − n

i=1



n 

−n

i=1 n 

=

xi y i −

i=1 n  i=1

und den Achsenabschnitt b 1 b= n

"

x2i −

n  i=1

n  i=1

1 n

xi y i

i=1

2

xi

n 

n 

xi

i=1



1 n

yi − m

n 

(14.9) x2i

n 

yi

i=1 2

xi

i=1

n 

# xi

.

(14.10)

i=1

Die Koeffizienten m und b lassen sich nach dem in Abb. 14.2 gezeigten Schema berechnen. Nachdem die Koeffizienten der Ausgleichsgeraden bestimmt wurden, stellt sich im allgemeinen die Frage nach der Qualit¨at dieser linearen Approximation, d.h. nach der G¨ ute bei der linearen Regression. Um letztlich die Vertrauensbereiche f¨ ur die Parameter der Ausgleichsgeraden angeben zu k¨ onnen, sind noch einige mathematische Definitionen notwendig, die im folgenden Abschnitt (Kap. 14.1.2) behandelt werden.

436

14 Regression, lineare Korrelation und Hypothesen-Testverfahren

Schema zur linearen Regression: Berechnung einer Ausgleichsgeraden aus n Meßwertepaaren {xi , yi } 1. Berechnung der Mittelwerte μx = x =

n 1 xi n i=1

μy = y =

n 1 yi n i=1

2. Berechnung von 3 Hilfsgr¨ oßen1 Qx =

s2x (n

− 1) =

n

n

(xi − x) = 2

i=1

Qy =

s2y (n

− 1) =

n

i=1

(yi − y) = 2

i=1

Qxy = sxy (n − 1) =

1 − n

x2i

n

n

yi2

i=1

1 − n

n

2

xi

i=1

n 2 yi i=1

(xi − x) (yi − y)

i=1

=

n

xi yi −

i=1

n n 1 xi yi n i=1 i=1

3. Berechnung der Koeffizienten m und b: Steigung2

m = Qxy /Qx

Achsenabschnitt

1 b = y − mx = n

n i=1

yi − m

n



xi

i=1

Abb. 14.2: Schema zur linearen Regression: Berechnung einer Ausgleichsgeraden aus n Meßwertepaaren {xi , yi }

1

2

Qx , Qy werden auch als Summe der quadratischen Abweichungen bezeichnet (abgek¨ urzt: S.d.q.A.). sx und sy bezeichnen die Varianz von x bzw. y und sxy die Kovarianz zwischen x und y (siehe folgenden Abschnitt). Die Steigung m wird auch als Regressionskoeffizient bezeichnet.

14.1 Regressionsverfahren

437

14.1.2 Gu ¨ te der Anpassung bei der linearen Regression (Varianz, Kovarianz, Restvarianz und Korrelationskoeffizient) Nach der eigentlichen Ermittlung der Ausgleichsgeraden gilt es, die G¨ ute dieses Ergebnisses zu beurteilen. Konkret heißt dies, Vertrauensbereiche f¨ ur die Koeffizienten m (Geradensteigung) und b (Achsenabschnitt) anzugeben. Um diese berechnen zu k¨ onnen, ben¨ otigen wir quantitative Angaben f¨ ur Varianz, Kovarianz, Restvarianz und Korrelationskoeffizient [50]. Diese und weitere, im Zusammenhang dazu stehende Begriffe sollen zun¨achst einmal in mathematischer Form definiert werden. Definition: Wahrscheinlichkeitsdichte (Wahrscheinlichkeitsverteilung) Im folgenden bezeichnet p(x) die Wahrscheinlichkeitsdichte (Wahrscheinlichkeitsverteilung) f¨ ur eine Zufallsgr¨ oße x mit den Eigenschaften  +∞ p(x)dx = 1 (14.11) −∞

p(x) ≥ 0 .

(14.12)

Die Wahrscheinlichkeit P(a), daß ein Funktionswert x kleiner oder h¨ochstens gleich a ist, ergibt sich aus dem Integral p(x)  a P (a) = p(x)dx. (14.13) −∞

P {a < x < b} entspricht der Wahrscheinlichkeit, mit der der Funktionswert x zwischen den Gr¨ oßen a und b liegt  b P {a < x < b} = p(x)dx. (14.14) a

Definition: Gemeinsame Wahrscheinlichkeitsdichte Die gemeinsame Wahrscheinlichkeitsdichte pxy (x, y) zweier Zufallsvariablen pxy (x, y) ist gegeben als ∂ 2 Pxy (x, y) ∂x∂y

pxy (x, y) = bzw.

 Pxy (a, b) =

b

−∞



(14.15)

a

−∞

pxy (x, y)dxdy ,

(14.16)

wobei die Wahrscheinlichkeitsverteilung Pxy (a, b) = P {a ≤ x ∧ b ≤ y}

(14.17)

zweier Zufallsvariablen x, y die Wahrscheinlichkeit P angibt, mit der der Funktionswert von x kleiner oder h¨ ochstens gleich a ist und der Funktionswert von y kleiner oder h¨ ochstens gleich b ist.

438

14 Regression, lineare Korrelation und Hypothesen-Testverfahren

Definition: Erwartungswert Der Erwartungswert eines Zufallssignales x (auch als Zufallsvariable, Zufallsgr¨ oße bzw. Zufallsprozeß bezeichnet) entspricht dem Integral u ¨ber dem Produkt aus der Zufallsgr¨ oße x und seiner Wahrscheinlichkeitsdichte p(x) 

+∞

E{x} =

x p(x)dx .

(14.18)

−∞

Der Erwartungswert ist ein linearer Operator. Definition: Erwartungswert 2. Ordnung Der Erwartungswert-Operator l¨ aßt sich auch auf das Produkt mehrerer Zufallssignale bzw. deren Potenzen anwenden [67]. Das sog. Gemeinsame Moment zweier Zufallssignale ist definiert als  +∞  +∞ μxy,kn = E{xk y n } = xk y n pxy (x, y)dxdy . (14.19) −∞

−∞

F¨ ur den Spezialfall k = n = 1 folgt  +∞  μxy = E{xy} = −∞

+∞

−∞

xypxy (x, y)dxdy .

(14.20)

Definition: Varianz Die Varianz entspricht dem Quadrat der (empirischen) Standardabweichung (s. auch Kap. 5.2) Var(x) = s2x = E{(x − μx )2 } . (14.21) Dabei ist μx der Mittelwert der Zufallsvariablen x (siehe Abb. 14.2) und E bezeichnet den Erwartungswert. Die Varianz l¨ aßt sich auch mit Hilfe der Wahrscheinlichtsdichte px ausdr¨ ucken  +∞

Var(x) = −∞

(x − μx ) px (x) dx .

(14.22)

Die Varianz s2x einer diskreten Zufallsvariablen-Stichprobe3 x1 , x2 , . . . , xn ist demnach folgendermaßen definiert 1  1  = (xi − x)2 = (xi − μx )2 . n − 1 i=1 n − 1 i=1 n

s2x 3

n

(14.23)

Um kompatibel zu der u ¨brigen Meßtechnik-Literatur zu bleiben, wird im folgenden nicht mehr zwischen Varianz (Gesamtheit des Loses (N → ∞)) und Schwankung (=empirische Standardabweichung (N < ∞)) unterschieden.

14.1 Regressionsverfahren

Dies l¨ aßt sich auch ausdr¨ ucken als 1  2 1 = xi − n − 1 i=1 n(n − 1) n

s2x bzw.

1  2 n 1 μx = x − s2x = n − 1 i=1 i n−1 n−1 n

" n 

439

#2 xi

(14.24)

i=1

" n 

# x2i − n μx

.

(14.25)

i=1

Aus der Varianz l¨aßt sich leicht die ebenfalls oft verwendete Summe der quadratischen Abweichung Qx (S.d.q.A.) (s. auch Abb. 14.2) errechnen Qx = (n − 1) s2x .

(14.26)

Definition: Kovarianz Im Zuge der Regressionsanalyse ist die Frage zu kl¨aren, inwieweit zwei Zufallsvariable x und y voneinander abh¨ angig sind. Dies wird durch die sog. Kovarianz festgelegt Cov(x, y) = sxy = E{(x − μx )(y − μy )} = E{x, y} − μx μy .

(14.27)

Dabei sind μx und μy die Mittelwerte der Zufallsvariablen x und y (siehe Abb. 14.2) und E entspricht dem Erwartungswert. Die Kovarianz, die auch als erstes gemeinsames Moment bezeichnet wird, l¨ aßt sich auch mit Hilfe der gemeinsamen Wahrscheinlichtsdichte pxy ausdr¨ ucken  +∞  +∞ (x − μx )(μ − μy )pxy (x, y)dxdy . (14.28) Cov(x, y) = −∞

−∞

Sie beschreibt die statistische Abh¨ angigkeit zweier Zufallssignale. Die beiden Zufallsvariablen sind statistisch unabh¨ angig, wenn ihre Kovarianz Null ist Cov(x, y) = 0. In diesem Fall berechnet sich die Wahrscheinlichkeitsdichte p(x, y) f¨ ur das gleichzeitige Eintreten der Ereignisse x und y aus dem Produkt der Einzelwahrscheinlichkeiten p(x, y) = p(x) p(y). Außerdem gilt E{x, y} = E{x} E{y}. Die Kovarianz zweier diskreter Zufallsvariablenfolgen x und y ergibt sich aus 1  (xi − μx ) (yi − μy ) n − 1 i=1 n

sxy =

1 = n−1 sxy =

" n 

Qxy . n−1

# xi yi − n μx μy

(14.29)

i=1

(14.30)

440

14 Regression, lineare Korrelation und Hypothesen-Testverfahren

Definition: Restvarianz Die Restvarianz sr der Ausgleichsgeraden (Kap. 14.1.1) berechnet sich wie folgt " # Q2xy Qy Qy − m Qxy 2 = 1− , (14.31) sr = n−2 n−2 Qx Qy wobei m der Steigung der Ausgleichsgeraden und n der Anzahl der behandelten Meßpunkte enspricht. Sie wird ben¨ otigt, um die Vertrauensbereiche von Geradensteigung m und Achsenabschnitt b quantifizieren zu k¨onnen. Definition: Korrelationskoeffizient Der Korrelationskoeffizient r ist ein die Gu ¨ te der Anpassung charakterisierender Parameter (0 < r < 1). Je n¨ aher der Korrelationskoeffizient r bei 1 liegt, desto besser ist die Anpassung. Der Korrelationskoeffizient r l¨ aßt sich aus den beiden Einzelvarianzen sx und sy sowie der Kovarianz sxy (siehe Abb. 14.2 bzw. Gln.(14.25) und (14.29)) bestimmen sxy r= . (14.32) sx sy Mit den Wurzeln der Einzelvarianzen sx und sy und der Kovarianz sxy ergibt sich schließlich der Korrelationskoeffizient, der die G¨ ute der Anpassung der Ausgleichsgeraden beschreibt 

n 2 n   1 2 xi − n xi sxy Qxy i=1 rxy = = = m i=1 (14.33)

2 . n n sx sy Qx Qy  ! 1 2 yi − n yi i=1

i=1

Angabe der Vertrauensbereiche fu ¨ r die Parameter der Ausgleichsgeraden Mit obigen Definitionsgleichungen kann schließlich die Angabe der Vertrauensbereiche (Konfidenzintervalle) f¨ ur die Parameter m und b der Ausgleichsgeraden bzw. deren Ordinatenwerte erfolgen 

n s2  2 m ± t(n − 2, P )! r x n Qx i=1 i

(14.34)

 b ± t(n − 2, P )

s2r Qx

(14.35)

14.1 Regressionsverfahren

 y ± t(n − 2, P )

(x − x)2 n(s2x − m2 s2x ) + s2x . n (n − 2) s2x

441

(14.36)

Der Vertrauensfaktor t ergibt sich nach Vorgabe der gew¨ unschten statistischen Sicherheit P [%] aus der Student-Verteilung (s. Tab. 5.2) f¨ ur die Ereignisanzahl (n − 2). Die Anzahl der betrachteten Meßpunkte betr¨agt n. Tip: Diese Berechnungen k¨ onnen mit dem Programm berechne_regressionsgerade.vi auf der CDROM nachvollzogen werden. Es k¨ onnen simulierte Messwerte eingelesen, die statistischen Daten berechnet und Regressionsgeraden ermittelt werden.

14.1.3 Ausgleichspolynome Die Erweiterung der linearen Regression (Kap. 14.1.1) f¨ uhrt zur polynomialen Regression, bei der die Anpaßkure y˜ durch ein Polynom p-ten Grades beschrieben wird y˜ = a0 + a1 x + a2 x2 + . . . ap xp . (14.37) Die Vorgehensweise soll zun¨ achst anhand des folgenden Beispiels verdeutlicht werden. Die Anpaßkurve wird hier in Form eines Polynoms dritten Grades beschrieben y˜(x) = a0 + a1 x + a2 x2 + a3 x3 . (14.38) Das bereits oben angewandte Gaußsche Prinzip der kleinsten Quadrate (Gaußsches Minimalprinzip) soll auch hier Anwendung finden Δ=

n 

Δ2i =

i=1

n  ! [˜ y (xi ) − yi ]2 = min. .

(14.39)

i=1

Dabei werden wiederum n Meßwertepaare {xi , yi } vorausgesetzt. Das Nullsetzen der partiellen Ableitungen nach den Koeffizienten ai (i = 1, 2, 3) ∂Δ ∂Δ ∂Δ ∂Δ = = = =0 ∂a0 ∂a1 ∂a2 ∂a3 f¨ uhrt zu folgendem Gleichungssystem ⎛ ⎞ n n n    n xi x2i x3i ⎜ ⎟ i=1 i=1 i=1 ⎜ n ⎟ n n n    ⎜ ⎟ 2 3 4 ⎜ ⎟ x x x x ⎜ i=1 i i=1 i i=1 i i=1 i ⎟ ⎜ ⎟ n n n n ⎜ ⎟    2 3 4 5⎟ ⎜ xi xi xi xi ⎟ ⎜ ⎜ i=1 i=1 i=1 i=1 ⎟ ⎝ ⎠ n n n n    x3i x4i x5i x6i i=1

i=1

i=1

i=1

(14.40)

⎛  ⎞ n yi ⎜ i=1 ⎟ a0 ⎜ n ⎟ ⎜ ⎟ ⎜ ⎟ ⎜a ⎟ ⎜ ⎟ x y ⎜ 1 ⎟ ⎜ i=1 i i ⎟ ⎜ ⎟=⎜ ⎟. n ⎜ ⎟ ⎜ ⎟ 2 ⎟ ⎜ a2 ⎟ ⎜ xi y i ⎟ ⎝ ⎠ ⎜ ⎜ i=1 ⎟ ⎝ ⎠ n a3 3 xi y i ⎛



i=1

(14.41)

442

14 Regression, lineare Korrelation und Hypothesen-Testverfahren

Die L¨ osung dieses Gleichungssystems ergibt schließlich die gesuchten Koeffizienten ai (i = 0, 1, 2, 3) des Polynoms. 14.1.4 Mehrfache lineare Regression Die mehrfache lineare Regression (auch als multiple lineare Regression bezeichnet) ist eine Erweiterung der einfachen linearen Regression. Dabei h¨angt ein Meßergebnis y linear von nunmehr mehreren Variablen x1 , x2 , . . . xp (man spricht in diesem Zusammenhang auch von Covariablen) ab y = a 0 + a 1 x1 + a 2 x2 + . . . + a p xp + E ,

(14.42)

wobei E eine St¨ orgr¨ oße repr¨ asentiert, also eine stochastische Variable (Zufallsvariable). Damit ist das Ergebnis ebenfalls eine Zufallsvariable. Die Aufgabe der mehrfachen linearen Regression ist es nun, die abh¨angige Variable y als Funktion mehrerer (in Bezug auf die Laufvariable i) unabh¨angiger Variablen, die in Form eines Variablenvektors [xip ] = (xi1 , xi2 , . . . , xip ) zusammengefaßt werden, mit Hilfe eines Sch¨ atzwertes yˆ vorherzusagen yˆ = b0 + b1 x1 + b2 x2 + . . . + bp xp .

(14.43)

Dabei bilden die bj (j = 1, 2, . . . , p) die Elemente des Vektors der gesch¨atzten Regressionskoeffizienten. Wir wollen davon ausgehen, daß f¨ ur jeden Vektor [xip ](i = 1, 2, . . . , n) jeweils n Meßwerte yi (i = 1, 2, . . . , n) vorliegen. Somit ergibt sich f¨ ur jede Beobachtung (Messung) i(i = 1, 2, . . . , n) eine Gleichung der Form yi = a0 + a1 xi1 + a2 xi2 + . . . + ap xip + Ei .

(14.44)

Das daraus resultierende Gleichungssystem l¨ aßt sich mit Hilfe der folgenden [n × (p + 1)]-Matrix [X] ⎛

1 x11 x12 . . . x1j . . . x1p

⎜ ⎜1 x x ... 21 22 ⎜ ⎜ ⎜ ⎜ .. ⎜. ⎜ [X] = ⎜ ⎜1 x x ... i1 i2 ⎜ ⎜ ⎜. ⎜. ⎜. ⎝



⎟ x2j . . . x2p ⎟ ⎟ ⎟ ⎟ .. ⎟ .. . ⎟ . ⎟ ⎟ xij . . . xip ⎟ ⎟ ⎟ .. ⎟ .. ⎟ . ⎟ . ⎠

1 xn1 xn2 . . . xnj . . . xnp

(14.45)

14.1 Regressionsverfahren

sowie der n-dimensionalen Vektoren ⎛ ⎞ y1 ⎜ ⎟ ⎜ ⎟ ⎜ y2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ [y] = ⎜ ... ⎟ , ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ yi ⎟ ⎝ ⎠ yn und dem [p + 1]-dimensionalen Vektor ⎛



E1



⎜ ⎟ ⎜ ⎟ ⎜ E2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ .. ⎟ E=⎜ . ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ Ei ⎟ ⎝ ⎠ En

a0

443

(14.46)



⎜ ⎟ ⎜a ⎟ ⎜ 1⎟ ⎜ ⎟ ⎜ ⎟ ⎜ a2 ⎟ ⎜ ⎟ ⎟ [a] = ⎜ ⎜ . ⎟ ⎜ .. ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ aj ⎟ ⎝ ⎠ ap

(14.47)

wie folgt darstellen [y] = [X] [a] + [E] .

(14.48)

Die einfache lineare Regression ergibt sich aus obigen Gleichungen f¨ ur p = 1. Der Fall p ≥ 2 repr¨ asentiert die mehrfache lineare Regression. Wie bei der linearen Regression wird wiederum die Summe der quadratischen Abweichungen minimiert. Nach dem sog. Gauß-Markov-Theorem erh¨ alt man schließlich den Vektor der gesch¨ atzten Regressionskoeffizienten [b] als [96]4 ⎛ ⎞ b0 ⎜ ⎟ ⎜b ⎟ ⎜ 1⎟ ⎜ ⎟ ⎜ ⎟ ⎜ .. ⎟ ⎜ . ⎟  −1 ⎜ ⎟ [b] = ⎜ ⎟ = [X]T [X] [X]T [y] . (14.49) ⎜b ⎟ ⎜ j⎟ ⎜ ⎟ ⎜ . ⎟ ⎜ . ⎟ ⎜ . ⎟ ⎝ ⎠ bp 4

Um die hier verwendete Schreibweise mit der Darstellung in [96] vergleichbar zu machen, ist f¨ ur die Matrix [X] deren Transponierte [X]T zu verwenden (siehe S. 62 in [96]).

444

14 Regression, lineare Korrelation und Hypothesen-Testverfahren

Dabei bezeichnet [X]T die Transponierte der Matrix [X]. Dieser Sch¨atzer ist der sog. beste lineare unverzerrte Sch¨ atzer (Best Linear Unbiased Estimator = BLUE). Mit Hilfe dieses Sch¨ atzers (Minimum-Quadrat-Sch¨atzer) ergibt sich folgendes Gleichungssystem [y] = [X] [b] + [e] = [ˆ y ] + [e] ,

(14.50)

wobei [ˆ y ] die Sch¨ atzwerte von [y] enth¨ alt und [e] den Vektor der Residuen repr¨ asentiert. Der Vektor der Sch¨ atzwerte berechnet sich also aus [ˆ y ] = [X] [b] = [X]([X]T [X])−1 [X]T [y] = [H][y] ,

(14.51)

wobei die [n×n]-Matrix [H] als sog. Hat-Matrix (Hut-Matrix) bezeichnet wird. Die Residuen ergeben sich demnach wie folgt [e] = [y] − [ˆ y ] = [y] − [H] [y] .

(14.52)

Im allgemeinen interessiert man sich f¨ ur die sog. Prognose yˆ0 von [y] f¨ ur ein gegebenes Wertetupel [x0 ] (= Meßstelle [x01 , x02 , . . . , x0p ]). Sie berechnet sich zu yˆ0 = b0 + b1 x01 + b2 x02 + . . . + bp x0p = [x0 ]T [b] . (14.53)

14.2 Lineare Korrelation Die lineare Korrelation besch¨ aftigt sich mit der Frage, inwieweit Wertepaare {xi , yi } linear abh¨ angig sind. Im Gegensatz zur linearen Regression wird hier y nicht als abh¨angige und x nicht als unabh¨angige Variable bezeichnet. Da nunmehr keine Unterscheidung nach abh¨angiger und unabh¨angiger Variable erfolgt, ist die Definition von zwei Ausgleichsgeraden sinnvoll, nachdem die Wertepaare {xi , yi } in ein x-y-Diagramm eingetragen wurden. Zur Festlegung der Geraden wird wiederum das bereits bei der linearen Regression eingesetzte Verfahren der Fehlerquadratminimierung (Gaußsches Minimalprinzip) eingesetzt (s. Kap. 14.1.1). Die beiden Ausgleichsgeraden (Abb. 14.3) lassen sich wie folgt definieren y˜ = m1 x + b1

(14.54)

x ˜ = m2 y + b2 .

(14.55)

bzw. Daraus resultieren zwei M¨ oglichkeiten, die Fehlerquadratminimierung durchzuf¨ uhren ! (˜ y − yi )2 = min. (14.56) bzw. ! (˜ x − xi )2 = min. .

(14.57)

14.2 Lineare Korrelation

445

y

x Abb. 14.3: Meßwertepaare {xi , yi }, die durch zwei Ausgleichsgeraden gem¨ aß Gl. (14.54) bzw. Gl. (14.55) approximiert werden.

Im allgemeinen f¨ uhrt dieser Prozeß zu unterschiedlichen Geraden. F¨ ur den Fall, daß vollkommene lineare Unabh¨angigkeit zwischen den Werten der Variablen x und y besteht, streben die beiden Steigungen m1 und m2 gegen Null (Abb. 14.4). F¨ ur den Fall, daß die beiden Geraden zusammenfallen (Abb. 14.5), besteht ein direkter funktionaler Zusammenhang. Je nach Grad der linearen Abh¨ angigkeit variieren die Geradensteigungen also zwischen den Werten m1 = m2 = 0 (lineare Unabh¨angigkeit) und einem oberen Wert m1 = 1/m2 (vollst¨andige lineare Abh¨angigkeit). Da dieser obere y m 2= 0

m 1= 0

x Abb. 14.4: Fall der vollst¨ andigen linearen Unabh¨ angigkeit (m1 = m2 = 0)

446

14 Regression, lineare Korrelation und Hypothesen-Testverfahren

y

1 m 1= m

2

x Abb. 14.5: Fall des funktionalen Zusammenhangs: Die beiden Ausgleichsgeraden fallen zusammen.

Wert aber nicht von vorneherein feststeht, l¨ aßt sich der Grad der linearen Abh¨ angigkeit erst nach einer Normierung beurteilen. Dies f¨ uhrt zu einer normierten Steigung r, die dem Korrelationskoeffzient entspricht (siehe auch Gl. (14.32) und Gl. (14.33)). Im Gegensatz zur Kovarianz ist der Korrelationskoeffizient eine reine Maßzahl ohne Einheit. Der Korrelationskoeffizient nimmt Werte zwischen −1 und +1 an (−1 ≤ r ≤ +1). Ein Korrelationskoeffizient r = 0 bedeutet, daß keine lineare Abh¨angigkeit besteht. Bei vollkommener linearer Abh¨ angigkeit nimmt r den Wert +1 bzw. −1 an. Das Vorzeichen beschreibt dabei die Steigungsrichtung der gemeinsamen Geraden (Abb. 14.5). Der Korrelationskoeffizient l¨ aßt sich wie folgt angeben n 

Qxy r= = % Qx Qy n !  y2 − i=1

i

xi y i −

i=1



1 n

n 

i=1

1 n

n  i=1

2 ' % yi

xi

n 

i=1

n 

yi

i=1

x2i −

1 n

n 

2 '

. (14.58)

xi

i=1

Bei der Beurteilung der linearen Abh¨ angigkeit anhand des Korrelationskoeffizienten muß die Stichprobenanzahl mit ins Kalk¨ ul gezogen werden. So liefern beispielsweise zwei Wertepaare immer den Wert r = 1. Aus diesem Grund ist zu dieser Beurteilung noch der im folgenden behandelte Vertrauensbereich von r hinzuziehen.

14.3 Testverfahren (Hypothesen-Testverfahren)

447

Vetrauensbereich des Korrelationskoeffizienten Da der nach Gl. (14.58) ermittelte Korrelationskoeffizient nur ein Sch¨atzwert des Korrelationskoeffizienten ρ der Grundgesamtheit (setzt unendlich viele Messungen voraus) darstellt, sollte man den Vertrauensbereich f¨ ur r ermitteln, um eine Aussage der m¨ oglichen Abweichungen von ρ als Funktion einer gew¨ ahlten statistischen Sicherheit zu erhalten. Um den Vertrauensbereich eines anhand einer Stichprobe mit n Einzelmessungen ermittelten Korrelationskoeffizienten anzugeben, bedient man sich des nachfolgenden Schemas in Abb. 14.6. Die Grundlagen hierzu findet der interessierte Leser beispielsweise in [69].

Korrelation und Kausalit¨ at Ein hoher Korrelationskoeffizient ist auf eine starke lineare Abh¨angigkeit zur¨ uckzuf¨ uhren. Daraus darf aber nicht unmittelbar auf eine Kausalit¨at im Sinne eines Ursache-Wirkungs-Prinzips geschlossen werden. Es gibt unz¨ ahlige Beispiele f¨ ur Scheinkorrelationen oder sogar Unsinnrelationen, die durchaus nicht auf eine gemeinsame Ursache zur¨ uckzuf¨ uhren sind. Ein kausaler Zusammenhang muß zun¨ achst einmal von der Sache her begr¨ undet sein. Anhand einer dazu durchgef¨ uhrten Korrelation l¨aßt sich lediglich pr¨ ufen, ob eine Hypothese zu einem bestimmten Ursache-Wirkungs-Prinzip h¨alt oder nicht. Es darf aber keinesfalls aus einem hohen Korrelationsgrad unmittelbar auf einen entsprechenden Ursache-Wirkungs-Zusammenhang geschlossen werden. Als Beispiel k¨ onnte angef¨ uhrt werden, daß die steigende Lebenserwartung und die steigende Preisentwicklung sicherlich keinen unmittelbaren kausalen Zusammenhang aufweisen, aber dennoch zwischen beiden ein von Null verschiedener Korrelationskoeffizient besteht.

14.3 Testverfahren (Hypothesen-Testverfahren) 14.3.1 Testen von Hypothesen, Entscheidungen Die Wahrscheinlichkeitsverteilung, welche die Grundgesamtheit beschreibt, wird als wahre Wahrscheinlichkeitsverteilung bezeichnet. Diese wahren Verteilungen sind aber in der praktischen Meßtechnik nicht bekannt. Mit Hilfe von sog. Tests muß daher des ¨ ofteren entschieden werden, ob bestimmte Vermutungen u ¨ber die Wahrscheinlichkeitsverteilungen bzw. deren Parameter zutreffen oder nicht. Zur Durchf¨ uhrung eines Tests stellt man eine Arbeitshypothese auf. Diese wird als Nullhypothese H0 bezeichnet. Die dieser Nullhypothese widersprechende Vermutung wird Alternativhypothese H1 genannt.

http://www.springer.com/978-3-540-73610-3