Regression und Korrelation

Praktische Annäherung (Beispiel1) Regression und Korrelation nm wieviele Eiweissmoleküle sind in dem Blutplasma? (Stück, mol, g, …) wie gross ist d...
Author: Klara Bruhn
2 downloads 1 Views 568KB Size
Praktische Annäherung (Beispiel1)

Regression und Korrelation

nm

wieviele Eiweissmoleküle sind in dem Blutplasma? (Stück, mol, g, …) wie gross ist die Eiweisskonzentration des Blutplasmas? (St/L, mol/L, g/L)

1 St. HSA Mölekül

bei Patienten in Nephrose (schwere Nierenkrankheit) nimmt der Wert stark ab

direkte Methode: Bestimmung der Anzahl der Moleküle in einem Volumen(?)

regression: Zurückführung, Rückschreiten

correlation: Wechselbeziehung

indirekte Methode : mit Hilfe einer (einfach) messbaren physikalischen Grösse, die steht in streng monoton wachsendem Zusammenhang zu der unbekannten Grösse (die solche einfachste Funktion ist ...)

KAD 2013.11.13

2

(Beispiel2)

Bemerkung: das Licht breitet sich in Blutplasma langsamer, wenn die Plasmaeiweisskonzentration grösser ist, d.h. das Licht hat grössere Brechzahl (deterministischer Zusammenhang, Messfehler)

Daten aus einer Studentengruppe E2 (Sept. 1994) (zusammengehörige Wertepaare)

Brechzahl des Blutplasmas

Gewicht (kg)

75

cm

kg

162 55 163 53 164 55 168 57 169 55

70

170 66

65

171 59 173 58

60

175 57 178 65

55

181 69

50 160

Plasmaeiweisskonzentration (g/L) 3

183 63

170

180

190

184 62

Körperhöhe (cm)

190 72

was für eine Tendenz kann man bemerken? 4

Regressionsannäherung

Die Korrelationsrechnung beschäftigt sich mit dem symmetrischen Zusammenhang zweier Zufallsgrössen

y 75

Sucht man einen Funktionszusammenhang zwischen einer (oder mehreren) unabhängigen Variable (x) und einer abhängigen Variable (y) Voraussetzungen: x und y numerische und stetige Merkmale, y Zufallsgrösse (ihre Grösse wird nicht nur von der 70 65

positive Korrelation: je mehr, desto mehr negative Korrelation:je mehr, desto weniger

60 55

50 160

y

75

170

180

190

x

unabhängigen Variable, sondern durch den Zufall beeinflusst)

70 65

Regressionsmodell fixiert den Typ der Funktion: lineare F. y = (ax + b) + h (a: Steigung, b: Achsenabschnitt) polinomiale F. y = a + b1x + b2x2 + ... + bnxn + h exponentiale F. y = abx h Potenzfunktion y = axb h und wie wirkt der Zufall auf die abhängige Variable

60 55

x

50 160

170

180

190

additiver Fehler (+ h) oder multiplikativer Fehler (.h)

hier: positive Korrelation

5

6

Das einfachste Regressionsmodell: lineare Regression lineare Funktion: hi = yi - (axi + b) y

75

(Unter welchen Bedingungen kann man eine lineare Regression durchführen?)

y = (ax + b) + h

xi

wenn der Punkt (xi, yi) oberhalb der Gerade liegt wie sieht die Formel aus, wenn der Punkt unterhalb der Gerade liegt?

70 65 60

Bedingungen zur Anwendung

yi

yi

1

162 55

2

163 53

3

164 55

4

168 57

5

169 55

6

170 66

7

171 59

8

173 58

9

175 57

10

178 65

11

181 69

x

12

183 63

13

184 62

Beste Gerade: Summe der Fehlerquadrate ist minimal (Methode der kleinsten Quadraten)

14

190 72

55 50 160

axi + b 170

180

190

7

1. Es gibt eine lineare Korrelation zwischen x und y. 2. Die Messpunkte in einer Stichprobe sind unabhängige Messpunkte. 3. Für alle fixierte x-Werte ist die Verteilung von y normal. 4. Die Verteilung von y für alle xWerte hat dieselbe Varianz. 5. Man kann die x-Werte ohne Fehler messen. 8 http://www.fao.org/docrep/w5449e/w5449e04.htm

Lineare Regression

die (quadratische) Fehlerfunktion: n

Q(...)   y i  ax i  b 

n

2

unabhängige Variablen?

Q(a, b )   y i  ax i  b 

2

Fehlerfunktion

i 1

i 1

a und b

Funktionszusammenhang für a und b? quadratische Zusammnehänge Wie sehen diese Funktionen aus? Parabeln mit unterschiedlicher Öffnung Besitzen diese Funktionen Maxima oder Minima? die Graphen sind oben geöffnete Parabeln mit Minima 9

10 Pr.Buch Abb. 14

Suche nach der Geraden (y = ax + b) mit bester Näherung der Messpunkte

a: Steigung b: Achsenabschnitt

Lineare Regression n

Q(a, b)   y i  ax i  b   min . 2

i 1

Minimalisierung der Fehlerfunktion

Möglichkeiten: 1. quadratische Ergänzung z.B. y = x2-6x+14 = (x-3)2+5, Minimum: x = 3

2. Differentialrechnung Differentialquotient: Steigung der Tangente an dem Minimum/Maximum der Kurve ist die Steigung der Tangente gleich null 2 Gleichungen, 2 Unbekannten 11 Pr.Buch Abb. 13

12

(y = ax + b)

„Die beste” Steigung:

 x



n



a 

Qxy



Qxx

i 1

 x yi  y

i

 x n

i

x

i 1

 oder



2



a 

Beispiel: Refraktometrie

2 s xy

s x2

„Der beste” Achsenabschnitt: n





b  y a x  2 wo s xy 

Qxy n 1

:

 yi i 1

n

n

a

x

 i 1

i

n

Kovarianz 13

Wie gut passen die Messpunkte an die Regressionsgerade?

14

weitere Bemerkungen:

Korrelationsrechnung beschreibt die lineare Beziehung zwischen zwei oder mehr statistischen Variablen

1 r  1

es beschreibt die Stärke der Korrelation es gibt starke und schwache Korrelation Korrelationskoeffizient (Pearson)

r

Qxy Qxx  Qyy



Korrelationskoeffizient (Pearson)

2 s xy

s x sy

Qxy

positive Steigung: r ist positive Zahl

Qxx

negative Steigung: r ist negative Zahl

1 r  1

Bestimmtheitsmass (coefficient of determination)

Die Korrelation beschreibt nicht unbedingt eine UrsacheWirkungs-Beziehung in die eine oder andere Richtung.

der Zähler ist gleich dem Zähler der Steigung der Regressionsgerade (der Nenner ist im beiden Fall positiv)

a 

0  r2 1

15

16

Korreliert heisst nicht notwendigerweise kausal verknüpft(!)

Anzahl der neuen Tumoren in USA

1980

Beispiele:

1975

1970

Kiwi-Konsum in USA 17

18 Pr.Buch Abb. 15

Punktdiagrammen

19 http://www.cshgreenwich.org/faculty/byrne/chapter%203.pdf

http://en.wikipedia.org/wiki/Image:Correlation_examples.png

20

Extrembeispiel: r=0.816, y = 3 + 0.5x

t-Test zur Korrelationsanalyse

(Anscombe's quartet)

m (kg)

Gibt es eine Beziehung zw. der Körpergrösse und Gewicht?

t n- 2  r 

n2 1 r 2

h (cm)

21

t  6.030  t12, krit(0,05)  2.179 t  6.030  t12, krit(0,01)  3.055

H0 ist falsch (p

Suggest Documents