Lernziele
Quantitative Methoden in der klinischen Epidemiologie
• Besteht ein funktioneller Zusammenhang zwischen zwei Messungen an einem Patienten? • Korrelation als Maßzahl für die Stärke eines linearen Zusammenhanges • Beschreiben des linearen Zusammenhanges • Korrelationsanalysen wenn eine Folge von Meßwertpaaren pro Patient erhoben wird. • Nicht-parametrische Korrelation: Monotonie des Zusammenhanges. • Probleme: Scheinkorrelation und Korrelation bei aggregierten Daten
Korrelation und lineare Regression
IBE, Korr. (L6-2)
1
IBE, Korr. (L6-2)
AMD: Geographische Atrophie und Visus
2
AMD: Geographische Atrophie und Visus
Geographische Atrophie 25 20 0.5
10
15
Atrophie [mm²]
1.0 Visus
Wikipedia
1.5
Die Sehschärfe (Visus) ist das Ausmaß der Fähigkeit eines Lebewesens, mit seinem Sehorgan Muster und Konturen in der Außenwelt als solche wahrzunehmen.
5
FAM-Studie:
0
0.0
Kohortenstudie zum natürlichen Verlauf der AMD Holz et al. (2007) Am J Ophthalmol. 143:463-72
0
5
10
15
20
25
0.0
Atrophie [mm²]
158 Patienten
0.5
1.0
1.5
Visus
Hängen Visuswert und GA Fläche zusammen? Kann man über den Visus-Wert Informationen über das Ausmaß der GA ableiten eines Patienten? IBE, Korr. (L6-2)
3
IBE, Korr. (L6-2)
4
Frage nach dem Zusammenhang
Frage nach dem Zusammenhang
80
100
Im Beispiel der dargestellten Parabel (y = x²) liegt wohl ein klarer funktioneller Zusammenhang vor, der jedoch nicht „gleichsinnig“ ist.
20
40
y
60
Die Veränderung über den ersten 10 Datenpunkten (-10 bis -1) wird nicht in den nächsten 10 Datenpunkten (1 bis 10) weitergeführt, es tritt sogar ein „entgegengesetztes“ Verhalten auf. Dieser funktionelle Zusammenhang dürfte keine Korrelation aufweisen.
0
• Die Betrachtung bezieht sich auf zwei stetige, intervallskalierte Variable. • Korrelation: höhere oder niedrigere Werte der einen Variablen sind mit höheren Werten der anderen Variablen verbunden. „Gleichsinniger“ Zusammenhang • Zwei Konzepte von Korrelation: Pearson Korrelationskoeffizient: Korrelation zwischen normalverteilten Größen, linearer Zusammenhang Spearman Korrelationskoeffizient: Nachweis von monotonen Zusammenhängen, Korrelation der Ränge • Ein klarer funktioneller Zusammenhang zwischen zwei Variablen bedeutet jedoch nicht, dass beide korreliert sind.
-10
-5
0
5
10
x
5
Pearson‘s Korrelationskoeffizient (II)
1 2 3 4 5 6 7 8 9
10 11 12 13 14 15 16 17 18
34.7 42.0 29.1 32.5 30.3 33.0 33.8 41.1 34.5
40 20
53 53 54 56 57 58 58 60 61
15
9.5 27.9 7.8 17.8 31.4 25.9 27.4 25.2 31.1
10
23 23 27 27 39 41 45 49 50
Fett [%]
Subj. Alter Fett[%]
Beispiel „Fettanteil“
30
Eine Studie von Mazess et al. (1984) untersucht den prozentualen Fettanteil (% Fett) im Körper von n=18 gesunden Erwachsenen im Alter von 23 bis 61 Jahren. Besteht ein Zusammenhang zwischen dem Alter und dem Fettgehalt im Körper? Subj. Alter Fett[%]
6
35
Pearson‘s Korrelationskoeffizient (I)
IBE, Korr. (L6-2)
25
IBE, Korr. (L6-2)
30
40
50
60
Alter [Jahre]
IBE, Korr. (L6-2)
7
IBE, Korr. (L6-2)
8
Pearson‘s Korrelationskoeffizient (III)
Pearson‘s Korrelationskoeffizient (IV) Interpretation der Formel:
Erwünschte Eigenschaften eines statistischen Maßes für einen linearen Zusammenhang : •
dimensionslos und skalenunabhängig: die Multiplikation der Variablenwerte mit einem konstanten Faktor oder deren Verschiebung um einen konstanten Wert haben keinen Einfluß auf das Maß.
•
Vorzeichen gibt die Richtung des Zusammenhanges an.
•
Abweichen von der Null gibt Stärke des Zusammenhanges an: = 0, falls kein linearer Zusammenhang = 1 (bzw. = -1), bei maximalem linearen Zusammenhang
•
∑ (xi − x ) ⋅ ( yi − y )
i=1 n
n
i=1
i=1
∑ (xi − x ) ⋅ ( yi − y )
r=
i=1 n
n
i=1
i=1
2 2 ∑ (xi − x ) ⋅ ∑ ( yi − y )
i=1
Straffheit bedeutet geringe Variabilität, damit wird der Nenner klein und der Bruch groß. n n 2 2 ∑ (xi − x ) ⋅ ∑ ( yi − y ) i=1
n
r=
n
∑ (xi − x ) ⋅ ( yi − y )
n
i=1
Werden die x- und/oder y-Werte um einen festen Betrag verschoben, so wird der Wert der Formel nicht beeinträchtigt. Die Subtraktion von dem Mittelwert einer Gruppe von deren Messwerten kompensiert diese Veränderung. Werden die Werte mit einem konstanten Faktor multipliziert, so verändert dies ebenfalls nicht den Zusammenhang, die Konstanten kürzen sich aus Zähler und Nenner.
Messung der Straffheit eines linearen Zusammenhanges
•
Gleichsinnigkeit von x- und y-Werten führt zu großen Werten in
2 2 ∑ (xi − x ) ⋅ ∑ ( yi − y )
Der Korrelationswert ändert sich nicht, wenn die Rolle von x und y vertauscht wird. IBE, Korr. (L6-2)
9
Pearson‘s Korrelationskoeffizient (V)
IBE, Korr. (L6-2)
Pearson‘s Korrelationskoeffizient (VI)
Beispiel „Fettanteil“:
Beispiel „GA - Visus“:
Nach Anwendung der Formel ergibt sich r = 0.792
Nach Anwendung der Formel ergibt sich r = 0.244
95% Konfidenzintervall: [0.516; 0.919] Formeln für diese Berechnung sind kompliziert, Angaben werden aber von den meisten Statistikprogrammen geliefert.
95% Konfidenzintervall: [0.10; 0.38] Test auf Korrelation: Nullhypothese: Es besteht kein linearer Zusammenhang p-Wert: 0.0011
Test auf Korrelation: Nullhypothese: Es besteht kein linearer Zusammenhang p-Wert: 8.93e-05
IBE, Korr. (L6-2)
10
11
IBE, Korr. (L6-2)
12
Spearman‘s Korrelationskoeffizient (I)
Spearman‘s Korrelationskoeffizient (II)
Bei Anwendung des Pearson‘schen Korrelationskoeffizienten auf die Rangwerte erhält man den
•
Spearman‘s Korrelationskoeffizient beschreibt einen beliebigen monotonen Zusammenhang (nicht notwendig linear)
Rangkorrelationskoeffizient nach Spearman:
•
Sein Wert wird weniger von Ausreißern beeinflusst.
•
benötigt nicht die Annahme eines normalverteilten Rauschens.
•
Misst die Straffheit eines monotonen Zusammenhanges.
n 6 rS = 1 − 3 ⋅ ∑ di2 n − n i=1
Dabei sind di die Differenzen der Rangwerte bezüglich X bzw. Y.
IBE, Korr. (L6-2)
13
IBE, Korr. (L6-2)
Spearman‘s Korrelationskoeffizient (III)
Interpretationsprobleme mit Korrelationen (I)
Beispiel „GA - Visus“:
•
Statistischer Zusammenhang ist kein kausaler Zusammenhang. Das gleichsinnige Verhalten beider Variablen kann durch eine verborgene dritte Variable gesteuert werden.
•
Pro Individuum darf nur ein Beobachtungspaar vorliegen. Oft wird aber auch die Frage nach der Korrelation zweier „Marker“ im Verlauf einer Erkrankung bei einem Patienten gefragt.
•
Selektionsprozesse können Korrelationsaussagen beeinflussen:
Nach Anwendung der Formel ergibt sich r = 0.244 Test auf Korrelation: Nullhypothese: Es besteht kein monotoner Zusammenhang p-Wert: 0.6654 e-5
Auswahl innerer Werte
IBE, Korr. (L6-2)
14
15
verringert die Korrelation
Auswahl extremer Werte
vergrößert die Korrelation IBE, Korr. (L6-2)
16
Interpretationsprobleme mit Korrelationen (II) •
Gefahr der Überinterpretation beim simultanen Untersuchen vieler Korrelationen. Manche signifikante Korrelation kann falsch positiv sein. (Adjustierung für multiples Testen). 10 stetige Variablen erlauben die Untersuchung von 45 Korrelationen.
•
Korrelation misst den Grad des Zusammenhanges, nicht den Grad der Übereinstimmung.
40
Verzerrte Korrelation bei gemischten Stichproben
20
Fett[%]
30
35
Korrelation aller: r = 0.792 Männer: r = 0.89 Frauen: r = 0.51
25
•
Interpretationsprobleme mit Korrelationen (III)
15
Gleiche Korrelation
10
Mann Frau
30
40
IBE, Korr. (L6-2)
50
60
Übereinstimmung und guter Zusammenhang
17
Alter[Jahre]
IBE, Korr. (L6-2)
Beschreiben eines linearen Zusammenhanges
40
Vorhersage einer Zielgröße Y bei gegebener Einflußgröße X durch eine lineare Gleichung:
35
y = a + b•x
25
30
Der Achsenabschnitt a und die Steigung b werden so bestimmt, daß man die Gerade enthält, die den geringsten quadratischen Abstand zu den beobachteten (x,y) Punkten hat.
20
Mit dieser Strategie ergibt sich
15
Fett [%]
18
Lineare Regression (I)
b = r • sy / sx
mit r – Korrelation zwischen x und y, sx – Standardabweichung der x-Werte sy - Standardabweichung der y-Werte
a = y - b• x
mit y Mittelwert der y-Werte, x Mittelwert der x-Werte
10
Fett [%]
Keine Übereinstimmung aber guter Zusammenhang
30
40
50
60
Alter [Jahre]
Alter [Jahre]
IBE, Korr. (L6-2)
19
IBE, Korr. (L6-2)
y x
20
Lineare Regression (II)
Abweichung vom Mittelwert
Beispiel „Fettanteil“:
yi – y = (yi – y*i) + (y*i – y)
r=
0.7539
Korrelation zwischen x und y
y: Mittelwert aller y-Messungen
sx =
13.217
x – Alter in Jahren
Standardabweichung
y*i = a + b•xi: Geradenwert für Beobachtung i
sy =
9.144
y – Fettgehalt [%]
Standardabweichung
yi: y-Wert der Beobachtung i
b=
0.5215
Steigung der Regressionsgeraden
x=
46.33333
x – Alter in Jahren
Mittelwert
y=
28.61111
y – Fettgehalt [%]
Mittelwert
a =
3.2209
Achsenabschnitt der Regressionsgerade
n
n
i=1
i=1
i=1
SStotal = SSResiduen
Regressionsgerade: y = 3.2209 + 0.5480 • x
Das Quadrat der Korrelation wird auch Bestimmtheitsmaß genannt.
21
IBE, Korr. (L6-2)
Residualanalyse
+ 0
2
4
6
+ +
+ + ++ + + ++ + ++
+ ++
++
+
+
+ + + + ++ + + ++ + + + + + + + + + + ++ + + + + + + + ++ + + + + + + + ++ + + + + + + ++ + + ++ + ++ + + + + + + + ++ + + + + + ++ + + + ++ ++ + ++ + + + + + + ++ ++
+ +
1
+ + + + + + ++ + + + + + + ++ ++ ++ + + + + + + ++ + + + + + + + ++ + + + + + + + + ++ +++ ++ + + +
2
+
y
+
0
+ ++
+ + + +
+
+
+ +
-1
+
+
-2
1 0
y
+++ + +
-2
Falls die Residuen normalverteilt sind, so lassen sich Aussagen über die Regression auch statistisch testen. Es lassen sich auch Konfidenzintervalle berechnen: 95% Konfidenzintervall für die Geradensteigung. Betrachte Residuen mit dem QQ-Plot
+
+
-3
2
+ +
+
-1
Residuen repräsentieren Rauschen, sie sollten den Mittelwert 0 haben und keine Struktur aufweisen. Ideal: ein um die Null liegendes Band.
+
Kruemmung 3
Ideale Situation +
8
10
+ 0
x
2
4
6
8
10
x
8
zunehmende Variabilitaet + 6 -2
0
y
2
4
+
-4
23
+
+ + + + + + + + + ++ + + ++ + ++++ + + + + + + + ++ + +
0
IBE, Korr. (L6-2)
+
+ +
-6
•
22
Residualanalyse
Passt ein lineares Regressionsmodell zu den Daten: •
+ SSRegression
Anteil der erklärten Varianz: SSRegression / SStotal = r²
Pro weiterem Lebensjahr nimmt der mittlere Fettgehalt des Körpers um etwa 0.55% zu. IBE, Korr. (L6-2)
n
2 * 2 * 2 ∑ ( yi − y) = ∑ ( yi − yi ) + ∑ ( yi − y)
2
+ + + + +
++
+ + + + + ++ + + ++ + + + + + + + + + + + + + + + ++ ++ + + + + + + + + + + + + + + + +
4
6 x
+ + + + +
8
IBE, Korr. (L6-2)
24
Korrelation innerhalb Patienten
Korrelation innerhalb Patienten 7.4
Bei 8 Probanden werden wiederholt pH und PaCO2 Messungen durchgeführt.
8
2
Bland, Altman (1995) BMJ, 310:446
7
1
1 1 1 4
5
25
40 20 0
Atrophie [mm²]
40 20
0.4 0.6
0.8 1.0
0.0 0.2
0.4 0.6
0.8 1.0
Patient 2090
Patient 3007
0.2 0.4
0.6 0.8
0.0 0.2
0.4 0.6
20 0
40 20 0
1.0
40
Patient 2086
Atrophie [mm²]
Visus
0.8 1.0
0.0 0.2
0.4 0.6
0.8 1.0
V isus
Visus
Patient 3053
Patient 3099
Patient 5011
40 20
0.2 0.4
0.6 0.8
1.0
Atrophie [mm²]
Visus
Visus
27
0.0 0.2
V isus
0 0.0
IBE, Korr. (L6-2)
1.0
Atrophie [mm²]
r² = SSRegression / SStotal = 0.03438 / 0.3708 = 0.093 Atrophie [mm²]
0.6 0.8
Patient 2016
Visus
Atrophie [mm²] 0.0
r (Korrelation) = - 0.304 (aufgrund der Richtung der Geraden)
0.2 0.4
0
Atrophie [mm²]
40 20 0.0
40
SStotal = 0.3708
0
Berechnung der Quadratsummen mittels ANOVA (etwa in SPSS)
Patient 2008
20
= 0.03438
Patient 2007
40
SSRegression
Korrelation: - 0.387 [- 0.31; - 0.45]
20
= 0.33642
Pro Patient wurde möglicherweise an beiden Augen der GA-Wert, wie der Visus-Wert zu mehreren Zeitpunkten erhoben.
value Pr(>F) 0.0471 *