Prof. Dr. G. Meinhardt

Methodenlehre & Statistik

Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206

Dr. Malte Persike [email protected] lordsofthebortz.de twitter.com/methodenlehre tinyurl.com/gplusmethodenlehre

WiSe 2011/2012 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz Folie 1

Methodenlehre & Statistik

Bivariate Intervalldaten

Bivariate Ordinaldaten Bortz, S. 153 – 158

Einführung

Bivariate Daten Grundlagen

Scatterplot

 Bisher wurden Kennwerte für den univariaten Fall betrachtet, d.h. für Daten einer Variablen

Kovarianz

 Mit geschachtelten Kontingenztabellen wurde eine kompakte Darstellungsmöglichkeit für den multivariaten Fall beschrieben, d.h. für Daten mehrerer Variablen

Korrelation

 In der Statistik sind weitere Verfahren gebräuchlich, die speziell den Zusammenhang zweier Variablen (also für den bivariaten Fall) beschreiben.  Beispiel: Man weiß, dass die Nervenleitgeschwindigkeit am Unterarm und der im Intelligenztest gemessene IQ positiv zusammenhängen.  Frage: Wie kann ein solcher Zusammenhang einfach grafisch/numerisch dargestellt werden?

Folie 2

Methodenlehre & Statistik

Bivariate Intervalldaten

Einführung

Bivariate Intervalldaten

Bivariate Ordinaldaten

Grundlagen

Scatterplot

Kovarianz

Korrelation

 Die Intervallskala trägt Informationen über die Ordnung von Ausprägungen und hat eine feste Einheit zwischen den Ausprägungen  Die Werte einer intervallskalierten Variablen sind nicht direkt vergleichbar, wohl aber die Unterschiede zwischen Werten  Weil die Ausprägungen einer festen Einheit folgen, kann man intervallskalierte Daten sowohl grafisch als auch numerisch sehr einfach behandeln.

Folie 3

Methodenlehre & Statistik

Bivariate Intervalldaten

Einführung

Bivariate Intervalldaten

Bivariate Ordinaldaten

Grafische Beschreibung – Scatterplot

Scatterplot

Kovarianz

Korrelation

0 0.1 0.2 0.3 0.4 0 0.2 0.4

Folie 4

Methodenlehre & Statistik

Bivariate Intervalldaten

Einführung

Bivariate Intervalldaten

Bivariate Ordinaldaten

Numerische Beschreibung - Kennwerte

Scatterplot Gewünschte Eigenschaften eines Zusammenhangskoeffizienten

Kovarianz

 Sollte die Stärke eines Zusammenhangs numerisch ausdrücken

Korrelation

 Sollte die Richtung des Zusammenhangs anzeigen (sofern sinnvoll)  Sollte invariant unter zulässigen Transformationen sein (z.B. m in cm)  Sollte einfach interpretierbar sein

Folie 5

Methodenlehre & Statistik

Bivariate Intervalldaten

Einführung

Bivariate Intervalldaten

Bivariate Ordinaldaten

Numerische Beschreibung - Kovarianz

Scatterplot

Kovarianz

Korrelation

 Für n Beobachtungen aus einem Zufallsexperiment x1…xn und y1…yn ist die Kovarianz definiert als

1 n cov( x, y )  sxy   ( xi  x )( yi  y ) n i 1  Die Kovarianz ist Null, wenn kein Zusammenhang zwischen den Ausprägungen der Zufallsvariablen besteht  Die Kovarianz ist positiv, wenn ein gleichsinniger Zusammenhang besteht  Die Kovarianz ist negativ, wenn ein gegensinniger Zusammenhang besteht.

Folie 6

Methodenlehre & Statistik

Bivariate Intervalldaten

Einführung

Bivariate Intervalldaten

Bivariate Ordinaldaten

Numerische Beschreibung - Kovarianz

Scatterplot

 Die Kovarianz erfüllt nicht die Forderung der Invarianz gegenüber erlaubten Transformationen

Kovarianz

 Addition einer Konstanten zu x und y:

sxy ( x  a, y  b)  sxy ( x, y ) Korrelation  Aber: Multiplikation von x und y mit einer Konstanten

sxy (a  x, b  y )  a  b  sxy ( x, y )  Die Kovarianz ist also numerisch schwer zu interpretieren Folie 7

Methodenlehre & Statistik

Bivariate Intervalldaten

Einführung

Bivariate Intervalldaten

Bivariate Ordinaldaten

Numerische Beschreibung - Korrelation

Scatterplot

 Für n Beobachtungen aus einem Zufallsexperiment x1…xn und y1…yn ist der Korrelationskoeffizient definiert als

Kovarianz

Korrelation

rxy 

1 n ( xi  x )( yi  y )  sxy n i 1  n n sx  s y 1 1 2 2 ( xi  x ) ( yi  y )   n i 1 n i 1

 Für die Richtungsinformation gelten dieselben Regeln wie bei der Kovarianz  Bei der Korrelation ist zudem die Stärke (der Betrag) des Zusammenhangs interpretier- und vergleichbar. Folie 8

Methodenlehre & Statistik

Bivariate Intervalldaten

Einführung

Bivariate Intervalldaten

Bivariate Ordinaldaten

Numerische Beschreibung - Korrelation

Scatterplot

Kovarianz

Korrelation

 Der so definierte Korrelationskoeffizient rxy wird auch als Produkt-Moment-Korrelation oder Korrelationskoeffizient nach Pearson bezeichnet.  Für Daten unterhalb Intervallskalenniveau gibt es andere Berechnungsformeln für die Korrelation  Die Korrelation ist Null, wenn kein Zusammenhang zwischen den Ausprägungen der Zufallsvariablen besteht  Die Korrelation liegt immer zwischen -1 und 1.  Negative Werte zeigen einen gegensinnigen, positive Werte einen gleichsinnigen Zusammenhang an

Folie 9

 Die Korrelation ist anfällig gegenüber Ausreißern

Methodenlehre & Statistik

Bivariate Intervalldaten

Einführung

Bivariate Intervalldaten

Bivariate Ordinaldaten

Numerische Beschreibung - Vergleich

Scatterplot

Kovarianz

Korrelation

Folie 10

Kovarianz

Korrelation

sxy(x,y) = sxy (y,x)

r(x,y) = r(y,x)

sxy(x, a) = 0

r(x, a) = nicht def.

sxy(a, b) = 0

r(a, b) = nicht def.

sxy(x, x) = s²x (x)

r(x, x) = 1

sxy(a·x+b, c·y+d) = a·c·sxy (x, y)

r(a·x+b, c·y+d) = r(x, y) Achtung: Ist a oder b negativ, verändert sich das Vorzeichen von r, sind beide negativ, bleibt r gleich.

Mit a, b, c, d = konstante Werte

Methodenlehre & Statistik

Bivariate Intervalldaten

Einführung

Bivariate Intervalldaten

Bivariate Ordinaldaten

Numerische Beschreibung - Faustregeln

Scatterplot

Kovarianz

Korrelation

 Für die Bewertung der absoluten Höhe der ProduktMoment-Korrelation existieren Faustregeln nach Cohen (1988) r < ± 0.10



keine Korrelation

r < ± 0.30



kleine Korrelation

r < ± 0.50



mittlere Korrelation

r ≥ ± 0.50



hohe Korrelation

 In der nicht-experimentellen Psychologie liegen Korrelationen selten über 0.75. Folie 11

Methodenlehre & Statistik

Bivariate Intervalldaten

Einführung

Bivariate Intervalldaten

Bivariate Ordinaldaten

Nichtlineare Zusammenhänge und die Korrelation

Scatterplot

Kovarianz

Korrelation

Folie 12

Methodenlehre & Statistik

Ordinalskala

Intervallskala Bortz, S. 171 – 173

Punktbiseriale Korrelation

Biseriale Korrelation

Tetrachorische Korrelation

Bivariate Intervalldaten

Spezielle Koeffizienten – Punktbiseriale Korrelation  Gegeben seien zwei Variablen X und Y. X sei dichotom nominalskaliert (mit zwei Ausprägungen 0 und 1), Y intervallskaliert.  Hier kann wie auch bei zwei intervallskalierten Variablen die Produkt-Moment-Korrelation berechnet werden.  Die Formel lässt sich aber auch zur Formel für die punktbiseriale Korrelation vereinfachen Mittelwert der Y-Werte, für die X=1

rpbis Folie 13

Mittelwert der Y-Werte, für die X=0

y X 1  y X 0 nX 0  nX 1   sy n

Anzahl der Fälle, für die X=0 bzw. X=1

Methodenlehre & Statistik Punktbiseriale Korrelation

Biseriale Korrelation

Ordinalskala

Intervallskala

Bivariate Intervalldaten

Spezielle Koeffizienten – Biseriale Korrelation  Häufig werden in psychologischen Untersuchungen eigentlich (mindestens) intervallskalierte Merkmale künstlich auf dichotome Variablen reduziert.  Beispiele: Alter (unter 25, über 25), Einkommen (niedrig, hoch), Depression (nein, ja), versetzungsfähig (nein, ja)

Tetrachorische Korrelation

Folie 14

 Hier führt die konkrete Setzung des impliziten Kriteriums, welches die intervallskalierte Variable in zwei Gruppen teilt, zu beliebigen Ergebnissen, obwohl der „wahre“ Zusammenhang unverändert ist.

Methodenlehre & Statistik Punktbiseriale Korrelation

Biseriale Korrelation

Tetrachorische Korrelation

Ordinalskala

Intervallskala

Bivariate Intervalldaten

Spezielle Koeffizienten – Biseriale Korrelation  Die Korrektur dieser kriteriumsabhängigen Veränderung des Zusammenhangs leistet die biseriale Korrelation:

nX 0  nX 1 rbis  rpbis  n   Dabei ist ω die Ordinate der Standardnormalverteilung für den z-Wert an der Stelle der Dichotomisierung (p).  rpbis und rbis Korrelation haben dieselben Eigenschaften wie der Produkt-Moment-Korrelationskoeffizient  rpbis ist zumeist vorzuziehen, da hier keine Normalverteilungsannahme gemacht werden muss

Folie 15

Methodenlehre & Statistik

Ordinalskala

Intervallskala Bortz, S. 176 – 177

Punktbiseriale Korrelation

Biseriale Korrelation

Tetrachorische Korrelation

Bivariate Intervalldaten

Spezielle Koeffizienten – Tetrachorische Korrelation  Sind beide Variablen künstlich dichotomisiert und eigentlich normalverteilt, so kann der Zusammenhang durch die tetrachorische Korrelation ausgedrückt werden.  Ausgegangen wird zunächst von einer 2×2 Kontingenztabelle  Daraus berechnet sich die tetrachorische Korrelation als:

rtet  cos

 1

n11  n22

x1

x2

y1

n11

n12

n1

y2

n21

n22

n2

n1

n2

n

n12  n21

 rtet überschätzt die wahre Korrelation, wenn die Randverteilungen stark asymmetrisch sind oder ein nXY