M F F M F F M M M F F M F F F F M F F F P P P P P P P P P P P P F M F M M F M F M F F M F M F F F F M F P P P P P P P P P P P P

In diesem Kapitel werden wir uns mit der Untersuchung der Zusammenhänge und Abhängigkeiten zwischen zwei Merkmalen beschäftigen. Beispielweise können ...
Author: Fanny Kaufman
0 downloads 0 Views 274KB Size
In diesem Kapitel werden wir uns mit der Untersuchung der Zusammenhänge und Abhängigkeiten zwischen zwei Merkmalen beschäftigen. Beispielweise können wir bei Werkstücken die beiden Merkmalen „Durchmesser“ und „Masse“ gemeinsam erheben und deren Zusammenhang analysieren. Daten, die aus Beobachtungen zweier Merkmale bestehen, werden bivariate oder zweidimensionale Daten genannt. Diese Daten können dann durch Tabellen und Diagrammen aufbereitet werden.

Für die Untersuchung des Zusammenhangs zwischen zwei Merkmalen werden diese Daten in Form von zweidimensionalen Tabellen und Diagrammen zusammengefasst und dargestellt.

Die Darstellung von Daten zweier Merkmale, die nur wenige Ausprägungen aufweisen und auf das Nominalskalenniveau gemessen werden, erfolgt durch Kontingenztabellen.

Bei einer Datenerhebung wurden 40 Studierende eines Wirtschaftskurses befragt worden, ob der Schwerpunkt ihres Studium „Wirtschaftspsychologie“ oder „Wirtschaftsinformatik“ ist. Die Ergebnisse der Befragung sind in der folgenden Urliste dargestellt. Dabei haben die Abkürzungen folgende Bedeutung: P: Wirtschaftspsychologie ; : Wirtschaftsinformatik ; F : Frau ;

M: Mann

M

F P

F P

M

F

F P

M P

M P

M

F P

F P

M

F

F P

F P

F P

M

F P

F

F P

F

M P

F

M

M P

F

M P

F P

M

F P

F P

M

F P

M P

F P

F P

F

F P

M

F P

Benennen Sie die beiden Merkmale und ihre jeweiligen Ausprägungen. Geben Sie ferner jeweils den Merkmalstypen an. Merkmal X: Geschlecht Y: Schwerpunkt der Fachrichtung

Ausprägungen Frau, Mann Wirtsch.-Psycho. Wirtsch.-Informatik

Merkmalstyp / Skalenniveau Qualitativ , Nominalskala Qualitativ , Nominalskala

Erstellen Sie aus der Urliste eine Kontingenztabelle der absoluten Häufigkeiten.

1

M

F P

F P

M

F

F P

M P

M P

M

F P

F P

M

F

F P

F P

F P

M

F P

F

F P

F

M P

F

M

M P

F

M P

F P

M

F P

F P

M

F P

M P

F P

F P

F

F P

M

F P

Schwerpunkt der Fachrichtung

F : Frau Geschlecht M : Mann Randhäufigkeiten

P : Wirtsch.Psycho.

: Wirtsch.Info.

18

7

25

6

9

15

24

16

Randhäufigkeiten

40

Erstellen Sie aus der Urliste eine Kontingenztabelle der relativen Häufigkeiten. Schwerpunkt der Fachrichtung

F : Frau Geschlecht M : Mann Randhäufigkeiten

P : Wirtsch.Psycho.

: Wirtsch.Info.

18 40 = 0,45

7 40 = 0,175

25 40 = 0,625

6 40 = 0,15

9 40 = 0,225

15 40 = 0,375

24 40 = 0,6

16 40 = 0,4

Randhäufigkeiten

40 40 = 1

Stellen Sie die Häufigkeitsverteilung durch ein Stabdiagramm dar.

f jk 0,5 0,4 0,3 0,2 0,1 0

F

M

F

M

P

2

Kontingenz-Tabelle (-Tafel) der absoluten und relativen Häufigkeiten Wenn viele von N Wertepaare (x1 ; y1 ) ; (x2 ; y2 ) ; . . . ; (xN ; yN ) aus den Beobachtungswerten zweier Merkmale X und Y identisch sind, werden diese in Kontingenztabellen dargestellt, die folgende Formen haben: Kontingenztabelle der absoluten Häufigkeiten . . . . . . b1 bk bC . . . . . . a1 h 11 h 1k h 1C . . . . . . aj h j1 h jk h jC . . . . . . . . . . . . aR h R1 h Rk h RC . . . . . . h 1 h k h C

h1

hj

hR N

Dabei sind: R : die Anzahl der verschiedenen Ausprägungen des Merkmals X (Zeilenanzahl) C : die Anzahl der verschiedenen Ausprägungen des Merkmals Y (Spaltenanzahl) a j : die verschiedenen Ausprägungen des Merkmals X, wobei j = 1 ; . . . ; R b k : die verschiedenen Ausprägungen des Merkmals Y, wobei k = 1 ; . . . ; C h j k : die absoluten Häufigkeiten der Paare mit den Ausprägungen (a j ; b k ) h j : die Randhäufigkeiten von X (Zeilensummen) h k : die Randhäufigkeiten von Y (Spaltensummen) Und es gelten: h j1 + . . . + h jk + . . . + h jC = h j h 1k + . . . + h jk + . . . + h Rk = h k Kontingenztabelle der relativen Häufigkeiten . . . . . . b1 bk bC . . . . . . a1 f11 f1k f1C . . . . . . aj f j1 f jk f jC . . . . . . . . . . . . aR f R1 f Rk f RC . . . . . . f 1 f k f C

f1

fj

fR 1

Dabei sind: f j k = h j k N : die relativen Häufigkeiten der Paare mit den Ausprägungen (a j ; b k ) fj =hj N : die relativen Randhäufigkeiten von X f k = h k N : die relativen Randhäufigkeiten von Y Und es gelten: f j1 + . . . + f jk + . . . + f jC = f j f 1k + . . . + f jk + . . . + f Rk = f k 3

Die Ergebnisse der Prüfung eines Informatikkurses aus 20 Studierenden, von denen 12 Elektrotechnik- und 8 Maschinenbau-Studierenden waren, sind wie folgt. Dabei haben die Abkürzungen folgende Bedeutung: M: Maschinenbau ; E: Elektrotechnik ; B : Bestanden ; N: Nicht-Bestanden i

1 Fach M Note

2 E B

3 E N

4 M

5 E

6 E

7 M N

8 M N

9 M

10 11 12 13 14 15 16 17 18 19 20 E E M E E E E M E E M N N N

Benennen Sie die beiden Merkmale und ihre jeweiligen Ausprägungen. Geben Sie ferner jeweils den Merkmalstypen an. Erstellen Sie aus der Urliste eine Kontingenztabelle der absoluten Häufigkeiten. Erstellen Sie aus der Urliste eine Kontingenztabelle der relativenn Häufigkeiten. !"

#

Merkmal X: Y:

Ausprägungen

Merkmalstyp / Skalenniveau

Randhäufigkeiten

Randhäufigkeiten

Randhäufigkeiten

Randhäufigkeiten

4

Geben Sie für das vorige Beispiel. (Bsp. 1) die Anteile der jeweiligen Fachrichtungen unter den jeweiligen Geschlechtern an. Erstellen Sie dafür eine Kontingenztabelle der relativen Häufigkeiten, bei der die Merkmalausprägungen der Spalten (Wirtsch.-Psycho. ; Wirtsch.-Info.) bedingt durch die Merkmalausprägungen der Zeilen (Frau ; Mann) ausgedruckt werden. Schwerpunkt der Fachrichtung

F : Frau Geschlecht

P : Wirtsch.Psycho.

: Wirtsch.Info.

Randhäufigkeiten

18 25 = 0,72

7 25 = 0,28

25 25 = 1

6 15 = 0,4

9 15 = 0,6

15 15 = 1

M : Mann

Stellen Sie die bedingte Häufigkeitsverteilung durch ein Diagramm dar.

1,0 0,8 W.-Psycho

0,6 0,4

W.-Info.

0,2 0

F Frau

M Mann

Welche Folgerung kann man aus dieser bedingten Häufigkeitsverteilung ziehen? Ein großer Anteil der Frauen (Studentinnen) hat als Schwerpunkt die Fachrichtung „Wirtschafts-Psychologie“.

Geben Sie für das vorige Beispiel 1 die Anteile der jeweiligen Geschlechter unter den jeweiligen Fachrichtungen an. Erstellen Sie dafür eine Kontingenztabelle, bei der die Merkmalausprägungen der Zeilen (Frau ; Mann) bedingt durch die Merkmalausprägungen der Spalten (Wirtsch.-Psycho. ; Wirtsch.-Info) ausgedruckt werden. Stellen Sie die bedingte Häufigkeitsverteilung dann durch ein Diagramm dar. !"

#

5

Frau

Mann

P W.-Psy.

W.-Info. 0

0,2

0,6

0,4

0,8

1,0

Relative Häufigkeiten

Bedingte (relative) Häufigkeiten Die bedingte relative Häufigkeit der Merkmalausprägung X = a j unter der Bedingung der Merkmalsausprägung Y = b k ist gegeben durch: hjk = f X a j | bk h *k

(

a1

b1 fX (a1 | b1 ) = h11 . .

)

h

1

. . . .

. . fX (aj | bk ) = h j k h . .

aj

aR

. . fX (a R | b1 ) h

1

h

1

. . . .

bk

k

. . . . =1

. . . . h

k

h

k

bC fX (a1 | bC ) . .

=1

. . fX (aR | bC ) h

C

h

C

=1

Die bedingte relative Häufigkeit der Merkmalausprägung Y = b k unter der Bedingung der Merkmalsausprägung X = a j ist gegeben durch: hjk fY b k | a j = hj*

(

a1

b1 fY (b1 | a1 ) = h11 h1 . .

)

. . . .

aR

. . . .

. . fY (bk | aj ) = h j k h j . .

aj . . fY (b1 | a R)

bk

. .

. .

bC fY (bC | a1 ) . . . . fY (bC | aR )

h1

h1 = 1

hj

hj =1

hR

hR = 1

6

$ Die Daten zweier Merkmale, die quantitativ und kardinalskaliert (metrisch) sind, werden in Streudiagrammen dargestellt. % Der Manager eines Geschäfts für Unterhaltungselektronik möchte den Zusammenhang zwischen kommerzieller Werbung im Fernsehen für sein Geschäft am Wochenende und dem Umsatz in der darauffolgenden Woche untersuchen. Die Beobachtungswerte innerhalb von 10 Wochen waren wie folgt. i 1 2 3 4 5 6 7 8 9 10

x : Anzahl von kommerziellen Werbungen 2 5 1 3 4 1 5 3 4 2

y : Höhe des Umsatzes in 1000 € 50 57 41 54 54 38 63 48 59 46

Benennen Sie die beiden Merkmale und ihre jeweiligen Ausprägungen. Geben Sie ferner jeweils den Merkmalstypen an. Merkmal X: Anzahl der Werbungen Y: Umsatzhöhe

Ausprägungen Sehr viele (hier 5) Sehr viele (hier 9)

Merkmalstyp / Skalenniveau Quantitativ , Diskret, Kardinalskala Quantitativ , Stetig , Kardinalskala

Zeichen Sie ein Streu-Diagramm aus den Beobachtungswertepaare. 65

y

Streudiagramm

60 55 50 45 40 35

x 1

2

3

4

5

Anzahl kommerzieller Werbungen

Welchen Zusammenhang kann man aus dem Streudiagramm erkennen? Das Streudiagramm zeigt einen positiven Zusammenhang zwischen der Anzahl von Werbungen und der Umsatzhöhe. Man kann also folgern und annehmen, dass ein höherer Umsatz von einer höheren Anzahl von Werbungen abhängt. Streudiagramm Die Darstellung der N Beobachtungswertepaare (x1 ; y1 ) ; (x2 ; y2 ) ; . . . ; (xN ; yN ) einer Datenreihe in einem xy-Koordinatensystem heißt Streudiagramm. 7

&

'

(

Hier wird untersucht, ob und wie stark zwei Merkmale von einander abhängen.

)

&

*

Für zweidimensionale Daten, die in Kontingenztabellen auf das Nominalskalenniveau gemessen werden, kann untersucht werden, ob beide Merkmale sich beeinflussen oder nicht. % Die Ergebnisse der Prüfung des Faches „Mathematik“ von 100 Studierenden eines Kurses, unter denen 20 Elektrotechnik- und 80 Maschinenbau-Studierenden waren, sind wie folgt. Dabei haben die Abkürzungen folgende Bedeutung: M: Maschinenbau ; E: Elektrotechnik ; B : Bestanden ; N: Nicht-Bestanden Ergebnis

Fachrichtung

E M Randhäufigkeiten

B h 1 1 = 12 h 2 1 = 48 h 1 = 60

N h 12 = 8 h 2 2 = 32 h 2 = 40

Randhäufigkeiten h 1 = 20 h 2 = 80 N = 100

Geben Sie die Anteile der Studierenden für die jeweiligen Ergebnisse „Bestanden“ und „Nicht-Bestanden“ unter den jeweiligen Fachrichtungen an. Berechnen Sie dafür die bedingten relativen Häufigkeiten. Berechnen Sie auch bzgl. der Gesamtzahl der Studierenden des Kurses die jeweiligen Anteile der Studierenden, die bestanden bzw. nicht bestanden haben. Berechnen Sie dafür die relativen Randhäufigkeiten. Vergleichen Sie dann die Ergebnisse bei a) und b) miteinander. Welche Schlussfolgerung können Sie ziehen? !"

# Ergebnis B fY (b1 | a1 ) = h11

E

= 12

Fachrichtung

N h1

h1

h1 =

20 20 = 1

20 = 0,6

M

f

1

= h

1

N = 60 100 = 0,6 ;

f

2

=

8

Da die jeweiligen Anteile der Studierenden unter den Elektrotechnikern bzw. unter den Maschinenbauern, die bestanden bzw. nicht bestanden haben, jeweils gleich den Anteilen der Studierenden bzgl. der Gesamtzahl des Kurses sind, können wir folgern, dass die beiden Merkmale „Ergebnis“ und „Fachrichtung“ unabhängig voneinander sind.

Wenn zwischen 2 Merkmalen X und Y kein Zusammenhang besteht, d.h. wenn sie unabhängig sind, dann würde man erwarten, dass die jeweiligen bedingten relativen Häufigkeiten gleich den entsprechenden relativen Randhäufigkeiten sind. fX ( a j | b k ) = f j

bzw.

fY ( b k | a j ) = f

k

Eine Umformung der obigen relativen Häufigkeiten ergibt, dass im Falle einer Unabhängigkeit für die Randhäufigkeiten und den Häufigkeiten gilt:

hjk

=

h j * ⋅ h *k

bzw.

N

f jk = f j · f

k

Empirische Unabhängigkeit von Merkmalen Zwei Merkmale X und Y sind dann unabhängig von einander, wenn für alle Merkmal-Ausprägungen X = a j und Y = b k gilt:

hjk

=

h j * ⋅ h *k

bzw.

N

f jk = f j · f

k

ODER wenn für alle Merkmal-Ausprägungen X = a j und Y = b k gilt: fX ( a j | b k ) = f j

bzw.

fY ( b k | a j ) = f

k

# Für die Abhängigkeit reicht es aus, wenn diese Gleichungen nur für ein einziges Paar mit den Ausprägungen (a j ; b k ) nicht gilt, obwohl es z.B. für alle anderen Paare gilt.

9

+ Zeigen Sie, dass die Merkmale „Geschlecht“ und „Schwerpunkt der Fachrichtung“ aus Bsp. 1) nicht unabhängig (d.h. abhängig voneinander) sind, indem Sie die Definition ) verwenden. Schwerpunkt der Fachrichtung

F : Frau Geschlecht M : Mann Randhäufigkeiten !"

P : Wirtsch.Psycho.

: Wirtsch.Info.

Randhäufigkeiten

h 1 1 = 18

h 12 = 7

h 1 = 25

h 21 = 6

h 22 = 9

h 2 = 15

h

h

1

= 24

2

= 16

40

#

h 11 = 18

h12

= 7

h 21 = 6

h22

= 9

h 1 * ⋅ h *1 N h1* ⋅ h *2 N h 2 * ⋅ h *1 N h 2 * ⋅ h *2 N

=

=

=

=

25 ⋅ 24

= 15

18 ≠ 15

= 10

6 ≠ 10

= 9

7 ≠ 9

= 6

9 ≠ 6

40 25 ⋅ 16 40 15 ⋅ 24 40 15 ⋅ 16 40

Schon aus dem ersten Vergleich erkennt man, dass die beiden Merkmale voneinander nicht unabhängig sind. Die restlichen Vergleiche sind also unnötig. + Zeigen Sie, dass die Merkmale „Note“ und „Fachrichtung“ aus Aufgabe 1) unabhängig sind, indem Sie die Definition ) verwenden. Note Fachrichtung

E M Randhäufigkeiten

B

N

h 11 =8 h 21 =6 h 1 = 14

h 12 =4 h 22 =2 h 2=6

Randhäufigkeiten h 1 = 12 h2 =8 N = 20

10

!"

#

h 1 * ⋅ h *1 N

= 8,4

8

# Je stärker, die jeweiligen beobachteten Häufigkeiten h j k ( bzw. f j k ) von den h j * ⋅ h *k = e jk entsprechenden erwarteten Häufigkeiten für eine Unabhängigkeit N abweichen, um so stärker ist Abhängigkeit der beiden Merkmale. Auch wenn zwei Merkmale X und Y unabhängig sind, resultiert auf Grund von h j * ⋅ h *k = e jk Zufallsschwankungen, dass die jeweiligen erwarteten Häufigkeiten N nicht immer exakt gleich den entsprechenden tatsächlichen Häufigkeiten h j k sind. Da eine Nominalskala von X und Y keine Ordnungsstruktur aufweist, ist die Untersuchung der empirischen Unabhängigkeit für die Nominalskala zweier Merkmale sinnvoll. Falls Merkmale mit anderen Skalenniveaus vorliegen, müssen diese auf die Nominalskala abgewertet werden. Wenn quantitative Merkmale vorliegen, müssen diese in Klassen unterteilt werden.

11

&

,

&

*

Aus den Daten zweier quantitativen und kardinalskalierten (metrischen) Merkmalen kann sowohl die Stärke als auch die Richtung des Zusammenhangs zwischen den beiden Merkmalen untersucht werden. Durch welchen Graph kann der Zusammenhang zwischen der Anzahl von Werbungen und Umsatz im Beispiel 3 dargestellt werden? !" Eine Gerade (lineare Funktion) kann den Zusammenhang zwischen den beiden Merkmalen beschreiben. 65

y

Streudiagramm

60 55 50 45 40 35

x 1

2

3

4

5

Anzahl kommerzieller Werbungen

Folgende Tabelle zeigt die Ergebnisse einer Untersuchung bzgl. der Druckgeschwindigkeit (Anzahl von Seiten in einer Minute) und des Preises in € von den 5 besten Klein-LaserDruckern durch PCWorld (Feb 2003). Zeichnen Sie für diese Daten ein Streudiagramm, in dem der Preis in Abhängigkeit von der Druckgeschwindigkeit dargestellt wird. Zeichnen Sie auch eine Gerade durch die Punktwolke des Diagramms. i 1 2 3 4 5

Druckermarke (Small-Office Laser Printer) Minolta-QMS 1250W Brother HL-1850 Lexmark E320 Minolta-QMS 1250E HP Laserjet 1200

!" y

x

: Druckgeschwindigkeit (Page Per Minute) 12 10 12,2 10,3 11,7

y : Preis ( in €) 199 499 299 299 399

# 500

$

450 400 350 300 250 200 0

10

11

12

Druckgeschwindigkeit (ppm)

13

x

12

./

0000000000000000000000000

Wenn zwischen zwei Merkmalen ein linearer Zusammenhang vorliegt, kann die Richtung und Stärke dieses Zusammenhangs durch die Kovarianz bestimmt werden. Empirische Kovarianz Die empirische Kovarianz für N Beobachtungswertepaare (x1 ; y1 ) ; (x2 ; y2 ) ; . . . ; (xN ; yN ) einer Datenreihe ist gegeben durch

s xy

=

1 N −1

N

( xi − x )( y i − y )

⋅ i= 1

Die Kovarianz ist ein Maß für die Richtung (und Stärke) des linearen Zusammenhangs zwischen zwei Merkmalen Dabei sind: x =

y =

1 N 1 N

N

xi :



der Mittelwert der x-Werte

i= 1 N

yi :



der Mittelwert der y-Werte

i= 1

# Die Kovarianz lässt sich leichter mit den folgenden bequemeren Formeln berechnen.

s xy

=

1 N −1

N

xi ⋅yi

− N⋅ x ⋅y

i= 1

-./ Berechnen Sie für das Beispiel 3 die Kovarianz. i 1 2 3 4 5 6 7 8 9 10

x : Anzahl von kommerziellen Werbungen 2 5 1 3 4 1 5 3 4 2

y : Höhe des Umsatzes in 1000 € 50 57 41 54 54 38 63 48 59 46 13

!" x =

s xy

# 1 10

10

xi = 3



1

=

=

;

y =

i =1

10 − 1 1 9

1 10

10



y i = 51 i= 1

10

( x i − 3 ) ( y i − 51 )

⋅ i= 1

⋅ [ ( 2 − 3 ) ( 50 − 51 ) + ( 5 − 3 ) ( 57 − 51 ) +

+ ( 2 − 3 ) ( 46 − 51 ) ]

= 11

-./ Berechnen Sie die Kovarianz für die Daten der Aufgabe 5) i 1 2 3 4 5

!"

(Small-Office Laser Printer) Minolta-QMS 1250W Brother HL-1850 Lexmark E320 Minolta-QMS 1250E HP Laserjet 1200

x

: (Page Per Minute) 12 10 12,2 10,3 11,7

y : Preis ( in €) 199 499 299 299 399

#

14

.//

1

&

00

Da die Kovarianz von den Einheiten (z.B. Euro bzw. Cent) der Merkmale abhängt, steigt oder sinkt sie in Abhängigkeit von den gewählten Einheiten. Daher ist es sinnvoll für ein Maß der Stärke des Zusammenhangs von zwei Merkmalen die Kovarianz s durch das Produkt der Standardabweichungen der beiden Merkmale s und s zu dividieren, so kürzen sich die Einheiten heraus und die neu gewonnene Größe ist ohne Einheit. Pearson-Korrelationskoeffizoent Der Pearson-Korrelationskoeffizient aus N Beobachtungswertepaare ; (xN ; yN ) einer Datenreihe ist gegeben durch (x1 ; y1 ) ; (x2 ; y2 ) ; . . .

r =

s xy sx ⋅ sy

Der Korrelationskoeffizient ist ein Maß für die Stärke und Richtung des linearen Zusammenhangs zwischen zwei Merkmalen X und Y. Dieser kann Werte zwischen

– 1 und 1

annehmen.

Dabei sind: s : s : s :

die Standardabweichung für die x-Werte. die Standardabweichung für die y-Werte. die Kovarianz.

Diese lassen sich wie folgt berechnen x =

y =

s xy

1 N 1 N

=

N

s x2

xi



=

i= 1 N

s y2

yi



i= 1

1 N −1

=

1 N −1 1 N −1

N



( xi − x )2

sx =

s x2

( y i − y )2

sy =

s y2

i= 1 N

⋅ i= 1

N

( xi − x )( y i − y )

⋅ i= 1

15

-.// Bestimmen Sie für das Beispiel 3 den Pearson-Korrelationskoeffizienten. !" x =

s x2

s y2

s xy

r =

# 1 10

=

=

10

xi = 3



;

i =1

1 10 − 1 1 10 − 1

1

=

10 − 1 s xy

sx ⋅ sy

y =

1 10

10

y i = 51



i= 1

10



( x i − 3 ) 2 = 2,22

s

( y i − 51 ) 2 = 62,88

s = 7,93

= 1,49

i= 1 10

⋅ i= 1

10

( x i − 3 ) ( y i − 51 )



= 11

i= 1

=

11 1, 49 ⋅ 7 , 93

= + 0 , 93

-.// Berechnen Sie den Korrelationskoeffizienten für die Daten der Aufgabe 14) !"

#

16

.///

/

1

.

-./// Wie kann man ohne Berechnung der Kovarianz und nur mit Hilfe des Streudiagramms und den Mittelwerten x und y für das Bsp. 3) angeben, ob die Kovarianz positiv oder negativ ist? 65

y

=3

60 55 = 51

50 45 40 35

x

0

1

2

3

4

5

Anzahl kommerzieller Werbungen

!" # Quadrant Für die x i gilt: (Bereich) xi xi xi xi

> < < >

x x x x

Für die y i gilt: yi yi yi yi

> > <
0 , so überwiegen die Punkte mit den positiven Beiträgen, also die in den Quadranten und . Die Punktwolke verläuft dann von links unten nach rechts oben. So spricht man von einer positiven Korrelation. Ist die Kovarianz negativ s < 0 , so überwiegen die Punkte mit den negativen Beiträgen, also die in den Quadranten und . Die Punktwolke verläuft dann von links oben nach rechts unten. So spricht man von einer negativen Korrelation.

17

2 Bestimmen Sie den Korrelationskoeffizienten für die Merkmale X und Y folgender Stichproben: { (x1 ; y1) ; (x2 ; y2) ; (x3 ; y3) ; (x4 ; y4 ) } {(0; 3)

; (2;0) ; (4;7) ;

(6; 4) }

{(0; 3)

; (2;2) ; (4;5) ;

(6; 5)}

{(0; 4)

; (2;7) ; (4;0) ;

(6; 3)}

{(0; 2)

; (2;3) ; (4;4) ;

(6; 5)}

{(0; 3)

; ( 4 ; 2,9 ) ; ( 4 ; 3,1 ) ; ( 6 ; 3 ) }

!" 7

# Y

7

= + 0,447

6 5

5

4

4

3

3

2

2

1

1 1

7

2

3

4

5

6

7

Y

8

X

= – 0,447

6

7

4

4

3

3

2

2

1

1

7

3

4

5

6

7

Y

8

X

2

3

4

5

6

7

8

Y

X

=+1

6 5

2

= + 0,774

1

5

1

Y

6

1

2

3

4

5

6

7

8

X

=0

6 5 4 3 2 1 1

2

3

4

5

6

7

8

X

18

# Ist der Korrelationskoeffizient positiv r > 0 , so liegt ein gleichsinniger linearer Zusammenhang zwischen X und Y vor. Ist der Korrelationskoeffizient negativ r < 0 so liegt ein gegensinniger linearer Zusammenhang zwischen X und Y vor. Ist der Korrelationskoeffizient Null r 0 so liegt kein linearer Zusammenhang zwischen X und Y vor, dann heißen X und Y unkorreliert. Ist der Korrelationskoeffizient nahe bei 1 oder – 1 dann heißen X und Y stark positiv korreliert bzw. stark negativ korreliert.

# Die Punkte liegen fast auf einer Gerade, je r nahe bei 1 oder – 1 ist. Der Korrelationskoeffizient r sagt aber nichts über die Größe der Steigung der Gerade durch die Punktwolke. Ist der Korrelationskoeffizient r 0 , so heißt dies aber nicht, dass die Merkmale X und Y keinen Zusammenhang haben, sondern nur das zwischen ihnen kein linearer Zusammenhang besteht. Ist der Korrelationskoeffizient r nahe bei 1 oder – 1 dann sind X und Y stark korreliert. Dies heißt aber nicht , dass zwischen den Merkmalen auch immer ein kausaler (ursächlicher) Zusammenhang besteht in dem Sinne, dass X für Y ursächlich ist oder umgekehrt. Hat man den Eindruck, dass zwischen zwei Merkmalen ein kausaler Zusammenhang besteht, obwohl dies gar nicht der Fall ist, so spricht man von Scheinkorrelation (besser Scheinkausalität). Ob zwischen zwei Merkmalen mit starker Korrelation ein kausaler Zusammenhang besteht oder, ob sie von einer dritten Größe im Hintergrund gesteuert werden oder, ob die Korrelation purer Zufall ist, kann die Statistik allein nicht entscheiden. Es bedarf dafür eine inhaltliche Auseinandersetzung mit den Eigenschaften der Merkmale.

3 Liegt für Bsp. 3) eine starke Korrelation vor? Besteht zwischen den beiden Merkmalen X: „Anzahl kommerzieller Werbungen“ und Y: „Umsatzhöhe“ ein kausaler Zusammenhang? !"

# Da r = +0,93 ist, liegt eine starke positive Korrelation vor.

Ja zwischen X und Y besteht ein kausaler Zusammenhang vor, Denn je höher die Anzahl der Werbungen ist, umso größer ist der Umsatz.

19

4 Zur Berechnung des Korrelationskoeffizienten von Häufigkeitstabellen werden die Varianzen s²x , s²x und sxy wie folgt berechnet.

a1 a2

b1 h 11 h 21

b2 h 12 h 22

bk h 1k h 2k

bC h 1C h2C

h 1* h 2*

aj

h j1

h

j2

h jk

hjC

hj*

aR

h R1 h *1

h h

R2

h Rk h *k

h RC h *C

h R* N

*2

Dabei sind a j bzw. b k die Merkmalausprägungen mit den Häufigkeiten h j k .Die Anzahl der Elemente der Stichprobe ist N und die Anzahl der Merkmalausprägungen von a j bzw. b k sind R bzw. C. x

=

1 N

R

a j ⋅h j



y

h

(a



j *

j

− x

)

=

N −1

R

;

C

j= 1

(a j

bk ⋅ h*k



k = 1

h

N − 1 1

N

C

C

2

j = 1

s x2 =

=

j = 1 R

s xy

;

*

1

− x

s y2 =

)( b k

− y

*k



(bk

− y

)2

k = 1

N − 1

)⋅ h j k

k = 1

# Die Varianzen aus Häufigkeitstabellen lassen sich leichter mit der folgenden bequemeren Formeln berechnen.

s

2 y

R

1

s x2 =

N − 1

⋅ a 2j

− N⋅x

⋅ b k2

− N⋅y

j *

2

j = 1 C

1

=

h

N − 1

h

* k

2

k = 1

Die Kovarianz aus Häufigkeitstabellen lässt sich auch leichter mit der folgenden bequemeren Formel berechnen.

s xy

=

1

N −1

R

C

a j bk ⋅ h j k

− N⋅ x ⋅y

j= 1 k= 1

20

2 Der Zusammenhang zwischen den erreichten Punktezahlen in den Fächern Physik und Chemie von 20 Studenten soll untersucht werden. Dazu liegt die folgende Häufigkeitstabelle vor. Die a j -Werte geben die Merkmalausprägungen für die Punktezahl in Physik an. Die b k -Werte geben die Merkmalausprägungen für die Punktezahl in Chemie an. b1 60 a1

60

a2

65 70 75 80

a5

4

b2 65

70

b5 80

75

1

0

2

1

0

3

1

0

0

1

0

1

2

3

0

0

0

1

2

0

0

0

1

0

1

2

6

6

4 5 6 3 2

2

20 Berechnen Sie den Korrelationskoeffizienten r . Interpretieren Sie Ihr Ergebnis.

!"

#

21