Statistische Methoden in der MMST: Deskriptive Statistik

VL MMS Wintersemester 2013/14 Professur für Prozessleittechnik L. Urbas; J. Pfeffer

Ziele und Inhalt Statistik in der MMST •

Anwendungsgebiete



Werkzeuge

• • • • • • • •

Typen von Messgrößen / Skalen Deskriptive Kennwerte Häufigkeitsverteilungen Empirische Verteilungsfunktion Verteilungsarten Verteilungskennwerte Korrelation von Merkmalen Lineare Regression

Evaluationen Data Mining

Einführung in die deskriptive Statistik

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 2

Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik

Statistik in der MMST

S5 - Datenanalyse Versuchsdurchführung 4 Versuchsaufbau

3 5

Versuchsplan

2

Auswertung (Datenanalyse)

Fragen 6 1

Schlussfolgerungen Antworten

Hypothese Problem TU Dresden

MMST © Urbas, Pfeffer 2011-2014

[nach Sarris 2005, S.44]

Folie Nr. 4

Statistik in der MMST Anwendungsgebiete • Evaluationen mit empirischen Methoden • Data Mining

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 5

Evaluation mittels Stichproben Stichprobenziehung

Beschreibende Statistik Inferenzstatistischer Schluss Population

TU Dresden

Stichprobenmitglieder

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 6

Teilbereiche der Statistik

Statistik

Beschreibende Statistik

TU Dresden

Explorative Statistik

MMST © Urbas, Pfeffer 2011-2014

Schließende Statistik

Folie Nr. 7

Werkzeuge • • • •

TU Dresden

SPSS Statistics STATISTICA R …

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 8

Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik

Einführung in die deskriptive Statistik

Übersicht der Themengebiete Grundbegriffe Skalenarten (Typen von Merkmalen) •

Nominal, Ordinal, Kardinal

Datenerhebung Tabellarische & grafische Analyse • • •

Häufigkeitsverteilung diskreter Daten Empirische Verteilungsfunktion Histogramme

Verteilungskennwerte / statistische Maßzahlen • •

zentrale Tendenz, Streuung, Schiefe Boxplots

Korrelation zweier Merkmale Lineare Regression

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 10

Grundbegriffe • • • • • • •

TU Dresden

Grundgesamtheit Untersuchungseinheiten (statistische Einheiten) Merkmale Ausprägungen Beobachtungs- / Stichprobenumfang Beobachtungswerte / Stichprobenwerte Urliste

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 11

Typen von Merkmalen (Skalenarten)

Skalenarten

Nominalskala

Ordinalskala

Intervallskala

TU Dresden

Verhältnisskala

MMST © Urbas, Pfeffer 2011-2014

Kardinalskala

Absolutskala

Folie Nr. 12

Kardinalskala

Intervallskala

Verhältnisskala

Absolutskala

Weitere Unterteilung der Kardinalskala Intervallskala • Nullpunkt & Maßeinheit nicht eindeutig festgelegt • Beispiele: Temperatur in Celsius, Fahrenheit, Kalenderzeit

Verhältnisskala • Fester Nullpunkt • Beispiele: Länge, Masse, Dauer, Winkel, Preise, Temp. in Kelvin

Absolutskala • Einheit a priori festgelegt (natürlich gegeben) • Beispiele: Froschbevölkerung verschiedener Tümpel (F), NP keine Frösche Anzahl Personen/Hörsaal (P/H),

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 13

Beispiel: Usability Evaluation mit Studenten Statistische Fragestellung: Wie ist die Altersstruktur und Geschlecht der Versuchsteilnehmer einer Usability Evaluation am 5. Februar eines Jahres • • • •

Grundgesamtheit: Versuchsteilnehmer Stichprobenumfang: 25 Untersuchungseinheit: Student Merkmale:



Ausprägungen:



Stichprobenwerte:

TU Dresden

Alter Geschlecht

16, 17, 18, … Jahre m/w 23 Jahre, w 19 Jahre, m 35 Jahre, m

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 14

Arten der Datenerhebung Primärerhebung • • • • •

Befragung Beobachtung Automatische Erfassung Experiment …

Auch möglich: Sekundärerhebung

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 15

Häufigkeitsverteilungen 100 77 34 75 80 61 90 20 33 2 99 21 41 69 40 78 24 94 58 71 77 58 95 29 32 81 2 75 71 37 87 8 95 46 39 84 73 70 59 22 97 43 68 51 49 88 95 1 65 87 53 69 99 87 95 39 27 46 41 55 88 96 42 22 36 49 57 72

29 6 51 1 98 88 22 37 76 20 33 64 38 9 78 80 91 6 60 88 72 28 1 50 72 79 38 63 31 37 1 31 55 25

73 54 60 88 74 73 30 71 16 22 44 18 96 40 10 41 8 94 19 84 90 28 74 75 31 88 49 67 66 10 47 21 38 20

TU Dresden

87 14 9 26 86 41 94 68 100 29 1 8 91 23 85 10 44 3 98 23 61 43 19 55 14 39 61 84 76 32 78 24 29 77 8 47 94 41 61 24 40 18 29 8 32 40 11 26 18 9 45 46 33 52 66 43 82 54 74 33 1 44 65 60 11 53 72 88

9 88 86 29 9 2 74 4 33 4 27 62 8 53 1 11 42 34 51 45 82 93 99 4 66 38 37 13 7 29 35 2 7 95

76 27 40 75 64 63 17 21 49 55 68 69 72 99 5 51 73 45 25 13 18 56 46 37 46 40 66 68 57 8 18 72 7 89

54 98 41 34 49 35 32 11 46 67 7 38 57 31 28 5 5 49 40 93 41 57 96 70 91 95 70 39 66 55 1 32 3 90

34 91 70 81 32 41 99 41 40 58 33 45 26 99 64 48 81 30 74 99 77 100 16 30 70 73 11 35 11 56 83 54 69 88 7 15 25 12 53 13 93 85 13 2 14 74 86 98 6 100 46 29 29 21 92 85 21 95 56 48 7 46 5 12 53 48 73 13 70 7 40 64 52 94 23 87 76 9 46 25 87 100 15 45 86 52 93 1 23 12 70 14 26 65 16 69 35 44 24 97

56 2 76 42 30 26 25 18 88 93 36 1 100 2 90 91 85 84 67 30 73 93 65 63 35 59 40 73 71 60 83 64 14 31 48 68 69 61 52 65 13 46 39 6 91 4 60 1 77 11 76 97 23 49 49 52 42 98 36 70 16 68 2 28 7 88

22 62 59 66 88 70 81 95 100 13 19 11 81 1 98 54 35 34 36 49 2 46 44 72 61 8 97 49 65 4 81 11 67 45 54 82 74 29 28 26 57 13 6 54 47 49 92 89 59 9 27 55 88 33 78 54 56 65 5 89 34 17 89 8 28 85

87 52 69 64 76 10 35 48 11 46 14 48 7 61 58 63 13 99 37 39 91 93 1 58 43 65 8 88 69 72 13 5 60

73 8 78 32 84 87 98 95 99 15 85 39 77 18 37 68 8 9 55 60 39 13 3 75 65 81 98 17 60 61 26 98 29

87 9 1 7 48 2 58 15 22 5 85 59 54 99 50 65 23 9 7 92 7 90 33 20 58 45 23 87 27 45 68 21 82

8 71 5 30 99 43 82 44 73 39 76 35 59 30 91 29 48 46 33 80 87 97 86 38 82 6 39 26 94 84 85 69 36

15 43 3 76 94 84 80 53 82 58 6 47 66 67 57 5 97 18 24 91 73 99 7 91 90 100 30 54 43 71 59 62 95 100 45 24 19 63 87 96 80 15 32 100 3 62 40 64 89 11 48 6 79 38 18 80 74 84 26 74 92 91 93 33 97 36 87 12 74 96 39 11 59 76 75 75 93 8 13 64 47 51 23 74 41 100 42 75 1 31 100 46 20 87 17 29 52 56 34

6 79 69 23 68 52 42 19 7 54 59 65 96 94 13 89 46 49 96 10 24 12 79 80 17 66 97 45 19 22 7 16 78 65 70 27 38 53 100 51 16 33 40 31 61 23 65 9 74 71 18 91 29 39 22 27 24 79 87 46 97 67 92 73 101 71

15 82 32 95 77 20 70 88 24 31 23 97 65 51 38 15 44 81 68 23 68 50 74 77 16 69 14 72 75 22 5 42 20

MMST © Urbas, Pfeffer 2011-2014

24 44 6 20 76 38 97 12 59 1 50 37 49 40 10 93 57 83 2 64 8 1 59 93 72 85 59 4 2 30 40 34 59

100 97 44 56 77 53 8 73 69 19 93 66 81 52 57 90 21 80 70 100 65 84 51 42 74 31 39 27 90 69 85 1 7 10 37 62 47 78 36 14 52 81 27 29 35 61 17 73 67 72 59 65 4 49 72 41 6 98 87 57 49 99 33 25 77 51 43 9 30 62 64 78 7 98 83 90 92 40 90 89 23 58 46 91 17 19 94 20 31 76 6 7 53 82 88 71 59 59 31

Folie Nr. 16

Häufigkeitstabelle Beispiel: Von 20 Studenten wurden Reaktionszeiten auf einen Alarm gemessen (hypothetische Daten)

3

2

1

2

2

1

1

2

2

3

1

4

3

1

2

3

4

2

2

2

Absolute Häufigkeit: Anzahl der Beobachtungswerte mit einer bestimmten Ausprägung – h(aj)=hj Relative Häufigkeit:

h (a f (a

j

j

)

) n

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 17

Häufigkeitstabelle

Merkmal

a2

a3

a4

Ausprägung 1

2

3

4

hj 5

9

4

2

n=20

fj 0,25

0,45

0,2

0,1

Summe: 1,00

TU Dresden

a1

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 18

Empirische Verteilungsfunktion

0 F

n

(x )

F 1

j

für

x

für

a

für

a

a

j

k

1

x

a

j

1

( j

1, , k

1)

x

x Histogramm

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 22

Eigenschaften von Verteilungen Symmetrie • •

Symmetrisch (Körpergröße) Asymmetrisch (Einkommen)

Modalität • • •

Unimodal (Einkommen BRD) Bimodal (Einkommen in Stadt mit Armenviertel) Multimodal

Breite • •

Schmalgipflig (Laufzeiten Profis) Breitgipflig (Laufzeiten untrainierte Personen)

Schiefe • •

TU Dresden

Linkssteil (rechtsschief): Streckenlänge mit Auto, Bier/PartyTN Rechtssteil (linksschief): Wie schätzen Sie die Wahrscheinlichkeit ein, dass Deutschland sich für die WM 2018 qualifiziert?

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 23

Verteilungskennwerte Statistische Maßzahlen Maße der zentralen Tendenz (Lageparameter) • •

Arithmetisches Mittel, empirischer Median, Modalwert Zentrum einer Verteilung

Maße der Streuung (Dispersion) • •

Varianz, Standardabweichung, Quartilsabstand Ausmaß an Unterschiedlichkeit in einer Verteilung

Maße der Schiefe (Formparameter) •

TU Dresden

Symmetrie der Verteilung

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 24

Arithmetischer Mittelwert („Durchschnitt“) n

1 x

x n

i

i

1

• Mindestens kardinalskalierte Messwerte

Eigenschaften • Summe der Abweichungen der Messwerte vom Mittelwert ist 0 • Summe der quadrierten Abweichungen = min • Lineare Transformation der Einzelwerte führt zu gleicher Transformation beim arithmetischen Mittel

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 25

Typen von Merkmalen (Skalenarten)

Skalenarten

Nominalskala

Ordinalskala

Intervallskala

TU Dresden

Verhältnisskala

MMST © Urbas, Pfeffer 2011-2014

Kardinalskala

Absolutskala

Folie Nr. 26

Median („50%-Wert“, „Zentralwert“) • Mindestens ordinalskalierte Merkmale

*

x

*

x

n

• Der Wert xi für den gilt, dass 50% aller Werte größer und 50% kleiner sind.

n 1

2

x

Med

2

, falls

n gerade

, falls

n ungerade

2 *

x

n

1 2

n ungerade: ((n+1)/2)-ter Wert der Rangliste der Beobachtungswerte n gerade: arithmetisches Mittel des (n/2)-ten und des (n/2+1)-ten Wertes Beachte: x* -> der Größe nach geordnet (Rangliste)

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 27

Modus / Modalwert • Merkmalsausprägung xi, die am häufigsten gemessen wird • Wenig aussagekräftig bei multimodalen Verteilungen • Bereits für nominalskalierte Merkmale sinnvoll x

arg

mod

max x

h ( x ) x

i

oder auch x

TU Dresden

mod

x

j

mit

h

j

h i für

alle

i

MMST © Urbas, Pfeffer 2011-2014

1, , k

Folie Nr. 28

Zentrale Tendenz und Ausreißer Beispiel: Monatliches Budget von 30 Studenten • 29 mit Finanzbudget zwischen 400-700 €, Mittelwert ~ 550 € • Ein Student mit 5000 €

Mittelwert über alle: 700 €

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 29

Probleme mit dem arithmetischen Mittelwert bei ordinalskalierten Daten Wie würden Sie die Fachkompetenz der folgenden Politiker einschätzen? 1=niedrig, 2=eher hoch, 3=hoch, 4=sehr hoch Punktzahl:

1

2

3

4

Politiker A

16

3

6

6

Politiker B

2

26

3

0

MW(Politiker A): 2.06, MW(Politiker B): 2.03 Median(PA): 1, Median(PB): 2

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 30

Wichtigste Streuungsparameter Varianz

(mittl. quadratische Abweichung)

n

1

2

var

( x n

i

i

x )

1

Standardabweichung s

TU Dresden

var

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 31

Weitere Streuungsparameter Spannweite (Range) • R = xmax-xmin • Informationsverlust bei Ausreißern

Quartilsabstand (Interquartilbereich) • Q = Q3-Q1 = x0,75-x0,25

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 32

Box-Whisker-Plots • Kombination verschiedener Kennwerte Range Quartil Quartilsabstand

Alter boxplot(Santa,col="green", range=1)

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Ja! Folie Nr. 33

Mehrere Boxplots Benzinverbrauch von PKWs desselben Typs nach Betriebsdauer

Quelle: [1]

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 34

Korrelation – Beispiel 1 MMST-Fragen lassen sich häufig als Zusammenhangssaussagen (wenndann, jedesto) formulieren Nutzung mobiler Geräte • Wenn ein mobiles Gerät genutzt wird, dann werden weniger Fehler gemacht Merkmal A: Mobiles Gerät vs. kein Mobiles Gerät Merkmal B: Anzahl Fehler

• Wenn ein bestimmtes mobiles Gerät genutzt wird, dann werden deutlich weniger Fehler gemacht Merkmal A: verschiedene mobile Geräte Merkmal B: Anzahl Fehler

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 35

Korrelation– Beispiel 2 Selbstwirksamkeitsüberzeugung korreliert mit Lerngeschwindigkeit • Je höher die Selbstwirksamkeitsüberzeugung, desto schneller wird gelernt (weniger Fehler) Merkmal A: Selbstwirksamkeitsüberzeugung Merkmal B: Lerngeschwindigkeit

In allen Beispielen werden Merkmale in Beziehung gesetzt TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 36

Möglichkeiten zur Analyse des Zusammenhangs Mittelwertvergleich

• Unterscheiden sich Gruppen hinsichtlich der durchschnittlichen Ausprägung eines Merkmals?

Zusammenhangsanalyse (Korrelationsanalyse)

• Gehen hohe/niedrige Werte in einem Merkmal mit hohen/niedrigen Werten eines anderen Merkmals einher?

Regressionsanalyse

• Wie lässt sich ein Merkmal X aus einem korrelierten Merkmal Y am besten vorhersagen? • Welche Transformation der x-Werte führt zu einer möglichst präzisen Schätzung der y-Werte?

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 37

Korrelationsrechnung Gesucht: Maß für Stärke eines linearen Zusammenhangs zwischen zwei Größen

„Wie stark spiegeln sich Veränderungen in einem Merkmal in einem anderen wider?“ Ansätze: • Zur Anschauung: Fechners Korrelationsindex rF • Kovarianz (zentrales Produktmoment): cov(), sxy • Korrelationskoeffizient r

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 38

Pearsons Korrelationskoeffizient Normierung durch Produkt der Standardabweichungen COV

( x, y )

r sxs

y

Invariant ggü. Lineartransformation • r = -1 : perfekt negativ linearer Zusammenhang • r ~ 0 : kein linearer Zusammenhang (X,Y müssen dennoch nicht unabhängig sein!) • r =+1 : perfekt positiv linearer Zusammenhang

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 41

Scatterplots zu Korrelationskoeffizienten

a)

b)

c)

Quelle: [1] TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 42

Ungewöhnliche Scatterplots zu Korrelationskoeffizienten

a)

b)

c)

Quelle: [1] TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 43

Lineare Regression

Quelle: [1] TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 44

Abschließende Hinweise Ergebnisse der hier berichteten Verfahren haben nur Gültigkeit für die Stichprobe

Beispiel: Experiment mit 10 Probanden • • •

Merkmal 1: Verschiedene HMIs Merkmal 2: Effizienz r=0.3

Falsch: •

HMI-Varianten und Effizienz korrelieren zu r =0.3

Richtig: •

TU Dresden

In dieser Untersuchung mit diesen Probanden korrelieren die HMI-Varianten und die Effizienz zu r=0.3

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 46

Zusammenfassung Statistik in der MMST • • •

Anwendungsgebiete: Evaluationen, Data Mining Werkzeuge: R, SPSS, Statistica und viele andere Abgrenzung der deskriptiven zur induktiven Statistik

Einführung in die deskriptive Statistik • • • • • • •

TU Dresden

Die Skalenart entscheidet häufig darüber, welches statistische Verfahren überhaupt sinnvoll anwendbar ist Deskriptive Kennwerte geben einen schnellen Überblick über grundlegende Eigenschaften einer Verteilungsfunktion Berechnung verschiedener Kennwerte Gefahren: Nicht alle Kennwerte sind immer sinnvoll Grafische Darstellungen ermöglichen es, Sachverhalte schnell zu erkennen, ohne Zahlen erfassen und Werte miteinander vergleichen zu müssen Ab zwei verbundenen Messgrößen kann die Korrelation von Merkmalen betrachtet werden Die lineare Regression wird verwendet um ein Merkmal Y aus einem korrelierten Merkmal X vorherzusagen

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 47

Literatur Einführung in die Statistik •

[1] Bankhofer U., Vogel J. (2008). Datenanalyse und Statistik. Gabler, Wiesbaden.



[2] Wirtz, M., Nachtigall, Ch. (2006). Deskriptive Statistik. Juventa, Weinheim.



[3] Bortz, J., Döring, N. (2006). Forschungsmethoden und Evaluation. Springer, Berlin.

Einführung R •

[4] Dalgaard, P. (2008, 2nd. Ed). Introductory Statistics with R. Springer, Berlin. http://www.biostat.ku.dk/~pd/ISwR.html.



[5] Adler, J. (2009). R in a Nutshell. O‘Reilly, Sebastopol(CA).

Weiterführendes Material •

[6] Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.



[7] Sarris, V., & Reiß, S. (2005). Kurzer Leitfaden der Experimentalpsychologie. Pearson Studium.

TU Dresden

MMST © Urbas, Pfeffer 2011-2014

Folie Nr. 48