Statistische Methoden in der MMST: Deskriptive Statistik
VL MMS Wintersemester 2013/14 Professur für Prozessleittechnik L. Urbas; J. Pfeffer
Ziele und Inhalt Statistik in der MMST •
Anwendungsgebiete
•
Werkzeuge
• • • • • • • •
Typen von Messgrößen / Skalen Deskriptive Kennwerte Häufigkeitsverteilungen Empirische Verteilungsfunktion Verteilungsarten Verteilungskennwerte Korrelation von Merkmalen Lineare Regression
Evaluationen Data Mining
Einführung in die deskriptive Statistik
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 2
Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik
Statistik in der MMST
S5 - Datenanalyse Versuchsdurchführung 4 Versuchsaufbau
3 5
Versuchsplan
2
Auswertung (Datenanalyse)
Fragen 6 1
Schlussfolgerungen Antworten
Hypothese Problem TU Dresden
MMST © Urbas, Pfeffer 2011-2014
[nach Sarris 2005, S.44]
Folie Nr. 4
Statistik in der MMST Anwendungsgebiete • Evaluationen mit empirischen Methoden • Data Mining
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 5
Evaluation mittels Stichproben Stichprobenziehung
Beschreibende Statistik Inferenzstatistischer Schluss Population
TU Dresden
Stichprobenmitglieder
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 6
Teilbereiche der Statistik
Statistik
Beschreibende Statistik
TU Dresden
Explorative Statistik
MMST © Urbas, Pfeffer 2011-2014
Schließende Statistik
Folie Nr. 7
Werkzeuge • • • •
TU Dresden
SPSS Statistics STATISTICA R …
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 8
Elektrotechnik und Informationstechnik, Institut für Automatisierungstechnik, Professur für Prozessleittechnik
Einführung in die deskriptive Statistik
Übersicht der Themengebiete Grundbegriffe Skalenarten (Typen von Merkmalen) •
Nominal, Ordinal, Kardinal
Datenerhebung Tabellarische & grafische Analyse • • •
Häufigkeitsverteilung diskreter Daten Empirische Verteilungsfunktion Histogramme
Verteilungskennwerte / statistische Maßzahlen • •
zentrale Tendenz, Streuung, Schiefe Boxplots
Korrelation zweier Merkmale Lineare Regression
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 10
Grundbegriffe • • • • • • •
TU Dresden
Grundgesamtheit Untersuchungseinheiten (statistische Einheiten) Merkmale Ausprägungen Beobachtungs- / Stichprobenumfang Beobachtungswerte / Stichprobenwerte Urliste
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 11
Typen von Merkmalen (Skalenarten)
Skalenarten
Nominalskala
Ordinalskala
Intervallskala
TU Dresden
Verhältnisskala
MMST © Urbas, Pfeffer 2011-2014
Kardinalskala
Absolutskala
Folie Nr. 12
Kardinalskala
Intervallskala
Verhältnisskala
Absolutskala
Weitere Unterteilung der Kardinalskala Intervallskala • Nullpunkt & Maßeinheit nicht eindeutig festgelegt • Beispiele: Temperatur in Celsius, Fahrenheit, Kalenderzeit
Verhältnisskala • Fester Nullpunkt • Beispiele: Länge, Masse, Dauer, Winkel, Preise, Temp. in Kelvin
Absolutskala • Einheit a priori festgelegt (natürlich gegeben) • Beispiele: Froschbevölkerung verschiedener Tümpel (F), NP keine Frösche Anzahl Personen/Hörsaal (P/H),
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 13
Beispiel: Usability Evaluation mit Studenten Statistische Fragestellung: Wie ist die Altersstruktur und Geschlecht der Versuchsteilnehmer einer Usability Evaluation am 5. Februar eines Jahres • • • •
Grundgesamtheit: Versuchsteilnehmer Stichprobenumfang: 25 Untersuchungseinheit: Student Merkmale:
•
Ausprägungen:
•
Stichprobenwerte:
TU Dresden
Alter Geschlecht
16, 17, 18, … Jahre m/w 23 Jahre, w 19 Jahre, m 35 Jahre, m
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 14
Arten der Datenerhebung Primärerhebung • • • • •
Befragung Beobachtung Automatische Erfassung Experiment …
Auch möglich: Sekundärerhebung
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 15
Häufigkeitsverteilungen 100 77 34 75 80 61 90 20 33 2 99 21 41 69 40 78 24 94 58 71 77 58 95 29 32 81 2 75 71 37 87 8 95 46 39 84 73 70 59 22 97 43 68 51 49 88 95 1 65 87 53 69 99 87 95 39 27 46 41 55 88 96 42 22 36 49 57 72
29 6 51 1 98 88 22 37 76 20 33 64 38 9 78 80 91 6 60 88 72 28 1 50 72 79 38 63 31 37 1 31 55 25
73 54 60 88 74 73 30 71 16 22 44 18 96 40 10 41 8 94 19 84 90 28 74 75 31 88 49 67 66 10 47 21 38 20
TU Dresden
87 14 9 26 86 41 94 68 100 29 1 8 91 23 85 10 44 3 98 23 61 43 19 55 14 39 61 84 76 32 78 24 29 77 8 47 94 41 61 24 40 18 29 8 32 40 11 26 18 9 45 46 33 52 66 43 82 54 74 33 1 44 65 60 11 53 72 88
9 88 86 29 9 2 74 4 33 4 27 62 8 53 1 11 42 34 51 45 82 93 99 4 66 38 37 13 7 29 35 2 7 95
76 27 40 75 64 63 17 21 49 55 68 69 72 99 5 51 73 45 25 13 18 56 46 37 46 40 66 68 57 8 18 72 7 89
54 98 41 34 49 35 32 11 46 67 7 38 57 31 28 5 5 49 40 93 41 57 96 70 91 95 70 39 66 55 1 32 3 90
34 91 70 81 32 41 99 41 40 58 33 45 26 99 64 48 81 30 74 99 77 100 16 30 70 73 11 35 11 56 83 54 69 88 7 15 25 12 53 13 93 85 13 2 14 74 86 98 6 100 46 29 29 21 92 85 21 95 56 48 7 46 5 12 53 48 73 13 70 7 40 64 52 94 23 87 76 9 46 25 87 100 15 45 86 52 93 1 23 12 70 14 26 65 16 69 35 44 24 97
56 2 76 42 30 26 25 18 88 93 36 1 100 2 90 91 85 84 67 30 73 93 65 63 35 59 40 73 71 60 83 64 14 31 48 68 69 61 52 65 13 46 39 6 91 4 60 1 77 11 76 97 23 49 49 52 42 98 36 70 16 68 2 28 7 88
22 62 59 66 88 70 81 95 100 13 19 11 81 1 98 54 35 34 36 49 2 46 44 72 61 8 97 49 65 4 81 11 67 45 54 82 74 29 28 26 57 13 6 54 47 49 92 89 59 9 27 55 88 33 78 54 56 65 5 89 34 17 89 8 28 85
87 52 69 64 76 10 35 48 11 46 14 48 7 61 58 63 13 99 37 39 91 93 1 58 43 65 8 88 69 72 13 5 60
73 8 78 32 84 87 98 95 99 15 85 39 77 18 37 68 8 9 55 60 39 13 3 75 65 81 98 17 60 61 26 98 29
87 9 1 7 48 2 58 15 22 5 85 59 54 99 50 65 23 9 7 92 7 90 33 20 58 45 23 87 27 45 68 21 82
8 71 5 30 99 43 82 44 73 39 76 35 59 30 91 29 48 46 33 80 87 97 86 38 82 6 39 26 94 84 85 69 36
15 43 3 76 94 84 80 53 82 58 6 47 66 67 57 5 97 18 24 91 73 99 7 91 90 100 30 54 43 71 59 62 95 100 45 24 19 63 87 96 80 15 32 100 3 62 40 64 89 11 48 6 79 38 18 80 74 84 26 74 92 91 93 33 97 36 87 12 74 96 39 11 59 76 75 75 93 8 13 64 47 51 23 74 41 100 42 75 1 31 100 46 20 87 17 29 52 56 34
6 79 69 23 68 52 42 19 7 54 59 65 96 94 13 89 46 49 96 10 24 12 79 80 17 66 97 45 19 22 7 16 78 65 70 27 38 53 100 51 16 33 40 31 61 23 65 9 74 71 18 91 29 39 22 27 24 79 87 46 97 67 92 73 101 71
15 82 32 95 77 20 70 88 24 31 23 97 65 51 38 15 44 81 68 23 68 50 74 77 16 69 14 72 75 22 5 42 20
MMST © Urbas, Pfeffer 2011-2014
24 44 6 20 76 38 97 12 59 1 50 37 49 40 10 93 57 83 2 64 8 1 59 93 72 85 59 4 2 30 40 34 59
100 97 44 56 77 53 8 73 69 19 93 66 81 52 57 90 21 80 70 100 65 84 51 42 74 31 39 27 90 69 85 1 7 10 37 62 47 78 36 14 52 81 27 29 35 61 17 73 67 72 59 65 4 49 72 41 6 98 87 57 49 99 33 25 77 51 43 9 30 62 64 78 7 98 83 90 92 40 90 89 23 58 46 91 17 19 94 20 31 76 6 7 53 82 88 71 59 59 31
Folie Nr. 16
Häufigkeitstabelle Beispiel: Von 20 Studenten wurden Reaktionszeiten auf einen Alarm gemessen (hypothetische Daten)
3
2
1
2
2
1
1
2
2
3
1
4
3
1
2
3
4
2
2
2
Absolute Häufigkeit: Anzahl der Beobachtungswerte mit einer bestimmten Ausprägung – h(aj)=hj Relative Häufigkeit:
h (a f (a
j
j
)
) n
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 17
Häufigkeitstabelle
Merkmal
a2
a3
a4
Ausprägung 1
2
3
4
hj 5
9
4
2
n=20
fj 0,25
0,45
0,2
0,1
Summe: 1,00
TU Dresden
a1
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 18
Empirische Verteilungsfunktion
0 F
n
(x )
F 1
j
für
x
für
a
für
a
a
j
k
1
x
a
j
1
( j
1, , k
1)
x
x Histogramm
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 22
Eigenschaften von Verteilungen Symmetrie • •
Symmetrisch (Körpergröße) Asymmetrisch (Einkommen)
Modalität • • •
Unimodal (Einkommen BRD) Bimodal (Einkommen in Stadt mit Armenviertel) Multimodal
Breite • •
Schmalgipflig (Laufzeiten Profis) Breitgipflig (Laufzeiten untrainierte Personen)
Schiefe • •
TU Dresden
Linkssteil (rechtsschief): Streckenlänge mit Auto, Bier/PartyTN Rechtssteil (linksschief): Wie schätzen Sie die Wahrscheinlichkeit ein, dass Deutschland sich für die WM 2018 qualifiziert?
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 23
Verteilungskennwerte Statistische Maßzahlen Maße der zentralen Tendenz (Lageparameter) • •
Arithmetisches Mittel, empirischer Median, Modalwert Zentrum einer Verteilung
Maße der Streuung (Dispersion) • •
Varianz, Standardabweichung, Quartilsabstand Ausmaß an Unterschiedlichkeit in einer Verteilung
Maße der Schiefe (Formparameter) •
TU Dresden
Symmetrie der Verteilung
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 24
Arithmetischer Mittelwert („Durchschnitt“) n
1 x
x n
i
i
1
• Mindestens kardinalskalierte Messwerte
Eigenschaften • Summe der Abweichungen der Messwerte vom Mittelwert ist 0 • Summe der quadrierten Abweichungen = min • Lineare Transformation der Einzelwerte führt zu gleicher Transformation beim arithmetischen Mittel
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 25
Typen von Merkmalen (Skalenarten)
Skalenarten
Nominalskala
Ordinalskala
Intervallskala
TU Dresden
Verhältnisskala
MMST © Urbas, Pfeffer 2011-2014
Kardinalskala
Absolutskala
Folie Nr. 26
Median („50%-Wert“, „Zentralwert“) • Mindestens ordinalskalierte Merkmale
*
x
*
x
n
• Der Wert xi für den gilt, dass 50% aller Werte größer und 50% kleiner sind.
n 1
2
x
Med
2
, falls
n gerade
, falls
n ungerade
2 *
x
n
1 2
n ungerade: ((n+1)/2)-ter Wert der Rangliste der Beobachtungswerte n gerade: arithmetisches Mittel des (n/2)-ten und des (n/2+1)-ten Wertes Beachte: x* -> der Größe nach geordnet (Rangliste)
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 27
Modus / Modalwert • Merkmalsausprägung xi, die am häufigsten gemessen wird • Wenig aussagekräftig bei multimodalen Verteilungen • Bereits für nominalskalierte Merkmale sinnvoll x
arg
mod
max x
h ( x ) x
i
oder auch x
TU Dresden
mod
x
j
mit
h
j
h i für
alle
i
MMST © Urbas, Pfeffer 2011-2014
1, , k
Folie Nr. 28
Zentrale Tendenz und Ausreißer Beispiel: Monatliches Budget von 30 Studenten • 29 mit Finanzbudget zwischen 400-700 €, Mittelwert ~ 550 € • Ein Student mit 5000 €
Mittelwert über alle: 700 €
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 29
Probleme mit dem arithmetischen Mittelwert bei ordinalskalierten Daten Wie würden Sie die Fachkompetenz der folgenden Politiker einschätzen? 1=niedrig, 2=eher hoch, 3=hoch, 4=sehr hoch Punktzahl:
1
2
3
4
Politiker A
16
3
6
6
Politiker B
2
26
3
0
MW(Politiker A): 2.06, MW(Politiker B): 2.03 Median(PA): 1, Median(PB): 2
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 30
Wichtigste Streuungsparameter Varianz
(mittl. quadratische Abweichung)
n
1
2
var
( x n
i
i
x )
1
Standardabweichung s
TU Dresden
var
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 31
Weitere Streuungsparameter Spannweite (Range) • R = xmax-xmin • Informationsverlust bei Ausreißern
Quartilsabstand (Interquartilbereich) • Q = Q3-Q1 = x0,75-x0,25
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 32
Box-Whisker-Plots • Kombination verschiedener Kennwerte Range Quartil Quartilsabstand
Alter boxplot(Santa,col="green", range=1)
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Ja! Folie Nr. 33
Mehrere Boxplots Benzinverbrauch von PKWs desselben Typs nach Betriebsdauer
Quelle: [1]
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 34
Korrelation – Beispiel 1 MMST-Fragen lassen sich häufig als Zusammenhangssaussagen (wenndann, jedesto) formulieren Nutzung mobiler Geräte • Wenn ein mobiles Gerät genutzt wird, dann werden weniger Fehler gemacht Merkmal A: Mobiles Gerät vs. kein Mobiles Gerät Merkmal B: Anzahl Fehler
• Wenn ein bestimmtes mobiles Gerät genutzt wird, dann werden deutlich weniger Fehler gemacht Merkmal A: verschiedene mobile Geräte Merkmal B: Anzahl Fehler
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 35
Korrelation– Beispiel 2 Selbstwirksamkeitsüberzeugung korreliert mit Lerngeschwindigkeit • Je höher die Selbstwirksamkeitsüberzeugung, desto schneller wird gelernt (weniger Fehler) Merkmal A: Selbstwirksamkeitsüberzeugung Merkmal B: Lerngeschwindigkeit
In allen Beispielen werden Merkmale in Beziehung gesetzt TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 36
Möglichkeiten zur Analyse des Zusammenhangs Mittelwertvergleich
• Unterscheiden sich Gruppen hinsichtlich der durchschnittlichen Ausprägung eines Merkmals?
Zusammenhangsanalyse (Korrelationsanalyse)
• Gehen hohe/niedrige Werte in einem Merkmal mit hohen/niedrigen Werten eines anderen Merkmals einher?
Regressionsanalyse
• Wie lässt sich ein Merkmal X aus einem korrelierten Merkmal Y am besten vorhersagen? • Welche Transformation der x-Werte führt zu einer möglichst präzisen Schätzung der y-Werte?
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 37
Korrelationsrechnung Gesucht: Maß für Stärke eines linearen Zusammenhangs zwischen zwei Größen
„Wie stark spiegeln sich Veränderungen in einem Merkmal in einem anderen wider?“ Ansätze: • Zur Anschauung: Fechners Korrelationsindex rF • Kovarianz (zentrales Produktmoment): cov(), sxy • Korrelationskoeffizient r
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 38
Pearsons Korrelationskoeffizient Normierung durch Produkt der Standardabweichungen COV
( x, y )
r sxs
y
Invariant ggü. Lineartransformation • r = -1 : perfekt negativ linearer Zusammenhang • r ~ 0 : kein linearer Zusammenhang (X,Y müssen dennoch nicht unabhängig sein!) • r =+1 : perfekt positiv linearer Zusammenhang
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 41
Scatterplots zu Korrelationskoeffizienten
a)
b)
c)
Quelle: [1] TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 42
Ungewöhnliche Scatterplots zu Korrelationskoeffizienten
a)
b)
c)
Quelle: [1] TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 43
Lineare Regression
Quelle: [1] TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 44
Abschließende Hinweise Ergebnisse der hier berichteten Verfahren haben nur Gültigkeit für die Stichprobe
Beispiel: Experiment mit 10 Probanden • • •
Merkmal 1: Verschiedene HMIs Merkmal 2: Effizienz r=0.3
Falsch: •
HMI-Varianten und Effizienz korrelieren zu r =0.3
Richtig: •
TU Dresden
In dieser Untersuchung mit diesen Probanden korrelieren die HMI-Varianten und die Effizienz zu r=0.3
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 46
Zusammenfassung Statistik in der MMST • • •
Anwendungsgebiete: Evaluationen, Data Mining Werkzeuge: R, SPSS, Statistica und viele andere Abgrenzung der deskriptiven zur induktiven Statistik
Einführung in die deskriptive Statistik • • • • • • •
TU Dresden
Die Skalenart entscheidet häufig darüber, welches statistische Verfahren überhaupt sinnvoll anwendbar ist Deskriptive Kennwerte geben einen schnellen Überblick über grundlegende Eigenschaften einer Verteilungsfunktion Berechnung verschiedener Kennwerte Gefahren: Nicht alle Kennwerte sind immer sinnvoll Grafische Darstellungen ermöglichen es, Sachverhalte schnell zu erkennen, ohne Zahlen erfassen und Werte miteinander vergleichen zu müssen Ab zwei verbundenen Messgrößen kann die Korrelation von Merkmalen betrachtet werden Die lineare Regression wird verwendet um ein Merkmal Y aus einem korrelierten Merkmal X vorherzusagen
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 47
Literatur Einführung in die Statistik •
[1] Bankhofer U., Vogel J. (2008). Datenanalyse und Statistik. Gabler, Wiesbaden.
•
[2] Wirtz, M., Nachtigall, Ch. (2006). Deskriptive Statistik. Juventa, Weinheim.
•
[3] Bortz, J., Döring, N. (2006). Forschungsmethoden und Evaluation. Springer, Berlin.
Einführung R •
[4] Dalgaard, P. (2008, 2nd. Ed). Introductory Statistics with R. Springer, Berlin. http://www.biostat.ku.dk/~pd/ISwR.html.
•
[5] Adler, J. (2009). R in a Nutshell. O‘Reilly, Sebastopol(CA).
Weiterführendes Material •
[6] Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.
•
[7] Sarris, V., & Reiß, S. (2005). Kurzer Leitfaden der Experimentalpsychologie. Pearson Studium.
TU Dresden
MMST © Urbas, Pfeffer 2011-2014
Folie Nr. 48