Skript zur Vorlesung Statistik

Skript zur Vorlesung Statistik Dietrich Baumgarten « 22. Oktober 2012 Inhaltsverzeichnis 1 Grundlagen 1 1.1 Übersicht und Lernziele . . . . . ...

Author: Reinhold Hummel

3 downloads 4 Views 911KB Size

Report

Download PDF

Recommend Documents

Skript zur Vorlesung Statistik

Skript zur Vorlesung. Mathematische Statistik

Skript zur Vorlesung Statistik 2

Skript zur Vorlesung Nanoelektronik

Skript zur Vorlesung

Skript zur Vorlesung Wertpapieranalyse

Skript zur Vorlesung OCI

Vorbereitendes Skript zur Vorlesung

Skript zur Vorlesung. Datenbanksystemen

Willkommen zur Vorlesung Statistik

Skript zur Vorlesung Baustatik II

Statistische Biophysik Skript zur Vorlesung

Skript Vorlesung zur Statistischen Mechanik

Skript zur Vorlesung Finite Elemente

Willkommen zur Vorlesung Statistik (Master)

Aufgabensammlung zur Vorlesung Statistik II

Staatsrecht II (Grundrechte) Sommersemester Skript zur Vorlesung

Skript zur Vorlesung Simulation dynamischer Systeme

Skript zur Vorlesung Modulformen (2std.) Sommersemester 2017

HOLZ: STRUKTUR UND EIGENSCHAFTEN (Skript zur Vorlesung)

Skript zur Vorlesung. Darstellungstheorie endlicher Gruppen

Geometrie I. Skript zur Vorlesung. Teil 1

Skript zur Vorlesung am 11. Juni 2007

R-Hinweise zur Vorlesung Multivariate Statistik

Skript zur Vorlesung Statistik Dietrich Baumgarten

«

22. Oktober 2012

Inhaltsverzeichnis 1 Grundlagen

1

1.1

Übersicht und Lernziele

. . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Zum Begri Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.3

Wahrscheinlichkeitstheorie, beschreibende und schlieÿende Statistik

. . .

2

. . . . . . . . . . . . . . . .

2

. . . . . . . . . . . . . . .

3

. . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.4

Gliederung einer statistischen Untersuchung 1.4.1

Beispiele statistischer Untersuchungen

1.5

Statistische Grundbegrie

1.6

Bestands- und Bewegungsmassen

. . . . . . . . . . . . . . . . . . . . . .

4

1.7

Einteilung von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.8

Messen und Skalenniveaus

6

1.9

Fragebögen

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.10 Die Datenmatrix 1.11 Aufgaben

. . . . . . . . . . . . . . . . . . . . . . . . . .

7

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2 Darstellung univariater Daten

11

2.1

Übersicht und Lernziele

. . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2

Zum Begri univariate Datenanalyse

. . . . . . . . . . . . . . . . . . . .

11

2.3

Die vier Grundformen von Datensätzen . . . . . . . . . . . . . . . . . . .

11

2.4

Absolute und relative Häugkeiten

13

2.5

Kumulierte absolute und relative Häugkeiten

2.6

Häugkeitstabellen

2.7

Stab- Säulen- und Balkendiagramme

2.8

Empirische Verteilungsfunktion

2.9

2.9.1

. . . . . . . . . . . . . . . . . . . . .

18

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

. . . . . . . . . . . . . . . . . . . . .

11

. . . . . . . . . . . . . . .

13

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

. . . . . . . . . . . . . . . . . . . .

14

. . . . . . . . . . . . . . . . . . . . . . .

15

Der Sonderfall nominaler Merkmale . . . . . . . . . . . . . . . . . . . . .

17

Kreis- und Säulendiagramm

2.10 Aufgaben

3 Maÿzahlen einer Verteilung

21

3.1

Übersicht und Lernziele

. . . . . . . . . . . . . . . . . . . . . . . . . . .

21

3.2

Denition und Einteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

3.3

Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

3.4 3.5

Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

3.4.1

Der Median metrischer Merkmale . . . . . . . . . . . . . . . . . .

23

Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

3.5.1

Median und Quantile aus einer Häugkeitstabelle

3.5.2

Spannweite und Interquartilsabstand

. . . . . . . . .

25

. . . . . . . . . . . . . . . .

26

iii

Inhaltsverzeichnis 3.6

Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1

3.7 3.8

Eine Variante des Boxplots . . . . . . . . . . . . . . . . . . . . . .

27

Das arithmetische Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

3.7.1

30

Eigenschaften des arithmetischen Mittels . . . . . . . . . . . . . .

Streuungsmaÿe mit Bezug auf den Mittelwert

. . . . . . . . . . . . . . .

30

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

3.8.1

Die Varianz

3.8.2

Stichprobenvarianz

. . . . . . . . . . . . . . . . . . . . . . . . . .

32

3.8.3

Die Standardabweichung . . . . . . . . . . . . . . . . . . . . . . .

33

3.8.4

Der Variationskoezient . . . . . . . . . . . . . . . . . . . . . . .

33

3.8.5

Arbeitstabelle zur Berechnung . . . . . . . . . . . . . . . . . . . .

34

Mittlere absolute Abstände . . . . . . . . . . . . . . . . . . . . . . . . . .

35

3.10 Transformationseigenschaften der Maÿzahlen . . . . . . . . . . . . . . . .

36

3.11 Anforderungen an Maÿzahlen metrischer Merkmale

. . . . . . . . . . . .

36

3.12 Abschlieÿendes Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

3.9

3.13 Excel-Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.14 Aufgaben

39

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Ausgewählte Lösungen

iv

27

43

4.1

Zu Kapitel 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

4.2

Zu Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

4.3

Zu Kapitel 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

Abbildungsverzeichnis 2.1

Stabdiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

2.2

Empirische Verteilungsfunktion

. . . . . . . . . . . . . . . . . . . . . . .

16

2.3

Häugkeitstabelle und Säulendiagramm . . . . . . . . . . . . . . . . . . .

18

2.4

Kreis- und Säulendiagramm im Vergleich . . . . . . . . . . . . . . . . . .

19

3.1

Einfacher Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

3.2

Eine weitere Form des Boxplots

. . . . . . . . . . . . . . . . . . . . . . .

28

3.3

Arbeitstabelle für einige Maÿzahlen . . . . . . . . . . . . . . . . . . . . .

35

3.4

Arbeitstabelle für einige Maÿzahlen . . . . . . . . . . . . . . . . . . . . .

38

4.1

Maÿzahlen der Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

4.2

Häugkeitstabelle, Diagramme und Maÿzahlen der Verteilung.

4.3

Häugkeitstabelle und Diagramme

4.4

Boxplot zu den Daten des Beispiels 2.1 . . . . . . . . . . . . . . . . . . .

49

4.5

Einfacher Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

4.6

Variante des Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

4.7

Häugkeitstabelle, Diagramme und Maÿzahlen.

50

. . . . . .

47

. . . . . . . . . . . . . . . . . . . . .

48

. . . . . . . . . . . . . .

v

Tabellenverzeichnis 1.1

Eine Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1

Liste der Weltmeister im Fuÿball

. . . . . . . . . . . . . . . . . . . . . .

17

3.1

Anzahl von Cocktails . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

3.2

Benötigte Werte für den Boxplot

28

. . . . . . . . . . . . . . . . . . . . . .

8

vii

1 Grundlagen 1.1 Übersicht und Lernziele In diesem Kapitel werden folgende Themen behandelt:

- Der Unterschied zwischen schlieÿender und beschreibender Statistik;

- Grundbegrie der Statistik wie Grundgesamtheit, Stichprobe und Merkmalsträger;

- Die vier Arten von Merkmalen;

- Darstellung der Antworten einer Befragung in einer Datenmatrix.

1.2 Zum Begri Statistik Statistik

geht auf das neulateinische Wort status zurück, dessen Bedeutungen Staat

und Zustand sind. Statistik betraf ursprünglich alle Daten, die der Verwaltung bei der Entscheidungsndung behilich sein konnten, etwa Daten über die Bevölkerung (Geburten, Eheschlieÿungen und Todesfälle), Handel und Gewerbe sowie Ein- und Ausgaben des Staates. Datensammlungen dieser Art werden heute als amtliche Statistik bezeichnet, wofür staatliche Organisationseinheiten wie etwa das Statistische Bundesamt zuständig sind. Inzwischen sammeln aber auch Unternehmen und andere Organisationen Daten über Kunden, Mitarbeiter oder Geschäftspartner. Die erste Bedeutung des Begris Statistik ist also die Zusammenstellung von Zahlen und Daten über bestimmte Gesamtheiten. Weiterhin versteht man unter Statistik alle Methoden zur Analyse von variierenden Eigenschaften von Objekten einer fest umrissenen Gesamtheit. Die Unterschiede bei den Ausprägungen der Eigenschaften müssen dabei zumindest teilweise zufälliger Natur sein. Dabei muss zunächst eine präzise Frage gestellt und in ein Modell verwandelt werden. Danach erfolgt die Erhebung von Daten und deren Auswertung bezüglich der Fragestellung. Halten wir fest: Der Begri Statistik bezeichnet sowohl Datenbestände und deren Erhebung wie Bevölkerungsstatistik als auch Methoden zur Untersuchung von Massenphänomenen, die unter Einuss des Zufalls entstanden sind, durch die Auswertung bestehender oder extra zu diesem Zweck erhobener Daten.

1

1 Grundlagen

1.3 Wahrscheinlichkeitstheorie, beschreibende und schlieÿende Statistik In der Statistik, geht es um das Problem, Beobachtungen, die unter Einuss des Zufalls entstanden sind, zu analysieren. Die

beschreibende oder deskriptive Statistik erfasst und bereitet Daten auf und verdich-

tet sie in Form von Tabellen, graphischen Darstellungen und Kennzahlen wie Mittelwert und Varianz. Die beschreibende Statistik beschäftigt sich nur mit den vorliegenden Daten, daher beziehen sich alle Aussagen auch nur auf diese Daten. Die

schlieÿende oder induktive Statistik

stellt Methoden zur Verfügung, die einen

Schluss von Teilerhebungen auf Grundgesamtheiten erlauben. Meinungsforschungsinstitute benötigen die schlieÿende Statistik, um die Ergebnisse von Umfragen auf die Gesamtheit zu übertragen. Da statistische Schlüsse auf den Daten einer Stichprobe genannten Auswahl beruhen, sind Schlussfolgerungen auf die Gesamtheit möglicherweise fehlerhaft. Zu einem Verfahren der schlieÿenden Statistik gehören Abschätzungen der Fehler. Diese liefert die

Wahrscheinlichkeitstheorie ,

ein Spezialgebiet der Mathematik

zur Beschreibung zufallsabhängiger Vorgänge. Die Wahrscheinlichkeitsrechnung entstand aus Untersuchungen von Glücksspielen und basierte zunächst auf rein kombinatorischen Methoden. Die moderne Wahrscheinlichkeitstheorie beruht auf einem für Nichtmathematiker kaum verständlichen axiomatischen Regelwerk des russischen Mathematikers Kolmogorov.

1.4 Gliederung einer statistischen Untersuchung Eine statistische Untersuchung besteht aus mehreren Schritten. (1)

Festlegung der Fragestellung und der Grundgesamtheit Statistische Untersuchungen sollen Vermutungen bestätigen oder widerlegen, daher müssen zunächst die Objekte der Untersuchung genau festgelegt werden. Diese Objekte, z.B. die Wahlberechtigten zur Bundestagswahl 2009, bilden die sogenannte

Grundgesamtheit . (2)

Voll- oder Teilerhebung

Vollerhebung werden alle Objekte der Grundgesamtheit untersucht, bei einer Teilerhebung dagegen nur ein Teil der Grundgesamtheit, eine sogenannte Stichprobe . Vollerhebungen sind bei groÿen Grundgesamtheiten oft aus Kosten-

Bei einer

gründen nicht sinnvoll, manchmal sogar prinzipiell unmöglich. Bei einer Teilerhebung hat die richtige Auswahl der Stichprobe eine groÿe Bedeutung für die Übertragung der gewonnenen Ergebnisse auf die Grundgesamtheit, im Beispiel der Bundestagswahl muss eine Teilerhebung alle gesellschaftlichen Strömungen der wahlberechtigten Bevölkerung widerspiegeln. Man kann daher die Stichprobe bewusst nach bestimmten Kriterien aussuchen, oder aber die Auswahl dem Zufall überlassen. Eine hinreichend groÿe Zufallsstichprobe wird in der Regel durchaus repräsentativ für die Grundgesamtheit sein.

2

1.5 Statistische Grundbegrie (3)

Datenerhebung Hat man Grundgesamtheit und Stichprobe gewählt, stellt sich das Problem der Datenerhebung. Man kann Daten durch

Beobachtung

und durch

Befragung

gewin-

nen. Daten können durch schriftliche oder mündliche Befragung erhoben werden, wobei die mündliche Befragung persönlich oder über Telefon erfolgen kann. Die Auswahl sollte sich danach richten, was am besten für das Ziel der Untersuchung geeignet ist. (4)

Die Datenaufbereitung und Datendarstellung Zunächst werden fehlerhafte Daten bereinigt und dann in einer Datenbank erfasst und von geeigneten Programmen wie SAS oder SPSS ausgewertet und dargestellt, etwa in Form von Tabellen, Diagrammen und Kennzahlen, also mit Verfahren der beschreibenden Statistik.

(5)

Datenanalyse Bei der Auswertung werden Methoden der schlieÿenden Statistik eingesetzt. Die schlieÿende Statistik ist stark mathematisch orientiert und beschäftigt sich damit, welche Schlüsse von einer Stichprobe auf die Grundgesamtheit möglich sind. Im Beispiel der Bundestagswahl geht es dabei um die Frage, wie gut die Stimmanteile der einzelnen Parteien durch die Stichprobe geschätzt werden. Die Angabe erfolgt meist in der Form von sogenannten Kondenzintervallen in der Form: mit einer Wahrscheinlichkeit von 99 % wird die CDU einen Stimmanteil zwischen 33 % und 36 % haben.

1.4.1 Beispiele statistischer Untersuchungen Ich gebe zur Verdeutlichung einige typische Fragen an, die mit statistischen Untersuchungen beantwortet werden können.

•

Berechnung der Anteils von derzeitigen Wählern der FDP. Die Grundgesamtheit sind hier alle Wahlberechtigten in Deutschland. Da nur amtliche Stellen diese Grundgesamtheit kennen, ist diese Frage nur über eine Stichprobe zu beantworten, die Auswertung muss mir Methoden der schlieÿenden Statistik erfolgen und wird somit fehlerhaft sein.

•

Wohnungszählung in Deutschland im Rahmen der Volkszählung 2011. Die Grundgesamtheit sind hier alle Gebäude in Deutschland. Da alle Eigentümer befragt werden und auskunftspichtig sind, liegt eine Vollerhebung vor.

•

Bestimmung des Anteils fehlerhafter Glühbirnen an einem Produktionsstandort. Auch hier kann man nur eine Teilerhebung durchführen, es sei denn, die Glühbirnen werden innerhalb der Produktion sofort getestet.

1.5 Statistische Grundbegrie Zur Beschreibung statistischer Untersuchungen werden folgende Begrie benutzt:

3

1 Grundlagen • Statistische Einheit

oder

Merkmalsträger

Dieser Begri beinhaltet Personen oder Gegenstände, aber auch Ereignisse wie Geburten oder Sterbefälle.

• Grundgesamtheit So wird die Menge der statistischen Einheiten genannt.

• Bestandsmasse Besitzen die statistischen Einheiten der Grundgesamtheit einen längeren Bestand, so spricht man von einer Bestandsmasse. Die Erfassung erfolgt zu einem bestimmten Zeitpunkt. Der Wohnungsbestand und die Einwohner einer Stadt sind typische Bestandsmassen, eine Befragung erfasst den Zustand in einem bestimmten Augenblick.

• Bewegungsmasse

oder

Ereignismasse

Die statistischen Einheiten einer Ereignismasse sind Ereignisse von kurzer Lebensdauer wie Geburten, Todesfälle oder Störfälle in einem Kraftwerk. Wegen der kurzen Lebenszeit eines Ereignisses, werden die statistischen Einheiten einer Ereignismasse über einen längeren Zeitraum hinweg erfasst.

• Merkmale Die bei einer statistischen Einheit erhobenen Eigenschaften wie Geschlecht, Alter oder Haarfarbe bei Personen, werden Merkmale genannt.

• Merkmalsausprägungen Die verschiedenen Werte, die ein Merkmal annehmen kann, werden Merkmalsausprägungen genannt. Beim Merkmal Haarfarbe beispielsweise gibt es die klassischen Ausprägungen wie blond, rot bzw. schwarzhaarig, das Geschlecht hat die beiden Ausprägungen weiblich und männlich und die Ausprägungen des Merkmals Alter einer Person sind die natürlichen Zahlen.

1.6 Bestands- und Bewegungsmassen Bei den Gesamtheiten wird zwischen Bestandsmassen und Bewegungsmassen unterschieden. Bestandsmassen werden an einem einer

Zeitspanne

Zeitpunkt, Bewegungsmassen dagegen innerhalb

erfasst. Oft korrespondieren die beiden Gesamtheiten miteinander. Die

Einwohner Heidelbergs werden am 1.1.2010 und dann wieder am 1.1.2011 gezählt, also jeweils an einem festen Zeitpunkt, daher handelt es sich um Bestandsmassen. Die Stadtverwaltung erfasst auch alle in einem Jahr erfolgten An- und Abmeldungen, sowie alle Geburten und Todesfälle. Das sind vier Bewegungsmassen, die den Unterschied zwischen den beiden Bestandsmassen erklären: Einw. 2011

4

= Einw.

2010

+ Geburten − Todesfälle + Abmeldungen − Anmeldungen

1.7 Einteilung von Merkmalen

1.7 Einteilung von Merkmalen Je nach Fragestellung können Personen, Unternehmen oder ganze Länder statistische Einheiten bilden. Wichtig ist eine räumlich, zeitlich und sachlich klar umrissene Fragestellung mit geeigneten Merkmalen. Merkmale spielen eine so bedeutende Rolle, dass die statistischen Einheiten oft auch als

Merkmalsträger bezeichnet werden. Weitere Beispiele

für Merkmale sind die Konfession mit den Ausprägungen wie RK (römisch katholisch), EKD (evangelische Kirche Deutschlands) oder andere. Bei einer Wohnung gibt es Merkmale wie Anzahl der Zimmer, Gröÿe im qm, Balkon usw. mit Ausprägungen wie 4, 80 qm und keiner. Merkmale werden mit groÿen lateinischen Buchstaben wie etwa

X

bezeichnet, die

zugehörigen Merkmalsausprägungen mit kleinen, wobei zur Unterscheidung ein Index verwendet wird, also

x 1 , x2 , x3 , . . . , x n .

Merkmale lassen sich je nach Typ der Werte ihrer Ausprägung in vier Klassen einteilen. (1)

Nominale Merkmale Nominal stammt vom lateinischen Wort nomen für Namen ab, weil die möglichen Werte der Ausprägungen nur benannt können werden, es gibt keine Maÿeinheit. Dies trit auf Merkmale wie Geschlecht mit den Ausprägungen w und m und auf Konfession mit den erwähnten Ausprägungen RK, EKD und andere zu. Bei der Erfassung werden nominale Merkmalsausprägungen meistens durch Zahlwerte kodiert, etwa 0 für w und 1 für m, das ändert aber nichts an der prinzipiell zahlenfernen Natur dieser Merkmale. Da man die Ausprägungen nur in

kategoriell

Kategorien einteilen kann, werden nominale Merkmale auch

genannt.

Wenn es für die Ausprägung eines nominalen Merkmals nur zwei mögliche Werte gibt, spricht man von einem

dichotomen ,

sonst von einem

polytomen

Merkmal.

Das Merkmal Geschlecht ist somit dichotom, während das Merkmal Nationaltät polytom ist. (2)

Ordinale Merkmale Hier lassen sich die Ausprägungen in eine Rangfolge bringen, aber man kann für die Werte und deren Abstände untereinander kein Maÿ angeben. Das trit z.B. auf Schulnoten zu, sehr gut ist besser als gut, gut besser als befriedigend, aber man kann nicht sagen, dass die Noten sehr gut und gut denselben Abstand wie die Noten gut und befriedigend haben. Auch die Werte ordinal skalierter Merkmale werden zur besseren Auswertung mit Zahlen codiert.

(3)

Metrische Merkmale Sind bei einem Merkmal die Ausprägungen Zahlen mit Einheiten, so spricht man von einem metrischen Merkmal. Hier können die Abstände zwischen den Werten sinnvoll bestimmt werden. Beispiele sind die Merkmale Gröÿe, Gewicht und Alter einer Person. Metrische Merkmale werden auch

kardinal

genannt. Metrische

Merkmale werden noch weiter unterteilt, und zwar in diskret und stetig. Das Gewicht einer Person ist ein stetiges metrisches Merkmal, da die Werte stetig über

5

1 Grundlagen ein ganzes Intervall verteilt sind. Dagegen hat das Merkmal Anzahl der Kinder nur endlich viele Werte, was man als diskret bezeichnet. Die vier Merkmalsklassen sind also nominal, ordinal, metrisch diskret und metrisch stetig, wobei statt nominal auch kategoriell und statt metrisch auch kardinal verwendet

qualitatativ zusammengefasst, die beiden metrischen Merkmale werden dagegen quantitativ genannt.

werden. Nominale und ordinale Merkmale werden unter dem Oberbegri als Fassen wir zusammen:

Sie müssen Merkmale also zunächst in qualitativ oder quantitativ einteilen und danach entscheiden, ob sich ein als qualitativ erkanntes Merkmal ordnen lässt, dann wird es ordinal und sonst nominal genannt. Bei einem quantitativen Merkmal ist zu untersuchen ob nur endlich oder abzählbar unendlich viele Werte auftreten, dann spricht man von einem diskreten metrischen Merkmal. Liegen die Werte stetig in einem ganzen Intervall verteilt, spricht man von einem stetigen metrischen Merkmal. Metrische Merkmale werden oft auch kardinale Merkmale genannt und nominale Merkmale werden manchmal als kategoriell bezeichnet. Entscheidend ist, die wesentlichen Qualitätsunterschiede der Merkmalskategorien und deren Konsequenzen zu kennen: Bei metrischen Merkmalen können Abstände quantiziert werden, was bei ordinalen und nominalen Merkmalen nicht der Fall ist, während bei ordinalen Merkmalen immerhin noch eine natürliche Rangfolge unter den Merkmalswerten existiert. Diese Unterschiede haben Konsequenzen u.a. hinsichtlich der Möglichkeit der Berechnung von Mittelwerten, aber auch anderer statistischer Maÿzahlen und Verfahren. Mittelwerte sowie andere statistische Maÿzahlen und deren Anwendbarkeit bei den drei Merkmalskategorien werden noch ausführlich behandelt. Abschlieÿend noch einige Beispiele. Geschlecht, Haarfarbe und Nationalität sind alles nominale Merkmale. Schulnoten, die Vergabe von Sternen, etwa 1 bis 5, an Hotels oder die Einteilung der Sympathie zu Politikern in die Ränge Mag ich, Na ja und Eher nicht sind ordinale Merkmale. Die folgenden Merkmale sind diskret und metrisch: Zahl der Eheschlieÿungen, Einwohnerzahl von Darmstadt, Anzahl von Studenten der Hochschule Darmstadt. Körpergröÿe und Gewicht einer Person sind stetige metrische Merkmale, deren mögliche Werte z.B. 1,80 m und 78,44 kg sein können.

1.8 Messen und Skalenniveaus Dieser Abschnitt ist zunächst nur für den hartgesottenen Leser. Den Ausprägungen eines Merkmals müssen bestimmte Werte zugeordnet werden. Die Wahl muss dabei so getroen werden, dass die Werte strukturtreu sind, sodass die Werte die realen Unterschiede auch korrekt wiedergeben. Das sei am Beispiel des Merkmals Religionszugehörigkeit verdeutlicht. Im Jahr 1950 waren in Deutschland die drei Werte evangelisch, römisch katholisch und andere oder keine ausreichend, während diese Einteilung heute sicher nicht mehr strukturtreu ist, es sei denn, dass es nur um die Abführung der Kirchensteuer geht. Die Ausprägungen eines Merkmals müssen messbar sein und einem sogenannten

lenniveau

6

Ska-

zugeordnet werden können. Obwohl es unzählige Merkmale gibt, werden nur

1.9 Fragebögen vier Skalenniveaus benötigt und diese decken sich auch noch weitgehend mit der Einteilung der Merkmale. Jedem Skalenniveau entsprechen bestimmte Relationen, in der je zwei Messwerte zueinander stehen. Ich gebe jetzt die vier Skalenniveaus und ihre denierende Relation an. (1)

Nominalskala Die Beziehung besteht in der Feststellung, ob zwei Messwerte gleich sind oder nicht, weitere Unterscheidungen sind nicht möglich. Die Nominalskala passt daher genau zu den nominalen Merkmalen wie Geschlecht oder Familienstand.

(2)

Ordinalskala Bei einer Ordinalskala lassen sich ebenfalls je zwei Messwerte auf Gleichheit untersuchen, aber zusätzlich ist ein Gröÿenvergleich möglich, die Messwerte lassen sich anordnen, aber man kann keine Abstände zwischen den Messwerten angeben. Die Merkmale mit einer Ordinalskala sind also genau die ordinalen Merkmale.

(3)

Intervallskala Bei einer Intervallskala ist der Abstand zwischen je zwei Messwerten deniert. Streng genommen ist das keine Relation, aber eine eindeutige Festlegung des Begris Intervallskala. Ein Abstand von 0 bedeutet Gleichheit, ein positiver Abstand entspricht der Beziehung Gröÿer, eine Intervallskala ist somit immer auch eine Ordinalskala. Intervallskalen gelten für metrische Merkmale, wofür Abstände zwischen den Ausprägungen aber nicht notwendig Verhältnisse gebildet werden können. Beispiel von Merkmalen mit einer Intervallskala sind die Temperatur, die Uhrzeit, das Datum sowie Längen- und Breitengrade von Orten auf der Erde. In jedem Fall ist der Abstand zwischen zwei Messwerten genau deniert, aber es können keine Verhältnisse gebildet werden. Mittag ist genau zwei Stunden vor 10:00, aber nicht um 20 % später, so wenig wie Rom 12 % südlicher als München liegt.

(4)

Verhaltnisskala (Ratioskala) Bei dieser Skala können zusätzlich zu den Abständen auch die Verhältnisse von Messwerten gebildet werden. Diese Messwerte besitzen einen natürlichen Nullpunkt. Beispiele von Merkmalen mit Verhältnisskala sind das Gewicht und die Gröÿe oder das Vermögen. Man kann hier Aussagen treen wie, Am Nachmittag kommen doppelt so viel Studenten in die Vorlesung wie am Morgen oder Mein Elefant nimmt pro Jahr 5 % zu.

Die vier Skalenniveaus sind also geordnet, d.h. jede höhere Skala schlieÿt die niedrigeren Skalen ein. Verhältnisskala und Intervallskala werden auch als metrische Skalen bezeichnet; eine Vielzahl von statistischen Berechnungen benötigen metrisch skalierte Merkmale, um sie sinnvoll anwenden zu können.

1.9 Fragebögen Die Erhebung basiert in der Regel auf Fragen, die dem Untersuchungsziel angepasst sind. Die einzelnen Fragen werden zu einem

Fragebogen

zusammengefasst. Ein Dozent

7

1 Grundlagen befragt beispielsweise die Teilnehmer seines Kurses nach Geschlecht, Alter, Hobbies und Schulabschluss. Die Hobbies werden auf Sport und Reisen begrenzt und bilden eine sogenannte

Mehrfachfrage . In diesem Fall wird jedem Hobby ein eigenes Merkmal zugeordnet,

mit den zulässigen Antworten ja und nein. Abschlieÿend soll jeder Teilnehmer mit eigenen Worten die Mensa bewerten. Man unterscheidet oene und geschlossene Fragen. Bei

geschlossenen Fragen

muss

eine Antwort aus einer Liste oder einem Zahlenbereich ausgewählt werden, das trit auf die Fragen nach Geschlecht, Alter, Schulabschluss und den Hobbies zu. Die Bewertung der Mensa ist eine

oene Frage , die sicherlich zu sehr unterschiedlichen Antworten führt

und deshalb statistisch schwierig auszuwerten ist.

1.10 Die Datenmatrix Die ausgefüllten Fragebögen werden in Form einer Tabelle zusammengefasst, der sogenannten

Datenmatrix .

Die Tabelle 1.1 zeigt die zu den erwähnten Fragen erstellte

Datenmatrix.

Tabelle 1.1: Eine Datenmatrix

ID

X (Sex)

V (Alter) Y1 (Sport) Y2 (Reisen) Z (Schulabschluss)

1

1 männlich

27

1 Ja

1 Ja

3 Mittlere Reife

2

0 weiblich

54

1

1

3

3

1

34

1

0 Nein

4 Abitur

4

0

16

0 Nein

1

2 Hauptschule

5

0

15

0

1

1 nichts

In einer Zeile stehen die Antworten eines Befragten, also einer statistischen Einheit bzw. eines Merkmalsträgers, der durch eine eindeutige ID zu identizieren ist, in jeder Spalte sind die Werte der Merkmale zu nden. Jedem Merkmal wird eine Variable zugeordnet, hier das nominale Merkmal

X

für das Geschlecht, das ordinale Merkmal

den Schulabschluss und das metrische Merkmal

Y1

und

Y2

sind Teile einer

V

Z

für

für das Alter. Die nominalen Merkmale

Mehrfachfrage , hier nach dem Hobby, worauf der gemeinsame

Buchstabe Y hinweist. Die Werte der Variablen

Y1

und

Y2

sind ja oder nein, also

handelt es sich um dichotome Merkmale. Die Rohdaten einer Befragung werden meist auch für qualitative Merkmale durch Zahlen codiert, hier etwa 0 für weiblich und 1 für männlich. Oft zeigt man diese Codierung beim ersten Auftreten in der Datenmatrix an. Trotz der zahlenmäÿigen Erfassung sollte klar sein, dass das arithmetische Mittel des Geschlechts der Merkmalsträger nicht 0,4 ist.

8

1.11 Aufgaben

1.11 Aufgaben Aufgabe 1.

Eine Firma der Metallverarbeitung fasst die wichtigsten Daten über alle

Mitarbeiter in einer Datenmatrix zusammen, deren Felder das Geschlecht, die Abteilung, das Geburtsjahr sowie Tarifgruppe und Gehalt sind. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an.

Aufgabe 2.

Eine Hochschule befragt 100 zufällig ausgewählte Studenten nach Ge-

schlecht, Nationalität, Alter, Schulbildung und Fachbereich. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an.

Aufgabe 3.

Zeigen Sie am Beispiel der in Deutschland zugelassenen PKW den Zusam-

menhang zwischen Bestands- und Bewegungsmassen.

9

2 Darstellung univariater Daten 2.1 Übersicht und Lernziele In diesem Kapitel werden folgende Themen behandelt: - Darstellung univariater Daten durch eine Häugkeitstabelle; - Grasche Darstellung univariater Daten Stab-, Balken- und Säulendiagramm; - Die empirische Verteilungsfunktion.

2.2 Zum Begri univariate Datenanalyse Die univariate Datenanalyse bezeichnet alle Verfahren, die nur auf ein einzelnes Merkmal einer Grundgesamtheit angewendet werden. Die Ausprägungen werden zunächst in einer Häugkeitstabelle übersichtlich dargestellt. Die Häugkeitstabellen können durch verschiedene Arten von Diagrammen veranschaulicht werden. Die so genannte empirische Verteilungsfunktion ist eine weitere Möglichkeit der Darstellung der Ausprägungen. Dabei bleibt der ursprüngliche Informationsgehalt weitgehend erhalten. Eine Informationsverdichtung liefern so genannte Maÿzahlen wie arithmetischer Mittelwert und Varianz.

2.3 Die vier Grundformen von Datensätzen Bei der univariaten Datenanalyse verwendet man vier verschiedene, aber eng verwandte Listen von Daten. (1)

Urliste Die Daten einer Erhebung werden in einer Datenmatrix festgehalten, bei der eine Zeile den vollständigen Datensatz einer statistischen Einheit, also eines Merkmalsträgers, beschreibt. In den Spalten stehen die Werte der einzelnen Merkmale. Bei der univariaten Datenauswertung wird nur ein Merkmal allein ausgewertet. Bei einer Grundgesamtheit mit

n Merkmalsträgern besteht eine Spalte somit aus einer

Folge

x1 , x2 , . . . , xn , wobei

xi

den als

die Merkmalsausprägung des i-ten Merkmalsträgers ist. Diese Werte wer-

Urliste

bezeichnet und stehen am Anfang jedes Verfahrens.

11

2 Darstellung univariater Daten (2)

Aufsteigend geordnete Urliste Die Urliste ist unübersichtlich und wird deshalb der Gröÿe nach geordnet, um etwas Licht ins Dunkel zu bringen, und zwar in der Regel in aufsteigender Ordnung

x(1) ≤ x(2) ≤ . . . ≤ x(n) . Die seltsame Bezeichnung

x(j)

ist in der beschreibenden Statistik für die Elemente

der aufsteigend geordneten Urliste üblich. (3)

Absteigend geordnete Urliste Manchmal fängt die Ordnung auch beim gröÿten Einzelwert an und verläuft dann absteigend. Auch hierfür haben sich die Statistiker eine seltsame Bezeichnung einfallen lassen

x(1) ≥ x(2) . . . ≥ x(n) . Die Elemente der absteigend geordneten Liste werden also mit (4)

x(j)

bezeichnet,

Ausprägungen Innerhalb einer Urliste treten in der Regel manche Werte mehrfach auf. Es gibt dann nur

k

wirklich verschiedene Werte, die ich wie Handl mit

ai

bezeichne, der

Gröÿe nach anordne

a1 < a2 < a3 . . . < ak−1 < ak und als

Ausprägungen

bezeichne.

Ich bezeichne mit n immer die Anzahl der Daten und mit k die Anzahl der Ausprägungen. Nur wenn alle Werte verschieden sind, ist k = n, sonst ist k < n. Beispiel 2.1. 9 Hier sind

6

7

Die folgende Liste zeigt die Studiendauer einer Gruppe von Studenten 10

n = 10

7

5

7

9

x4 = 10,

und

6

denn der vierte Wert der Urliste ist 10. Die nach

zunehmenden Werten geordnete Liste 5

6

6

6

7

7

7

9

6.

9

x(j)

ist

10.

Aus dieser ergibt sich durch Weglassen der Wiederholungen die Liste

aj

der Ausprägun-

gen 5

6

Somit sind

7

9

x(4) = 6

10. und

a4 = 9,

denn in der aufsteigend geordneten Liste ist das vierte

Element 6 und in der Liste der Ausprägungen ist das vierte Element 9. Da es nur fünf Ausprägungen gibt, ist

12

k = 5.

2.4 Absolute und relative Häugkeiten

2.4 Absolute und relative Häugkeiten Bei der Datenanalyse wird gezählt, wie viele Merkmalsträger Man nennt diese Zahl die als

Häugkeitsliste

absolute Häugkeit

ni

ai hat. (ai , ni ) werden

die Ausprägung

der Ausprägung. Die Paare

bezeichnet. Die absolute Häugkeit allein ist wenig aussagekräftig,

n

dazu ist der Bezug zur Anzahl

der Merkmalsträger nötig, also die

relative Häugkeit

fi = ni /n. Da die absoluten Häugkeiten ben, liegen die Werte der

fi

ni

zwischen

1 und n liegen und zusammengezählt n erge-

zwischen 0 und 1 und ihre Summe ist genau 1, in Formeln

k X i=1 k X

ni = n1 + n2 + · · · + nk = n,

(2.1)

fi = f1 + f2 + · · · + fk = 1.

(2.2)

i=1 Relative Häugkeiten werden oft auch in Prozent angegeben, dafür müssen die Werte mit 100 multipliziert werden, die Summe ergibt dann 100. In manchen Fällen liegt die Urliste der Daten nicht vor, weil bei der Datenerfassung bereits die möglichen Ausprägungen bekannt sind und nur noch die absoluten Häugkeiten ausgezählt werden müssen. Die Merkmale mit gleichem Wert bilden eine Gruppe, man spricht auch von

gruppier-

ten Daten . Die Anzahl von Gruppen werde ich immer mit k bezeichnen. Wenn alle Werte

k = n und x(j) = aj . Im Beispiel 2.1 gibt es k = 5 n1 = 1, n2 = 3, n3 = 3, n3 = 2 sowie n5 = 1 und den relativen Häugkeiten f1 = 0, 1, f2 = 0, 3, f3 = 0, 3, f4 = 0, 2 und f5 = 0, 1. Die absoluten Häugkeiten ni summieren sich zu n = 10 und die relativen Häugkeiten der Urliste verschieden sind, folgen

Gruppen mit den absoluten Häugkeiten

zu 1.

2.5 Kumulierte absolute und relative Häugkeiten Bei mindestens ordinalen Merkmalen sind die Ausprägungen

a1 , a2 , . . . , ak

der Gröÿe

nach geordnet. Deshalb ist eine stufenweise Ansammlung (Kumulation) bereits erreichter Anteile möglich, um etwa bei den Ergebnissen einer Klassenarbeit, den Prozentsatz von Schülern anzugeben, die mindestens eine vier erreicht haben. Sind

n1 , n2 , . . . , nk

die absoluten Häugkeiten der geordneten Merkmalsausprägungen, so werden die i-te kumulierte absolute bzw. relative Häugkeit durch

Ni =

k X

nj = n1 + n2 + · · · + ni ,

(2.3)

fj = f1 + f2 + · · · + fi

(2.4)

j=1

Fi =

k X j=1

13

2 Darstellung univariater Daten berechnet. Bei den Daten des Beispiels 2.1 ergeben sich folgende Werte für die kumulierten abso-

N1 = 1, N2 = 4, N3 = 7, N4 = 9 und N5 = 10 und entsprechend nach Division dieser Werte durch n = 10 die kumulierten relativen Häugkeiten F1 = 0, 1, F2 = 0, 4, F3 = 0, 7, F5 = 0, 9 und F5 = 1.

luten Häugkeiten

2.6 Häugkeitstabellen Die Ausprägungen und deren absoluten und relativen Häugkeiten sowie die entsprechenden kumulierten Werte werden in einer Tabelle zusammengefasst, die man

keitstabelle

Häug-

nennt. Im Beispiel der Studiendauer ergibt sich die Häugkeitstabelle wie in

der Tabelle der Abbildung 2.1 im Bereich A1:F6 dargestellt. Nach diesem Muster wird die Häugkeitstabelle eines jeden mindestens ordinalen Merkmals aufgebaut.

1 2 3 4 5 6 7 8 9 10 11

A B i ai

1 2 3 4 5

5 6 7 9 10

C ni

1 3 3 2 1

D Ni

E fi

F GH Fi

1 4 7 9 10

0,1 0,3 0,3 0,2 0,1

0,1 0,4 0,7 0,9 1

5 5 0 0,1 0 1

6

6 0 0,3 0 3

I

J K

L

M

N

O

P

Rel. Stabdiagramm

S

T

U V W xi x(i)

ni

ai 4 5 6 7 8 9 10 11

7 7 0 0,3 0 3

R

Abs. Stabdiagramm

fi 0,3 0,2 0,1 0

Q

9 9 0 0,2 0 2

3 2 1 0

ai 4 5 6 7 8 9 10 11

10 10 0 0,1 0 1

9 5 6 6 7 6 10 6 7 7 5 7 7 7 9 9 6 9 6 10

Abbildung 2.1: Stabdiagramme

In den Spalte V und W stehen die Werte der Urliste bzw. der geordneten Urliste. In der ersten Spalte steht der Index Ausprägungen

ai ,

i

der jeweiligen Zeile, in der zweiten stehen die

in der dritten die absoluten Häugkeiten, in der vierten die kumu-

lierten absoluten Häugkeiten, in der fünften die relativen Häugkeiten, in der letzten die kumulierten relativen Häugkeiten. Den kumulierten relativen Häugkeiten können wir unter anderem entnehmen, dass die Studiendauer bei 90 Prozent der untersuchten Studenten höchstens 9 Semester lang war.

2.7 Stab- Säulen- und Balkendiagramme . Absolute und relative Häugkeiten lassen sich durch Diagramme veranschaulichen. Bei Stab- und Säulendiagrammen werden die Werte der Häugkeiten

ni

bzw.

von Stäben oder Höhen von Säulen umgerechnet und über den Werten von

fi

in Längen

ai abgetragen.

Deshalb kann man die Werte der Häugkeiten sehr gut vergleichen und sogar ablesen.

14

2.8 Empirische Verteilungsfunktion Die Abbildung 2.1 zeigt die Häugkeitstabelle sowie die Stabdiagramme der absoluten und relativen Häugkeiten.

ai eine senkrechte Strecke mit der abgetragen, also die Strecke (ai , 0)(ai , fi ).

Für eine Stabverteilung wird über jeder Ausprägung Länge der relativen Häugkeit

fi

nach oben

Die Anfangs- und Endpunkte dieser

k

Strecken benden sich im Bereich B8:O9 des

abgebildeten Arbeitsblatts. Jeder Stab ist eine Punkt-Grak für sich, der erste Stab wird durch den Bereich B8:C9 erzeugt, dann kommen die leeren Zellen D8:C9 und dann folgen die Koordinaten des zweiten Stabs, usw. bis zu den Koordinaten des letzten Stabs. Die Zeile 10 enthält die y-Werte für das Stabdiagramm der absoluten Häugkeiten. Sie müssen die Koordinaten der Strecken unbedingt durch leere Zellen trennen, sonst würde Excel die Stäbe durch hässliche Zickzacklinien verbinden. Bei einem Balkendiagramm werden die Werte Werte der

fi

ai

auf der y-Achse eingetragen und die

nach rechts, also waagrecht wie ein Balken.

2.8 Empirische Verteilungsfunktion Bis jetzt wurden nur die Häugkeiten grasch dargestellt. Es gibt aber auch eine grasche Darstellung der kumulierten relativen Häugkeiten als Graph einer Funktion, der sogenannten empirischen Verteilungsfunktion. Diese ist nur für die Merkmalsausprägungen mindestens ordinaler Merkmale deniert. Die

empirische Verteilungsfunktion F : R → [0, 1]

einer Urliste von

...,

xn

für jede reelle Zahl

leitet sich aus der Forderung ab, dass

F (x)

Anteil der Werte angibt, welche kleiner oder höchstens gleich

x

n

Werten

x

x1 , x2 ,

den relativen

sind; die Funktion ist

also für alle reellen Zahlen deniert und nicht nur für die eigentlichen Messwerte. Die formale Denition der empirischen Verteilungsfunktion lautet

F (x) =

Anzahl der Daten

xi ≤ x

n

.

Die empirische Verteilungsfunktion gibt die Summe der relativen Häugkeiten aller Daten an, die kleiner oder gleich

x

sind, daher ist sie zwischen zwei benachbarten Daten

x1 , xn . Die Gröÿe des Sprunges am Wert xi ist die relative Häugkeit von xi . Liegen n verschiedene Einzelbeobachtungen mit der aufsteigend geordneten Urliste x(1) , x(2) , . . . , x(n) vor, so hat jeder Sprung die Höhe 1/n und die empirische Verteilungsfunktion zwischen x(i) und x(i+1) den Wert i/n.

konstant, hat also die Form einer Treppe. Die Sprungstellen sind gerade die Daten

x2 ,

...,

Wenn nicht alle Beobachtungen verschieden sind, wird die empirische Verteilungsfunktion über die Ausprägungen bestimmt. Da diese eine der Gröÿe nach geordnete Reihe

a1 < a2 < a3 . . . < ak−1 < ak ai−1 ≤ x < ai konstant, Ausprägung ai um die rela-

bilden, ist die empirische Verteilungsfunktion in jedem Intervall und zwar mit dem Wert tive Häugkeit

fi

Fi−1

und springt an der nächsten

nach oben auf den neuen Wert

Fi .

Funktionen dieser Art werden als

15

2 Darstellung univariater Daten

Treppenfunktion

bezeichnet. Damit ergibt sich für die empirische Verteilungsfunktion:

  0, F (x) = Fi ,   1,

wenn wenn wenn

x < a1 ; ai ≤ x < ai+1 ; x ≥ ak .

1 ≤ i ≤ k − 1;

Die empirische Verteilungsfunktion beginnt ihren langen Weg von Ausprägung

a1

beim Wert 0, macht dann an jedem der

k

−∞

bis zur kleinsten

Messwerte einen Sprung nach

ak den Endwert 1, und verharrt auf diesem Wert ∞. Gezeichnet wird die empirische Verteilungsfunktion deshalb von einem Wert etwas

oben und erreicht am gröÿten Messwert bis

links vom kleinsten bis zu einem Wert etwas rechts von der gröÿten Ausprägung. Die empirische Verteilungsfunktion des Merkmals

X

Anzahl der benötigten Semes-

ter ergibt sich aus der Häugkeitstabelle der Abbildung 2.1.

 0,      0, 1,   0, 4, F (x) =  0, 7,      0, 9,    1,

wenn wenn wenn wenn wenn wenn

x < 5; 5 ≤ x < 6; 6 ≤ x < 7; 7 ≤ x < 9; 9 ≤ x < 10; x ≥ 10.

Mit der empirischen Verteilungsfunktion kann man den Anteil malsträger, deren Merkmalsausprägung im Intervall

(a, b]

f (a < X ≤ b)

der Merk-

liegt, bestimmen:

f (a < X ≤ b) = F (b) − F (a). Der Anteil an Studenten, die länger als 6 und höchstens 9 Semester bis zum Abschluss benötigten, ist also

F (9) − F (6) = 0, 9 − 0, 4 = 0, 5.

Den Graph der empirischen Verteilungsfunktion habe ich ebenfalls mit Excel erstellt.

A B 1 i ai 2 1 5 3 2 6 4 3 7 5 4 9 6 5 10 7 8 9 4 5 10 0 0

C

D

E

F

ni Ni fi Fi 1 1 0,1 0,1 3 4 0,3 0,4 3 7 0,3 0,7 2 9 0,2 0,9 1 10 0,1 1

G

H

J

K

L

M

N

O

P

Empirische Verteilungsfunktion 1 0,8 0,6 0,4 0,2 0

Fi

Q

R

5 6 7 9 10

0,1 0,4 0,7 0,9 1

ai 4

5 6 0,1 0,1

I

6 7 0,4 0,4

5

6

7

7 9 0,7 0,7

8

9

10

9 10 0,9 0,9

11

10 11 1 1

Abbildung 2.2: Empirische Verteilungsfunktion In der Abbildung 2.2 ist der Graph dieser Funktion zu sehen. Die empirische Verteilungsfunktion ist rechtsstetig, d.h. die Treppenfunktion beginnt nach jedem Sprung

16

2.9 Der Sonderfall nominaler Merkmale gleich am Anfang, also an der Stelle

ai

mit dem neuen Wert

Fi . Man deutet dies grasch

mit einer Klammer oder wie in der Abbildung mit einer Markierung am Anfang der Treppenstufen an. Formal bedeutet die Rechtsstetigkeit für

1≤i≤k

F (ai ) = lim F (ai + ε), ε→0+

wobei hier nur

ε > 0 erlaubt ist, da die Annäherung von rechts erfolgt. An allen anderen

Punkten ist die Funktion ohnehin stetig.

F (x) müssen also für 1 ≤ i ≤ k die waag(ai , Fi )(ai+1 , Fi ) eingezeichnet werden. Vor dem kleinsten Wert a1 ist konstant 0, nach dem gröÿten Wert ak konstant 1. Ich habe die Koordina-

Für die empirische Verteilungsfunktion rechte Strecken die Funktion

ten der jeweiligen Anfangs- und Endpunkte der Treppenstufen im Bereich A9:Q10 des Excel-Arbeitsblatts von Abbildung 2.2 aufgeführt. Auch hier ist jede Stufe der Treppenfunktion eine Punktgrak. Die Markierungen am Anfang der Treppen werden ebenfalls als Punktgrak erzeugt, die zugehörigen Koordinaten stehen im Bereich Q1:R5.

Bemerkung 2.1.

Der Begri empirisch bezieht sich immer auf Erfahrungen, Messungen

oder Beobachtungen und wird oft im Gegensatz zum Begri theoretisch verwendet. Empirische Verteilungsfunktionen basieren auf beobachteten Daten, während theoretische Verteilungsfunktionen von einem Modell abgeleitet sind. Für weitere Auskünfte über den Unterschied zwischen theoretischen und empirischen Verteilungsfunktionen wenden Sie sich an den Hütchenspieler ihres Vertrauens oder lesen dessen Allgemeine Geschäftsbedingungen.

2.9 Der Sonderfall nominaler Merkmale Nominale Merkmale haben keine natürliche Rangordnung, man verwendet für die Anordnung die vorgenommene Kodierung oder eine Anordnung nach dem Alphabet, trotzdem ist keine Anhäufung möglich, daher entfallen in der Häugkeitstabelle die beiden Spalten für

Ni

und

Fi .

Beispiel 2.2.

Seit 1930 werden alle vier Jahre mit Ausnahme von 1942 und 1946 Fuÿ-

ballweltmeisterschaften in wechselnden Ländern ausgetragen. Bisher gab es nur 9 Weltmeister und zwar in alphabetischer Reihenfolge Argentinien, Brasilien, Deutschland, England, Frankreich, Italien, Spanien und Uruguay. Die folgende Tabelle zeigt die Anfangsbuchstaben der Weltmeisternationen und die verkürzte Jahreszahl ihres Triumphs.

Tabelle 2.1: Liste der Weltmeister im Fuÿball 30

34

38

50

54

58

62

66

70

74

78

82

86

90

94

98

02

06

10

U

I

I

U

D

B

B

E

B

D

A

I

A

D

B

F

B

I

S

Diese Datensammlung ist die Urliste, die in einer Datenmatrix eine Spalte wäre, hier aber aus Platzgründen in einer Zeile steht. Ich fasse die einmaligen Weltmeister England, Frankreich und Spanien zum Rest zusammen.

17

2 Darstellung univariater Daten Die ungeordnete und die in alphabetischer Reihenfolge der Anfangsbuchstaben geordnete Urliste sowie die Ausprägungen sind dann

U I I U D B B R B D A I A D B F B I R A A B B B B B D D D I I I I R R R U U A B D I R U Somit sind

x3 = I , x(3) = B und a3 = D, denn der Wert des dritten Merkmals der Urliste

ist I, der dritte Wert der geordneten Urliste ist B und die dritte Ausprägung ist D. Weiterhin sind und

n6 = 2.

n = 19, k = 6

sowie

n1 = 2, n2 = 5, n3 = 3, n4 = 4, n5 = 3

Die Ausprägungen und ihre Häugkeiten ergeben sich aus der geordneten

Urliste. Die zugehörige Häugkeitstabelle ist in Abbildung 2.3 zu sehen, wobei ich die Ländernamen durch drei Buchstaben kodiert habe.

1 2 3 4 5 6 7

A

B

C

i 1 2 3 4 5 6

ai Arg Bra Deu Ita Uru Rst

ni 2 5 3 4 2 3

D

E

fi 6 10,53% # 5 4 26,32% W 3 15,79% M 2 1 21,05% 0 10,53% 15,79%

F

G

Arg Bra Deu Ita Land

Uru Rst

Abbildung 2.3: Häugkeitstabelle und Säulendiagramm

Hier sind

a2 = Bra, n2 = 5

und

f2 = 5/19 = 26, 32 %.

Das Säulendiagramm der Ver-

teilung der Weltmeister ist in der Abbildung 2.3 zu sehen, wobei ich hier absolute Zahlen verwendet habe. Die Ergebnisse einer Wahl zum Bundestag werden dagegen besser mit relativen Häugkeiten dargeboten. Bei nominalen Merkmalen sind Säulen- und Balkendiagramme meist die richtige Wahl. Die Presse verwendet sehr gerne

Kreisdiagramme ,

dafür müssen die Anteile in Flächeninhalte von Kreissektoren umgerechnet werden, oder man überlässt das Excel.

2.9.1 Kreis- und Säulendiagramm Die Ausprägungen nominaler Daten werden oft durch ein Kreis-, Säulen- oder Balkendiagramm dargestellt. Bei der Bundestagswahl 2002 erhielt die CDU/CSU 38,5, die SPD 38,5, die FDP 7,4 und die GRÜNEN 8,5 Prozent der Zweitstimmen. In der Abbildung 2.4 sehen Sie diese Daten im Bereich A1:E2 eines Arbeitsblatts als Liste und darunter als Säulen- und Kreisdiagramm. Bei einem Kreisdiagramm werden den relativen Anteilen ren mit den Winkeln

fi · 360 zugeordnet. Bei einen Säulendiagramm

fi

Kreissekto-

werden die relativen

Anteile als Säulen dargestellt. Der Vergleich zeigt, dass Säulendiagramme anschaulicher als Kreisdiagramme sind.

18

2.10 Aufgaben

1 2 3 4 5 6

B

Partei Anteil CDU/CSU 38,5 SPD 38,5 FDP 7,4 GRÜNE 8,5

C

D

E

F

G

Wahl 2002

Wahl 2002 Stimmanteil

A

H

CDU/CSU

40 20 0

SPD Grüne FDP

CDU/CSU SPD Grüne FDP Partei

Abbildung 2.4: Kreis- und Säulendiagramm im Vergleich

2.10 Aufgaben Aufgabe 1.

An einem Kochkurs nahmen neun Männer und elf Frauen teil. Was sind

hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und stellen Sie dann die Daten als Säulendiagramm dar. Warum gibt es hier keine kumulierten Häugkeiten und somit auch keine Verteilungsfunktion?

Aufgabe 2.

Der Chef einer Pizzeria glaubt, dass der Koch die Salamischeiben auf der

Pizza Salami Maximale zu unregelmäÿig verteilt. Er nimmt eine Stichprobe und erhält die folgenden Werte für die Anzahl 10

12

7

12

8

8

14

8

X 12

von Salamischeiben 10

10

7

12

14

10

14

7

12

8

8

Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion.

19

3 Maÿzahlen einer Verteilung 3.1 Übersicht und Lernziele In diesem Kapitel werden folgende Themen behandelt: - Zweck der Maÿzahlen und ihre Einteilung in Lage-, Streuungs- und Schiefemaÿe; - Modus, Median, Quantile, Quartile und Boxplot; - Arithmetisches Mittel, Varianz, Standardabweichung und Variationskoezient

3.2 Denition und Einteilung Die Verteilungen von Merkmalen lassen sich durch Tabellen und Diagramme ohne Informationsverlust darstellen. Durch einige treende Maÿzahlen will man die Information bewusst verdichten, um spezische Eigenschaften zu betonen. Dies erleichtert die Vergleichbarkeit von Verteilungen. Man unterscheidet dabei zwischen

ungsmaÿen

und

Lagemaÿen , Streu-

Schiefemaÿen . Lagemaÿe geben an, wo sich die Zentren der Verteilung

benden, Streuungsmaÿe sind Indikatoren dafür, wie gedrängt oder verstreut sich die Beobachtungen um die Lagemaÿe verteilen. Schiefemaÿe zeigen Abweichungen von der Symmetrie und der sogenannten Normalverteilung an. Diese werden hier nicht behandelt.

3.3 Modus Die Merkmalsausprägung, die am häugsten vorkommt, wird

Modus

genannt, und kann

für jedes Messniveau bestimmt werden. Der Modus ist nicht immer eindeutig, da zwei oder mehr Beobachtungen gleich oft auftreten können. Wenn sogar alle Werte verschieden sind, ist jeder davon auch ein Modus. Eine andere Bezeichnung für den Modus ist

Modalwert .

Betrachten wir die Noten einer Klausur, aufgeteilt nach Geschlecht und beginnen mit der Urliste

(xi )

der Noten der sieben teilnehmenden Damen:

gut, ausreichend, befriedigend, gut, befriedigend, ausreichend, gut

(3.1)

Das Merkmal Note ist ordinal, der häugste Wert ist hier gut. Besonders einfach wird die Bestimmung des Modus, wenn für die Verteilung bereits eine Häugkeitstabelle vorliegt, der Modus ist dann in der Zeile mit dem gröÿten

ni

zu

21

3 Maÿzahlen einer Verteilung nden. Die in der Abbildung 2.1 auf Seite 14 im Bereich A1:F6 dargestellte Häugkeitstabelle zeigt die Verteilung der Studiendauer einer Gruppe von Studenten. Hier sind

n2 = n3 = 3

die gröÿten Werte, also sind sowohl

a2 = 6

als auch

a3 = 7

Modi. Bei der

Häugkeitstabelle 2.1 auf Seite 17 mit den Fuÿballweltmeistern ist der Modus eindeutig, da

n2 = 5

gröÿer als alle anderen

ni

ist, somit ist

a2 = Bra(silien)

der Modus.

3.4 Median Der

Median

ist derjenige Merkmalswert eines mindestens ordinalen Merkmals

mindestens 50 Prozent aller Merkmalswerte einer Stichprobe vom Umfang

X,

den

n unterschrei-

ten oder höchstens erreichen und den mindestens 50 Prozent aller Merkmalswerte überschreiten oder zumindest erreichen. Der Median wird mit dem Symbol Der Median wird manchmal auch Zentralwert genannt und mit

Z

x0,5

bezeichnet.

bezeichnet.

Ordinale Daten lassen sich der Gröÿe nach ordnen, bei den Noten der Studentinnen ergibt sich dann die geordnete Urliste

(x(i) )

gut, gut, gut, befriedigend, befriedigend, ausreichend, ausreichend

Ist die Anzahl

x0,5 .

n

der Beobachtungen ungerade, so ist der Wert

x((n+1)/2)

(3.2)

der Median

Bei den sieben Noten der Studentinnen mit der Urliste von 3.1 ist somit der vierte

Wert

x(4)

Schwieriger wird der Fall, nissen

x0,5 = befriedigend. wenn n gerade ist, wie

der Median, also ist

(x(i) )

bei den bereits geordneten Ergeb-

der Studenten:

sehr gut, sehr gut, sehr gut, gut, befriedigend, ausreichend.

(3.3)

Hier ist der Median nicht mehr eindeutig, denn sowohl die dritte als auch die vierte Note erfüllen die an den Median gestellten Bedingungen, denn drei und damit genau 50 % aller Werte sind kleiner oder höchstens gleich oder gleich

x(3) .

x(3) = sehr

gut und vier Werte sind gröÿer

Dagegen sind vier Werte kleiner oder gleich

sind gröÿer oder gleich

x(4) =

gut und drei Werte

x(4) .

Halten wir als Ergebnis fest, dass bei mindestens ordinalen Merkmalen die Werte zunächst geordnet werden. Der Median wird aus der geordneten Urliste

(x(i) )

wie folgt

gefunden:

x0,5 Ist die Anzahl

n

( x((n+1)/2) , = x(n/2) und x(1+n/2)

für für

n n

ungerade, gerade.

(3.4)

der Daten eine gerade Zahl, so ist der Median also nicht eindeutig. Der

Median teilt die Merkmalsträger der Untersuchung in zwei gleich groÿe Gruppen, die bezogen auf das untersuchte Merkmal besser und schlechter abschneiden.

22

3.5 Quantile

3.4.1 Der Median metrischer Merkmale n die Eindeutigkeit x(1+n/2) erzwungen. Es ergibt sich dann: ( x((n+1)/2) , für n ungerade; = x(n/2) +x(1+n/2) , für n gerade 2

Ist das Merkmal metrisch, wird für gerade Werte von durch Mittelung von

x(n/2) x0,5

des Medians

und

(3.5)

Der Median trennt die Merkmalsträger in zwei Hälften, bei einer Einkommens- oder Vermögensverteilung liegt das Einkommen bzw. Vermögen von jeweils 50 Prozent der Merkmalsträger oberhalb bzw. unterhalb des Medians. Bei metrischen Merkmalen ist der Median der Wert, der die Summe der Beträge der Abstände zu den Messwerten (x1 , x2 , . . . , xn ) minimiert, d.h. der Median erfüllt die Bedingung

x0,5 = min g(x), x∈R

mit

g(x) =

n X

|x − xi |

(3.6)

i=1

Diese Eigenschaft ist nicht ganz einfach herzuleiten, da die Funktion

g(x) nicht dieren-

zierbar ist.

Beispiel 3.1.

Die Post hat neun Kunden in einer Straÿe, die täglich einmal Briefe

abgeben wollen. Die Standorte der Kunden liegen vom Anfang der Straÿe aus gemessen 200, 350, 140, 600, 800, 100, 260, 320, 1000 Meter entfernt. Die Straÿe liegt in einer Fuÿgängerzone, der mit der Einsammlung der Briefe betraute Mitarbeiter darf sein Fahrzeug aber an einem Ort abstellen, wohin die Kunden gegen 16:00 die Briefe abliefern. An welchem Ort sollte dies geschehen, damit die Summe der Wege der Kunden minimal wird? Die geordnete Urliste lautet 100, 140, 200, 260, 320, 350, 600, 800, 1000 Der Median ist der fünfte Wert der geordneten Liste, also sollte der Fahrer sein Fahrzeug 320 m vom Anfang der Straÿe aus abstellen. Eine Woche später kommt ein weiterer Kunde hinzu, dessen Geschäft 2000 m vom Anfang der Straÿe entfernt ist. Der Median ist jetzt der Mittelwert des fünften und sechsten geordneten Werts, also 335. Hier zeigt sich, dass der Median robust gegen sogenannte

Ausreiÿer

ist, der groÿe neue Wert ändert den Median kaum. Das arithmetische Mittel

dagegen steigt von 458,75 auf 630.

3.5 Quantile Der Median

x0,5

teilt die Beobachtungen in zwei gleich groÿe Teile. Man kann die ge-

ordnete Urliste nach demselben Prinzip für jede beliebige Zahl

Quantil

genannten und mit

xp

0 p

xp

ai

ai

als auch

und

ai−1

verwendet.

Die in Abschnitt 3.3 auf Seite 22 aufgelisteten Noten der Studenten erge-

ben die folgende Häugkeitstabelle:

i

ai (Note)

1

ni

fi

Fi

sehr gut

3

3/6

3/6

2

gut

1

1/6

4/6

3

befriedigend

1

1/6

5/6

4

ausreichend

1

1/6

1

25

3 Maÿzahlen einer Verteilung p = 0, 5 und in der Häugkeitstabelle gilt für i = 2 zum ersten Mal Fi > 0, 5, aber es ist Fi−1 = 0, 5, also sind bei diesem ordinalen Merkmal sowohl die Ausprägung a2 =sehr gut als auch a1 =gut Der Median ist nicht eindeutig, denn für den Median ist

der Median.

Q1 und Q2 . Das untere Quartil ist das Quantil x0,25 . Die erste Ausprägung mit Fi > p = 0, 25 bendet sich in der ersten Zeile mit F1 = 1/2 und es ist F0 = 0 < 0, 25, also ist Q1 = a1 = sehr gut. Das obere Quartil ist das Quantil x0,75 . Die erste Ausprägung mit Fi > p = 0, 75 ist in der dritten Zeile mit F3 = 5/6 , und es ist F2 = 2/3 < 0, 75, also ist Q3 = a3 = befriedigend. Eindeutig sind dagegen das untere und das obere Quartil

Beispiel 3.5.

Die Werte des Beispiels 3.3 auf Seite 25 stammen von einem metrischen

Merkmal und führen zu folgender Häugkeitstabelle:

Tabelle 3.1: Anzahl von Cocktails

i

ai

ni

fi

Fi

1

1

2

0,2

0,2

2

2

3

0,3

0,5

3

3

2

0,2

0,7

4

4

2

0,2

0,9

5

6

1

0,1

1

Hier berechnen sich die drei Quartile wie folgt

Q1 = x0,25 = a2 = 2 Q2 = x0,5 = 0, 5(a2 + a3 ) = 2, 5 Q3 = x0,75 = a4 = 4, p = 0, 25 und für i = 2 ist das erste Mal Fi > 0, 25 und es F1 < 0, 25. Für den Median ist p = 0, 5 und für i = 3 gilt zum ersten Mal gleichzeitig ist F2 = p = 0, 5, also muss für den Median der Mittelwert von

denn für das erste Quartil ist ist gleichzeitig

Fi > p, aber a2 und a3 gebildet

werden. Die Begründung für das dritte Quartil überlasse ich Ihnen.

3.5.2 Spannweite und Interquartilsabstand p = r/s, r = 1, 2, . . . , s − 1 in s = 4 Teile zerlegt, die benötigten Quantile werden Quartile genannt und mit Q1 , Q2 und Q3 bezeichnet. Das Quartil Q2 ist der Median x0,5 , das sogenannte untere Quartil Q1 entspricht dem Quantil x0,25 , das sogenannte obere Quartil Q3 entspricht dem Quantil x0,75 . Die Dierenz zwischen Q3 und Q1 wird Interquartilsabstand IQR (von der englischen Bezeichnung interquartile range abgeleitet) genannt. Innerhalb des Intervalls [Q1 , Q3 ] Jede angeordnete Datenreihe kann durch Quantile mit

s

gleich groÿe Teile zerlegt werden. Besonders häug werden die Daten in

26

3.6 Boxplots liegen 50 % der Daten. Die Dierenz zwischen dem gröÿten Wert Wert

x(1)

wird

Spannweite R genannt (von englisch range).

Bezeichnet man den kleinsten Wert

x(1)

mit

Q0

x(n)

und dem kleinsten

und den gröÿten Wert

x(n)

mit

Q4 ,

so

ergibt sich

R = Q4 − Q0 IQR = Q3 − Q1

(3.9) (3.10)

3.6 Boxplots Ein

Boxplot

ist eine komprimierte graphische Darstellung eines Datensatzes, die von

Tukey (1977) eingeführt worden ist. Boxplots veranschaulichen vier Bereiche mit je einem Viertel der Werte. Ein Boxplot besteht aus der eigentlichen Box und zwei sogenannten Zäunen (auch Antennen genannt), die an die Box anschlieÿen. Die Box ist immer ein Rechteck, das durch das erste und dritte Quartil begrenzt wird, die Box umfasst also die mittlere Hälfte der Daten, bestimmt durch den Interquartilsabstand. Die Box wird durch den Median in zwei in der Regel ungleich groÿe Teile geteilt. Die Lage des Medians gibt Aufschluss über die Symmetrie. Liegt der Median ungefähr in der Mitte der Box, so deutet dies auf eine symmetrische Verteilung hin. Bei einer rechtsschiefen Verteilung liegt der Median näher am unteren Quartil und bei einer linksschiefen Verteilung näher am oberen Quartil. Die Box vermittelt also einen Überblick über die mittleren 50 % der Beobachtungen eines Datensatzes, während die Zäune (whiskers, adjacent values) das erste und letzte Viertel der Verteilung veranschaulichen. Bei der einfachsten Form reichen die Linien der Zäune gerade bis an den kleinsten bzw. gröÿten Wert heran. Die Enden der Linien sind durch kleine senkrechte Striche gekennzeichnet. Der Boxplot zum Beispiel 3.3 auf Seite 25 sieht dann so aus:

Abbildung 3.1: Einfacher Boxplot

Q0 = 1, der Q1 = 2, Q2 = 2, 5 und Q3 = 4.

Der kleinste Wert ist nämlich die Werte

gröÿte

Q4 = 6

und die drei Quartile haben

3.6.1 Eine Variante des Boxplots Bei der folgenden weit verbreiteten Variante des Boxplots werden nur die Zäune verändert, und zwar sind die Zäune durch diejenigen Beobachtungen festgelegt, die gerade

27

3 Maÿzahlen einer Verteilung [Q1 − 1, 5IQR, Q3 + 1, 5IQR]

noch innerhalb des Bereichs ginnt also beim kleinsten

Z0

liegen. Der untere Zaun be-

genannten Wert, der gröÿer oder gleich

und der obere Zaun endet beim gröÿten

Z4

Q1 − 1, 5IQR

ist

genannten Wert, der kleiner oder gleich

ist. Darüber hinaus liegende Beobachtungen gelten als mögliche Ausreiÿer , also stark aus der Reihe fallende Werte, und werden einzeln durch ein Symbole wie

Q3 + 1, 5IQR

Kreis oder Sternchen gekennzeichnet.

Beispiel 3.6.

Die in Meter gemessenen Weiten

X

im Speerwurf einer Gruppe von

Sportstudenten waren wie folgt:

35, 45, 50, 50, 51, 51, 51, 53, 54, 54, 55, 56, 56, 56, 57 57, 57, 58, 58, 60, 61, 61, 61, 62, 62, 62, 62, 65, 70, 75

Die Beobachtungen sind bereits geordnet, der Boxplot wird nach den Werten der folgenden Tabelle gezeichnet.

Tabelle 3.2: Benötigte Werte für den Boxplot

Q1

Q2

Q3

IQR

Q1 − 1, 5IQR

Q3 + 1, 5IQR

Z0

Z4

53

57

61

8

41

73

45

70

Überzeugen Sie sich selbst: Der Median

Q2

ist der Mittelwert des 15. und 16. Wertes,

also 57. Das untere Quartil ist der achte Wert, denn

30·0, 25 = 7, 5 und das obere Quartil

ist der 23. Wert, also 61. Somit ist der Interquartilsabstand 8 und das 1,5-fache davon 12. Der untere Zaun beginnt beim kleinsten Wert gröÿer gleich

41 = Q1 − 1, 5IQR, also 73 = Q3 + 1, 5IQR,

bei 45. Der obere Zaun endet beim gröÿten Wert kleiner gleich

also bei 70. Verdächtig als Ausreiÿer sind lediglich die Werte 35 und 75. Der zugehörige Boxplot sieht daher wie folgt aus:

Abbildung 3.2: Eine weitere Form des Boxplots

Die Box wird wie beim einfachen Boxplot durch

Q1 , Q2

und

Q3

festgelegt, aber die

Zäune nicht mehr durch den kleinsten und den gröÿten Wert, sondern durch

28

Z0

und

Z4 .

3.7 Das arithmetische Mittel

3.7 Das arithmetische Mittel Das

arithmetische Mittel , auch als Mittelwert

bezeichnet, mittelt über alle Beobachtun-

gen. Daher muss das Merkmal metrisch sein. Es gilt dann

n

1X x1 + x2 + · · · + xn = xi . x¯ = n n i=1 Kennt man bereits die Ausprägungen

ai

(3.11)

mit ihren absoluten Häugkeiten

ni ,

so gilt

k

n1 a1 + n2 a2 + · · · + nk ak 1X x¯ = = n i ai . n n i=1 Wegen

fi = ni /n

(3.12)

gilt auch

x¯ = f1 a1 + f2 a2 + · · · + fk ak =

k X

f i ai .

(3.13)

i=1

Beispiel 3.7.

Die IT-Abteilung eines Unternehmens besteht aus zwei Teams. Das erste

hat vier Mitarbeiter mit den Monatsgehältern von 2.000, 2.600, 3.000 und 4.000 Euro. Im zweiten verdienen je zwei Mitarbeiter 2.000 bzw. 3.000 und die Leiterin 6.000 Euro im Monat. Im ersten Team sind alle

n=4

Werte verschieden, daher wird der Mittelwert nach

der Formel (3.11) berechnet

x¯ = (2.000 + 2.600 + 3.000 + 4.000)/4 = 11.600/4 = 2.900. n = 5 Werte verschieden, sondern es sind a1 = 2.000 n2 = 2 sowie a3 = 6.000 und n3 = 1, daher wird der

In der zweiten Gruppe sind nicht alle und

n1 = 2, a2 = 3.000

und

Mittelwert nach der Formel (3.12) berechnet

x¯ = (2 · 2.000 + 2 · 3.000 + 1 · 6.000)/5 = 16.000/5 = 3.200. Beispiel 3.8.

Betrachten wir die Altersverteilung einer Gruppe von

n = 13

junger

Menschen mit den bereits geordneten Werten 18, 18, 18, 19, 19, 19, 20, 21, 21, 21, 22, 22, 22 so gelten

18 + 18 + 18 + 19 + 19 + 19 + 20 + 21 + 21 + 21 + 22 + 22 + 22 260 = = 20 13 13 3 · 18 + 3 · 19 + 20 + 3 · 21 + 3 · 22 260 x¯ = = = 20 13 13 3 3 1 3 3 260 x¯ = · 18 + · 19 + · 20 + · 21 + · 22 = = 20 13 13 13 13 13 13 x¯ =

29

3 Maÿzahlen einer Verteilung

3.7.1 Eigenschaften des arithmetischen Mittels Da das arithmetische Mittel über alle Einzelwerte mittelt, ist die Summe der Abweichungen gleich 0, also

n X

(xi − x¯) = 0.

(3.14)

i=1 Gibt es umgekehrt eine Zahl

z,

die diese Bedingung erfüllt, so ist

z = x¯.

Man kann an

der Datenreihe der Altersverteilung damit sofort raten, dass 20 das arithmetische Mittel ist, denn zu jeder Abweichung nach oben gibt es eine genau so groÿe Abweichung nach unten. Auch das arithmetisches Mittel erfüllt eine Minimumeigenschaft, es minimiert nämlich die quadrierten Abstände zu den Beobachtungen, genauer es gilt

x¯ = min QS(x), x∈R

mit

QS(x) =

n X

(x − xi )2 .

(3.15)

i=1

Diese Eigenschaft ist sehr einfach mit Mitteln der Dierentialrechnung zu beweisen, denn die zu minimierende Funktion

QS(x)

ist dierenzierbar. Die Bezeichnung QS steht

für Quadratsumme.

3.8 Streuungsmaÿe mit Bezug auf den Mittelwert Lagemaÿe charakterisieren die Mitte einer Verteilung, Streuungsmaÿe sollen widerspiegeln, wie stark die Werte um das Zentrum verstreut sind. Bei geringer Streuung liegen die einzelnen Werte überwiegend in der Nähe von Median und Mittelwert, bei groÿer Streuung sind die durchschnittlichen Abweichungen vom Zentrum entsprechend groÿ. Streuungsmaÿe nehmen also in der Regel Bezug auf ein Lagemaÿ. Zunächst wird als Lagemaÿ das arithmetische Mittel verwendet. Als einfaches Streuungsmaÿ bietet sich an, die absoluten Abstände vom arithmetischen Mittel zu mitteln

dx¯ =

n X

|xi − x¯|

(3.16)

i=1 Es gibt aber geeignetere Streuungsmaÿe.

3.8.1 Die Varianz Ausdrücke mit Betragsstrichen sind nicht dierenzierbar, daher verwendet man für die Messung von Variabilität lieber quadratische Abweichungen vom Mittelwert. Zunächst führe ich folgende Bezeichnung ein:

QS(x) =

n X i=1

30

(xi − x)2 .

(3.17)

3.8 Streuungsmaÿe mit Bezug auf den Mittelwert Die Bezeichnung QS steht für Quadratsumme. Der Wert von

Verschiebungssatz von Steiner

Es gilt folgende Beziehung, die

QS(x) =

n X

(xi − x)2 =

i=1

n X

x

ist zunächst beliebig.

genannt wird.

(xi − x¯)2 + n (¯ x − x)2 .

(3.18)

i=1

Daraus folgt, dass die Funktion

QS(x)

für

x = x¯

minimal wird.

Der Beweis dieser wichtigen Beziehung sei nun skizziert.

QS(x) = =

n X

2

(xi − x) =

i=1 n X

n X

([xi − x¯] + [¯ x − x])2

i=1

(xi − x¯)2 + 2(xi − x¯)(¯ x − x) + (¯ x − x)2

i=1

=

n X

(xi − x¯)2 + n (¯ x − x)2 .

i=1 Dabei wurde die Beziehung

n X

(xi − x¯) = 0

i=1 verwendet. Die mittlere quadratische Abweichung vom Mittelwert ist somit ein zweck2 volles Streuungsmaÿ, das genannt und mit σ bezeichnet wird.

Varianz

n

1X (xi − x¯)2 . σ = QS(¯ x) = n i=1 2

(3.19)

Die Varianz hat nur dann den Wert 0, wenn jede einzelne quadratische Dierenz verschwindet, also alle Datenwerte mit dem Mittelwert übereinstimmen und folglich konstant sind. Bei nicht konstanten Daten ist die Varianz immer positiv. Setzt man im Verschiebungssatz von Steiner x 2 für die Varianz σ : n 1X 2 2 x σ = n i=1 i

= 0, kommt man auf eine zweite Formel − x¯2 .

(3.20)

Diese Formel ist bei Rechnungen mit der Hand oder einem Taschenrechner meist einfacher als die Formel (3.19).

Beispiel 3.9.

Seien noch einmal die Einkünfte des ersten IT-Teams betrachtet mit den

Werten von 2.000, 2.600, 3.000 und 4.000 Euro. Das arithmetische Mittel

11.600/4 = 2.900.

x¯ hat den Wert

Somit gilt:

(2.000 − 2.900)2 + (2.600 − 2.900)2 + (3.000 − 2.900)2 + (4.000 − 2.900)2 4 = 530.000 2.0002 + 2.6002 + 3.0002 + 4.0002 σ2 = − 2.9002 = 530.000 4

σ2 =

31

3 Maÿzahlen einer Verteilung (a1 , a2 , . . . , ak ), k < n mit Häugkeiten fi auf, so gelten:

Kennt man bereits die Ausprägungen gkeiten

ni

bzw. mit den relativen

den absoluten Häu-

k

1X σ = ni (ai − x¯)2 , n i=1 2

k X

2

σ =

fi (ai − x¯)2 ,

(3.21)

(3.22)

i=1 k

1X ni a2i − x¯2 . n i=1

σ2 = Beispiel 3.10.

(3.23)

Betrachten wir dazu jetzt die Monatseinkünfte des zweiten Teams von

zweimal 2.000 und zweimal 3.000 sowie einmal 6.000 Euro:

2 · (2.000 − 3.200)2 + 2 · (3.000 − 3.200)2 + (6.000 − 3.200)2 = 2.160.000, 5 1 σ2 = 2 · 2.0002 + 2 · 3.0002 + 6.0002 − 3.2002 = 2.160.000. 5

σ2 =

3.8.2 Stichprobenvarianz Die Varianz wird verwendet, wenn das Merkmal einer Grundgesamtheit untersucht wird, was in der beschreibenden Statistik sehr oft der Fall ist, da die Daten aus amtlichen oder betrieblichen Vollerhebungen stammen. In der schlieÿenden Statistik stammen die Daten in der Regel von einer Stichprobe. In diesem Fall dividiert man die Summe der

n, sondern durch n−1 und spricht empirischen Varianz s2 . Somit besteht zwischen

quadrierten Abweichungen vom Mittelwert nicht durch von der

Stichprobenvarianz

oder der

der Varianz und der Stichprobenvarianz der einfache Zusammenhang

s2 =

n σ2. n−1

(3.24)

Daraus ergeben sich folgende Formeln

n

1 X s = (xi − x¯)2 n − 1 i=1 2

(3.25)

n

1 X 2 n s = xi − x¯2 n − 1 i=1 n−1 2

(3.26)

bzw. bei Kenntnis der Häugkeitsliste

k

s2 =

1 X ni (ai − x¯)2 n − 1 i=1

(3.27)

k

1 X n s = ni a2i − x¯2 . n − 1 i=1 n−1 2

32

(3.28)

3.8 Streuungsmaÿe mit Bezug auf den Mittelwert Beim Team mit den Monatseinkünften von 2.000, 2.600, 3.000 und 4.000 Euro erhält man also

4 4 s2 = σ 2 = · 530.000 = 706.666, 67 3 3 1 s2 = (2.000 − 2.900)2 + (2.600 − 2.900)2 + (3.000 − 2.900)2 + (4.000 − 2.900)2 3 = 706.666, 67 4 1 s2 = 2.0002 + 2.6002 + 3.0002 + 4.0002 − 2.9002 = 706.666, 67. 3 3 Beim anderen Team mit den Monatseinkünften von zweimal 2.000 und zweimal 3.000 sowie einmal 6.000 Euro, kann die empirische Varianz wie folgt berechnet werden

5 5 s2 = σ 2 = · 2.160.000 = 2.700.000 4 4 1 s2 = 2 · (2.000 − 3.200)2 + 2 · (3.000 − 3.200)2 + (6.000 − 3.200)2 = 2.700.000 4 5 1 s2 = 2 · 2.0002 + 2 · 3.0002 + 6.0002 − 3.2002 = 2.700.000. 4 4

3.8.3 Die Standardabweichung Varianz und empirische Varianz haben nicht die Maÿeinheiten der Beobachtungen selbst. Daher wird die Quadratwurzel aus der Varianz bzw. der empirischen Varianz gezogen. Die somit erhaltenen Werte werden

weichung s genannt.

Standardabweichung σ bzw. empirische Standardab-

Im Beispiel des ersten Teams ergibt sich

σ =

√ 530.000 = 728, 01

Euro. Für die

empirische Standardabweichung muss die Wurzel aus der empirischen Varianz gezogen

√ s= √ 706.666, 67 = 840, 63 Euro. 2.160.000 = 1.469, 69 Euro. sich σ =

werden, also erhält man beim erstem Team Im Beispiel des zweiten Teams ergibt

Für die

empirische Standardabweichung muss die Wurzel aus der empirischen Varianz gezogen werden, also erhält man

s=

√ 2.700.000 = 1.643, 17

Euro.

3.8.4 Der Variationskoezient Die Standardabweichung ist ebenso wie die Spannweite und die mittleren absoluten Abweichungen vom arithmetischen Mittel oder vom Median ein Maÿ für die absolute Streuung. Diese sind im Allgemeinen dimensionsbehaftete Gröÿen, die von der Maÿeinheit abhängen, in der ein Merkmal gemessen wird. Relative Streuungsmaÿe sind dagegen dimensionslos. Ein Beispiel eines solchen relativen Maÿes ist der sogenannte

koezient . Für ein metrisches Merkmal X abweichung

σ

ist der Variationskoezient

mit arithmetischem Mittel

v

v=

x¯

Variations-

und Standard-

deniert durch

σ . x¯

(3.29)

33

3 Maÿzahlen einer Verteilung Der Variationskoezient ist ein relatives Streuungsmaÿ, denn das absolute Streuungsmaÿ

σ

wird ins Verhältnis gesetzt zum arithmetische Mittel des Merkmals. Der Varia-

tionskoezient hat keine Einheit, da er der Quotient zweier Gröÿen gleicher Dimension ist. Beim ersten Team ergibt sich

v = σ/¯ x = 728, 01/2.900 = 0, 2510. Bei dem Team mit den Monatseinkünften von zweimal 2.000 und zweimal 3.000 sowie einmal 6.000 ergibt sich

v = σ/¯ x = 1.469, 69/3.200 = 0, 4593. Betrachten wir die bei einem Wettkampf erbrachten Weiten von 15 Sportstudenten im Kugelstoÿen mit der in [m] angegebenen Messreihe:

6, 1 6, 6 6, 9 7, 1 7, 2 7, 2 7, 4 7, 7 7, 9 8, 2 8, 4 9, 1 10, 3 10, 5 11, 4 Man erhält:

1 (6, 1 + 6, 6 + · · · + 11, 4) = 8, 13 15 1 σ 2 = (6, 12 + 6, 62 + · · · + 11, 42 ) − 8, 132 = 2, 24 15 p σ = 2, 24 = 1, 496662955 σ v = = 0, 184091384 x¯ s2 = (15/14)σ 2 = 2, 4 p s = 2, 4 = 1, 549193338 x¯ =

3.8.5 Arbeitstabelle zur Berechnung Der Mittelwert und die Varianz sowie die davon abgeleiteten Gröÿen lassen sich mit Arbeitstabellen berechnen. Ich zeige dies ein letztes Mal an den Daten der Einkünfte der beiden IT-Teams. Im linken Tabellenteil werden die Daten des ersten Teams verwendet. In den Zellen B2 bis B5 stehen die Daten, darunter deren Summe, die durch die Anzahl

n=4

der Daten geteilt wird und den Mittelwert

x¯

in der Zelle A8 ergibt. In der Spalte

C sehen Sie direkt die Quadrate der Daten, in der Zelle C6 dann deren Summe. Die Varianz ergibt sich in der Zelle B8 durch Division dieser Summe durch n, wovon dann das Quadrat des Mittelwerts, also x ¯2 , abgezogen wird. Die Standardabweichung σ sehen Sie in der Zelle C8, dafür muss nur die Wurzel aus der Varianz gezogen werden. Auch die empirische Varianz ergibt sich sofort aus der Varianz durch Multiplikation mit

n/(n−1),

hier also mit 4/3. Die empirische Standardabweichung folgt durch Wurzelziehen. Der Variationskoezient ist der Bruch

v = σ/¯ x.

Für das zweite Team müssen die Ausprägungen

ai

und deren Häugkeiten

ni

berück-

sichtigt werden, die entsprechenden Werte stehen im Bereich F2:G4. In den Zellen H2

34

3.9 Mittlere absolute Abstände bis H4 stehen die Produkte

ni · a2i . Die sich in den Zellen H6 bzw. I6. Der Mittelwert x ¯ steht in durch Division des Wertes der Zelle H6 durch n = 5. Die

n i · ai

jeweiligen Summen benden der Zelle G8 und ergibt sich

und in den Zellen I2 bis I4 die Produkte

Varianz steht in der Zelle H8 und ergibt sich durch Division des Wertes der Zelle G6 durch n = 5, wovon dann wieder x ¯2 abgezogen wird.

A 1 2 3 4 5 6 7 8 9 10

B

i 1 2 3 4

xi 2.000 2.600 3.000 4.000 11.600 σ2 530.000

xquer 2900 s2 s 706.666,6667 840,6347

C

D E

2

i

xi 4.000.000 6.760.000 9.000.000 16.000.000 35.760.000

F

G ni

ai 1 2000 2 3000 3 6000

σ 728,0110

H 2 2 1 5

xquer 3.200 s2 2.700.000

v 0,2510

I

ni*ai 4.000 6.000 6.000 16.000

ni*ai2 8.000.000 18.000.000 36.000.000 62.000.000

σ2 2.160.000

σ 1.469,6938

s 1643,1677

v 0,4593

Abbildung 3.3: Arbeitstabelle für einige Maÿzahlen

Schneller und sicherer kommen Sie mit den Excel-Funktionen zum Ziel, die ich später vorstellen werde. Das gezeigte Schema ist für Rechnungen mit der Hand geeignet.

3.9 Mittlere absolute Abstände Die Streuungsmaÿe Varianz und Standardabweichung beziehen sich auf das arithmetische Mittel. Es gibt aber auch Streuungsmaÿe, die als Lagemaÿ den Median verwenden, und zwar die gemittelten absoluten Abstände vom Median. Es ergibt sich dann

n

dx0,5

1X = |xi − x0,5 | n i=1

(a1 , a2 , . . . , ak ), k < n Häugkeit fi auf, so gelten

Kennt man bereits die Ausprägungen gkeiten

ni

bzw. mit der relativen

(3.30)

mit den absoluten Häu-

k

dx0,5

1X ni |ai − x0,5 | , = n i=1

dx0,5 =

k X

fi |ai − x0,5 | .

(3.31)

(3.32)

i=1

Beispiel 3.11.

Die IT-Abteilung eines Unternehmens besteht aus zwei Teams. Das

erste hat vier Mitarbeiter mit den Gehältern von 2.000, 2.600, 3.000 und 4.000 Euro. Im

35

3 Maÿzahlen einer Verteilung zweiten verdienen je zwei Mitarbeiter 2.000 bzw. 3.000 und die Leiterin 6.000 Euro im Monat. Hier ist im ersten Team der Median der Mittelwert zwischen dem zweiten und drittem Wert, also 2.800 Euro. Im zweiten Team ist der Median der dritte Wert, also 3.000 Euro. Somit folgen die Werte

|2.000 − 2.800| + |2.600 − 2.800| + · |3.000 − 2.800| + · |4.000 − 2.800| = 600; 4 2 · |2.000 − 3.000| + 2 · |3.000 − 3.000| + |6.000 − 3.000| = 1.000 = 5

dx0,5 = dx0,5

Die Werte der zweiten Gruppe sind stärker verstreut als in der ersten Gruppe.

3.10 Transformationseigenschaften der Maÿzahlen Oft werden die ursprünglichen Daten

(x1 , x2 , . . . , xn )

einer linearen Transformation un-

terworfen, d.h.

yi = a xi + b. Durch diese Transformation ändern sich auch die Maÿzahlen und zwar gelten folgende Beziehungen:

y¯ = a x¯ + b y0,5 = a x0,5 + b σy2 = a2 σx2

(3.33) (3.34) (3.35)

σy = |a| σx

(3.36)

Nehmen wir wieder das Team mit den Ausgangswerten von je zweimal 2.000 Euro bzw. 3.000 EURO und einmal 6.000 Euro als Beispiel. Der dankbare Chef erhöhe die Gehälter um den Sockelbetrag von 200 Euro und um zusätzliche 5 Prozent. Dann gilt also:

yi = 1, 05 xi + 200. Ohne Berechnung der Einzelwerte können wir somit folgende neue Lagemaÿe angeben:

y¯ = a x¯ + b = 1, 05 · 3.200 + 200 = 3.560 y0,5 = a x0,5 + b = 1, 05 · 3.000 + 200 = 3.350 σy2 = a2 σx2 = 1, 052 · 2.160.000 = 2.381.400 σy = a σx2 = 1, 05 · 1.469, 690 = 1.543, 18

3.11 Anforderungen an Maÿzahlen metrischer Merkmale Abschlieÿend sei kurz gestreift, welche allgemeinen Anforderungen an Maÿzahlen metrischer Merkmale gestellt werden. Der Ausgangspunkt ist der Datensatz

36

(x1 , . . . , xn ).

Bei

3.12 Abschlieÿendes Beispiel metrischen Merkmalen wird eine Maÿzahl

m durch eine Abbildung ϕ : Rn → R wie folgt

festgelegt

m = ϕ(x1 , . . . , xn ) Bei Lagemaÿen sollte die Funktion

ϕ

(3.37)

die beiden Eigenschaften

ϕ(x1 + t, x2 + t, . . . , xn + t) = ϕ(x1 , x2 , . . . , xn ) + t, ϕ(ax1 , ax2 , . . . , axn ) = aϕ(x1 , x2 , . . . , xn )

(3.38) (3.39)

erfüllen. Wenn alle Daten um einen konstanten Wert verändert werden, soll auch das Lagemaÿ sich entsprechend anpassen. Werden dagegen alle Daten mit einem Faktor multipliziert, soll sich das auch auf das Lagemaÿ so auswirken. Bei Streuungsmaÿen werden dagegen

ϕ(x1 , x2 , . . . , xn ) ≥ 0 ϕ(x1 + t, x2 + t, . . . , xn + t) = ϕ(x1 , x2 , . . . , xn ), ϕ(ax1 , ax2 , . . . , axn ) = |a|p ϕ(x1 , x2 , . . . , xn ), p > 0

(3.40) (3.41) (3.42)

gefordert. Streuungsmaÿe müssen nichtnegativ und für nicht konstante Daten sogar positiv sein und dürfen sich bei einer Verschiebung der Daten nicht ändern, während die Multiplikation mit einem Faktor das Streuungsmaÿ um eine Potenz

p des Betrags dieses ϕ ste-

Faktors vergröÿert. Auÿerdem sollte bei allen Maÿzahlen die zugehörige Funktion

tig sein, damit kleine Änderungen bei den Daten auch nur kleine Änderungen bei den Maÿzahlen nach sich ziehen.

3.12 Abschlieÿendes Beispiel Beispiel 3.12.

Die folgende Urliste stammt von Frondel und gibt Auskunft über die

Körpergröÿen von 20 Teilnehmern eines Kurses in Statistik. 1,56, 2,05, 1,76, 1,68, 1,86, 1,71, 1,62, 1,83, 1,76, 1,83 1,75, 1,69, 1,91, 1,89, 1,83, 1,93, 1,71, 1,78, 1,71, 1,83 Es sollen nun die wichtigsten Kennzahlen berechnet werden. Für die Bestimmung der Quantile wird die aufsteigend geordnete Urliste benötigt, sie lautet 1,56, 1,62, 1,68, 1,69, 1,71, 1,71, 1,71, 1,75, 1,76, 1,76 1,78, 1,83, 1,83, 1,83, 1,83, 1,86, 1,89, 1,91, 1,93, Hier sind sowohl

10 = 20 · 0, 5

als auch

5 = 20 · 0, 25

2,05

sowie

15 = 20 · 0, 75

ganzzahlig.

Deshalb ergibt sich für die Quartile:

x0,25 = Q1 = 0, 5(x(5) + x(6) ) = 0, 5(1, 71 + 1, 71) = 1, 71 x0,5 = Q2 = 0, 5(x(10) + x(11) ) = 0, 5(1, 76 + 1, 78) = 1, 77 x0,75 = Q3 = 0, 5(x(15) + x(16) ) = 0, 5(1, 83 + 1, 86) = 1, 845

37

3 Maÿzahlen einer Verteilung Für das obere Terzil

T2 = x2/3

ergibt sich wegen

13, 3333 = 20 · 2/3

T2 = x2/3 = x(14) = 1, 83. Weitere Kennzahlen werden wie folgt berechnet

1 (1, 56 + 2, 05 + · · · + 1, 83) = 1, 7845 20 1 σ 2 = (1, 562 + 2, 052 + · · · + 1, 832 ) − 1, 78452 = 0, 01244 20 p σ = 0, 01244 = 0, 11156 σ 0, 11156 v= = = 0, 062516 x¯ 1, 7845 s2 = (20/19)σ 2 = 0, 013099737 p s = 0, 013094737 = 0, 114454082 x¯ =

3.13 Excel-Funktionen Für die hier vorgestellten Maÿzahlen gibt es Funktionen in Excel. Vorausgesetzt wird immer, dass die Daten in einem zusammenhängenden Bereich stehen, z.B. folgende acht Zahlen im Bereich B2:B9 10

3

12

6

1

11

4

9

Der Mittelwert wird durch =MITTELWERT(B2:B9) berechnet.

A B C 1 i xi x(i) 2 1 10 1 3 2 3 3 4 3 12 4 5 4 6 6 6 5 1 9 7 6 11 10 8 7 4 11 9 8 9 12

D Q1 Q2 Q3 xquer σ2 σ s2 s v

E

F 3,5 =0,5*(C3+C4) 7,5 =0,5*(C5+C6) 10,5 =0,5*(C7+C8) =MITTELWERT(B2:B9) =MITTELWERT(B2:B9) =VAR.P(B2:B9) =VARIANZEN(B2:B9) =STABW.N(B2:B9) =STABWN(B2:B9) =VAR.S(B2:B9) =VARIANZ(B2:B9) =STABW.S(B2:B9) =STABW(B2:B9) =E6/E4 =F6/F4

G =QUANTIL(B2:B9;0,25) =QUANTIL(B2:B9;0,5) =QUANTIL(B2:B9;0,75) 7 14,5 3,80788655293195 16,5714285714286 4,07080195679286 0,543983793275993

H 3,75 7,5 10,25

Abbildung 3.4: Arbeitstabelle für einige Maÿzahlen

2 Für die Varianz muss man unterscheiden zwischen der Varianz σ für eine Gesamt2 heit, englisch Population, und der empirischen Varianz s für eine Stichprobe, englisch 2 Sample. Die Funktion VARIANZEN berechnet σ . Die Funktion VARIANZ berechnet 2 die empirische Varianz, also s . Für die Standardabweichung einer Grundgesamtheit gibt es Funktion STABWN. Bei den obigen Zahlen ergibt sich somit für =STABWN(B2:B9) der Wert 3,807886553,

38

3.14 Aufgaben also die Quadratwurzel von 14,5. Für die Standardabweichung einer Stichprobe gibt es die Funktion STABW. Daher hat =STABW(B2:B9) den Wert 4,070801957, also die Quadratwurzel von 16,57142857. Die Funktionen sind im Bereich F4:F8 zu sehen. Im neueren Excel sollen diese Funktionen nicht mehr verwendet werden, sondern für die beiden Varianzen die Funktionen VAR.P und VAR.S, wobei sich P immer auf die Grundgesamtheit (Population) und S auf eine Stichprobe (Sample) beziehen. Bei den obigen Zahlen ergeben sich somit für =VAR.P(B2:B9) der Wert 14,5 und für =VAR.S(B2:B9) der Wert 16,57142857, also das 8/7-fache von 14,5. Für die beiden Standardabweichungen gibt es die beiden Funktionen STABW.N und STABW.S. Warum hier ein N statt dem P steht, weiÿ niemand. Bei den obigen Zahlen ergeben sich somit für =STABW.N(B2:B9) der Wert 3,807886553, und für =STABW.S(B2:B9) der Wert 4,070801957. Die Funktionen sind im Bereich E4:E8 zu sehen. Alle Funktionen müssen immer auf die Urliste oder die geordnete Urliste angewendet werden, niemals nur auf die Ausprägungen, da deren absolute Häugkeit unberücksichtigt bliebe! Für den Variationskoezienten gibt es in Excel keine Funktion. Die Quantile berechnet Excel anders als von mir beschrieben. Es gibt ab Excel 2010 zwei Funktionen, und zwar QUANTIL.INKL und QUANTIL.EXKL. Die erste entspricht der alten Funktion QUANTIL. Sie müssen als erstes Argument einen Bereich eingeben, hier also B2:B9 und als zweiten den Wert von

p

als Zahl zwischen 0 und 1. Das erste

Quartil sollte somit durch =QUANTIL.INKL(B2:B9;0,25) bestimmt werden. Excel liefert 3,75, während nach meiner Denition der Mittelwert von 3 und 4 zu bilden ist, also 3,5. Excel rechnet dabei wie folgt

r = (n − 1) · p, wobei n die Anzahl der bereits aufsteir in den ganzzahligen Teil i und den Rest

1. Bestimme zunächst die Zahl

gend angeordneten Werte ist. Zerlege nach dem Komma 2. Das Quantil

xp

d.

ist dann

xp = (1 − d)x(i) + dx(i+1) . Im obigen Beispiel sind für das erste Quartil

r = (8 − 1)/4 = 2, 75,

und somit sind

i=2

und

p = 0, 25 und es ist n = 8. d = 0, 75 und deshalb

Also ist

xp = (1 − d)x(i) + dx(i+1) = 0, 25 · 3 + 0, 75 · 4 = 3, 75. Bitte beachten Sie, dass diese Berechnungsmethode zwar einleuchtend ist, aber von der in der Statistik üblichen abweicht!

3.14 Aufgaben Aufgabe 1.

In der Abiturprüfung kamen die Schülerinnen des Sportleistungskurses

eines Gymnasiums beim Kugelstoÿen auf folgende Weiten

X

in [m]

39

3 Maÿzahlen einer Verteilung 3,23

2,35

5,37

3,49

6,90

2,93

1,81

4,26

4,44

2,73.

Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie das untere Quartil, den Median, das obere Quartil, das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten

X.

des Merkmals

Aufgabe 2.

Der Notenspiegel einer Klausur ist wie folgt: 6-mal sehr gut, je 5-mal gut

und befriedigend, 3-mal ausreichend und einmal mangelhaft. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen dann die Stabverteilung sowie die empirische Verteilungsfunktion. Geben Sie abschlieÿend den Modus, das untere Quartil, den Median und das obere Quartil sowie das 95 % Quantil an. Warum ist es hier nicht sinnvoll Mittelwert und Varianz zu berechnen?

Aufgabe 3.

Ein Gastwirt zählt die Anzahl

X

der Gäste an seinen Tischen und kommt

auf folgende Werte: 3

6

5

8

6

4

4

4

3

6.

Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Ordnen Sie die Urliste und bestimmen Sie damit den Modus, das untere Quartil, den Median, das obere Quartil und die Quantile

x0,2

sowie

x0,9 .

Berechnen Sie

das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals

X.

Stellen Sie die Daten als Häugkeitstabelle dar. Berechnen

Sie damit die drei Quartile erneut. Zeichnen Sie abschlieÿend das Stabdiagramm für die relativen Häugkeiten und die Verteilungsfunktion.

Aufgabe 4.

Erstellen Sie den einfachen Boxplot zu den Daten des Beispiels 2.1 auf Seite

12.

Aufgabe 5.

In einem Projekt zur Betriebsinformatik wurden die Studierenden unter

anderem nach dem Alter ihres Vaters gefragt. Hier ist die geordnete Stichprobe: 44 46 49 50 50 51 51 51 51 51 52 52 53 53 53 54 55 56 57 58 60 Man erstelle beide Varianten des Boxplots. Die Daten stammen von Heindl, Seite 117.

Aufgabe 6.

In der folgenden Urliste ist das Lebensalter

X

von Studenten eines Kurses

aufgeführt. 19, 21, 26, 20, 22, 19, 20, 19, 23, 21, 52, 22, 19, 21, 20, 23, 22, 21, 21, 20, 20

40

3.14 Aufgaben Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Erstellen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion. Berechnen Sie mit Hilfe der Häugkeitstabelle den Modus, das untere Quartil, den Median, das obere Quartil, die Quantile

x0,4

sowie

x0,9 ,

das arithmetische Mittel, die Varianz und

die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals

X.

Der Wert 52 ist

ein Zahlendreher und wäre korrekt 25. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die Standardabweichung? Ein anderer Auswerter dieser Daten unterdrückt den Ausreiÿer von 52 ganz, geht also nur noch von 20 statt 21 Werten aus. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die Standardabweichung?

41

4 Ausgewählte Lösungen 4.1 Zu Kapitel 1 Aufgabe 1.

Eine Firma der Metallverarbeitung fasst die wichtigsten Daten über alle

Mitarbeiter in einer Datenmatrix zusammen, deren Felder das Geschlecht, die Abteilung, das Geburtsjahr sowie Tarifgruppe und Gehalt sind. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an. Die statistischen Einheiten sind die Mitarbeiter, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Vollerhebung. Das Merkmal Geschlecht ist nominal und dichotom, das Merkmal Abteilung ist nominal und polytom. Das Merkmal Geburtsjahr ist metrisch diskret, die Tarifgruppe ist ordinal und das Gehalt metrisch stetig.

ID

X (Sex)

A (Abt.) J (Geb.Jahr) T (Tarifg.) G (Gehalt)

1

1 männlich

Personal

1972

T4

2.345

2

0 weiblich

Vertrieb

1980

T1

7.050

Aufgabe 2.

Eine Hochschule befragt 100 zufällig ausgewählte Studenten nach Ge-

schlecht, Nationalität, Alter, Schulbildung und Fachbereich. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an. Die statistischen Einheiten sind die Studenten, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Teilerhebung. Die Merkmale Nationalität und Fachbereich sind nominal und polytom, die Schulbildung ordinal, das Alter metrisch diskret.

Aufgabe 3.

Zeigen Sie am Beispiel der in Deutschland zugelassenen PKW den Zusam-

menhang zwischen Bestands- und Bewegungsmassen. Die zugelassenen PKW bilden eine Bestandsmasse, Zulassungen und Abmeldungen bilden Bewegungsmassen. Die Veränderungen bei der Bestandsmasse zwischen zwei Erhebungen werden durch die beiden Bewegungsmassen verursacht.

43

4 Ausgewählte Lösungen

4.2 Zu Kapitel 2 Aufgabe 1.

An einem Kochkurs nahmen neun Männer und elf Frauen teil. Was sind

hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und stellen Sie dann die Daten als Säulendiagramm dar. Warum gibt es hier keine kumulierten Häugkeiten und somit auch keine Verteilungsfunktion?

ai Männlich Weiblich Summen

ni

fi

9 11 20

0,45 0,55 1

Säulendiagramm

0,6 0,4 0,2 0

Männlich

Weiblich

Die statistischen Einheiten sind die Teilnehmer, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Vollerhebung. Das Merkmal ist das Geschlecht des Teilnehmers, die möglichen Ausprägungen sind männlich und weiblich. Dieses Merkmal ist nominal, daher gibt es keine Anordnung und folglich auch weder kumulierte Häugkeiten noch die Verteilungsfunktion. Die Häugkeitstabelle und das Säulendiagramm sind abgebildet.

Aufgabe 2.

Der Chef einer Pizzeria glaubt, dass der Koch die Salamischeiben auf der

Pizza Salami Maximale zu unregelmäÿig verteilt. Er nimmt eine Stichprobe und erhält die folgenden Werte für die Anzahl 10

12

7

12

8

8

14

8

X

von Salamischeiben

12

10

10

7

12

14

10

14

7

12

8

8

Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion.

1 2 3 4 5 6 7 8 9 10 11

44

A i Urliste xi geordnete Urliste x(i)

B

C D E F G H I J K 1 2 3 4 5 6 7 8 9 10 10 12 7 12 8 8 14 8 12 10 7 7 7 8 8 8 8 8 10 10

fi

L M N O P 11 12 13 14 15 10 7 12 14 10 10 10 12 12 12 i

1 0,75 0,5 0,25 0

0,3 0,2 0,1 0 6 7 8 9 10 11 12 13 14 15 Anzahl Salamischeiben

1 2

6 7 8 9 10 11 12 13 14 15 Anzahl Salamischeiben

Q R S 16 17 18 14 7 12 12 12 14

T 19 8 14

U 20 8 14

ai ni Ni

fi

Fi

7 8 3 10 4 12 5 14

3 3 0,15 0,15 5 8 0,25 0,4 4 12 0,2 0,6 5 17 0,25 0,85 3 20 0,15 1

4.2 Zu Kapitel 2 Die statistischen Einheiten sind die insgesamt hergestellten Pizzen der Sorte Salami Maximale, die zusammen die statistische Gesamtheit bilden. Da nur 20 Pizzen untersucht wurden, handelt es sich um eine Teilerhebung. Das Merkmal ist die Anzahl von Salamischeiben, die möglichen Ausprägungen sind natürliche Zahlen. Dieses Merkmal ist metrisch diskret. Die Häugkeitstabelle und das Säulendiagramm sowie die Verteilungsfunktion sind abgebildet.

45

4 Ausgewählte Lösungen

4.3 Zu Kapitel 3 Aufgabe 1.

In der Abiturprüfung kamen die Schülerinnen des Sportleistungskurses

eines Gymnasiums beim Kugelstoÿen auf folgende Weiten 3,23

2,35

5,37

3,49

6,90

2,93

1,81

X

4,26

in [m]

4,44

2,73.

Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie das untere Quartil, den Median, das obere Quartil, das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals

X.

Die statistischen Einheiten sind die Schülerinnen des Sportleistungskurses, die zusammen die Gesamtheit bilden. Da alle Einheiten berücksichtigt werden, handelt es sich um eine Vollerhebung. Das Merkmal sind die erzielten Weiten. Dieses Merkmal ist metrisch stetig. Die restliche Lösung nden Sie im abgebildeten Arbeitsblatt. Im Bereich F4:G7 sehen Sie die Funktionen von Excel für die Werte für das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung. Die Funktionen der Spalte F gelten nur im neuen Excel.

A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

i

B

C x(i) 1,81 2,35 2,73 2,93 3,23 3,49 4,26 4,44 5,37 6,9 =SUMME(C2:C11) σ2 xquer =C12/A11 =D12/A11-B14^2 3,751 2,105749

xi 1 3,23 2 2,35 3 5,37 4 3,49 5 6,9 6 2,93 7 1,81 8 4,26 9 4,44 10 2,73

D x(i)2 =C2^2 =C3^2 =C4^2 =C5^2 =C6^2 =C7^2 =C8^2 =C9^2 =C10^2 =C11^2 =SUMME(D2:D11) σ =C14^0,5 1,45112

E Q1 Q2 Q3 xquer σ2 σ s2 s

F 2,73 3,36 4,44 =MITTELWERT(B2:B11) =VAR.P(B2:B11) =STABW.N(B2:B11) =VAR.S(B2:B11) =STABW.S(B2:B11)

s2 s =C14*10/9 =E14^0,5 2,339721 1,529615

G =C4 =0,5*(C6+C7) =C9 =VARIANZEN(B2:B11) =STABWN(B2:B11) =VARIANZ(B2:B11) =STABW(B2:B11)

v =D14/B14 0,386862

Abbildung 4.1: Maÿzahlen der Aufgabe

Aufgabe 2.

Der Notenspiegel einer Klausur ist wie folgt: 6-mal sehr gut, je 5-mal gut

und befriedigend, 3-mal ausreichend und einmal mangelhaft. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen dann die Stabverteilung sowie die empirische Verteilungsfunktion. Geben Sie abschlieÿend den Modus, das untere Quartil, den Median und das obere Quartil sowie das 95 % Quantil an. Warum ist es hier nicht sinnvoll

46

4.3 Zu Kapitel 3 Mittelwert und Varianz zu berechnen? Die statistischen Einheiten sind die Teilnehmer, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Vollerhebung. Das untersuchte Merkmal ist die Note des Teilnehmers, die möglichen Ausprägungen sind sehr gut, gut usw. Das Merkmal ist ordinal, folglich sollten Mittelwert und Varianz nicht berechnet werden, was aber gerade bei Noten fast immer doch gemacht wird. Die Häugkeitstabelle und die beiden Diagramme sind abgebildet. Ich habe die Noten wie in der Schule üblich durch die Zahlen 1 bis 5 codiert.

1 2 3 4 5 6 7 8 9 10

A i 1 2 3 4 5

B ai

C D ni Ni 1 2 3 4 5

6 5 5 3 1 Modus 1 Q1 1 Q2 2 Q3 3

6 11 16 19 20

E fi

F Fi

0,3 0,25 0,25 0,15 0,05

G

0,3 0,55 0,8 0,95 1

x0,95 4 und 5

H

I

0,35

1,2

0,3

1

0,25

J

0,8

0,2 0,6

0,15 0,1

0,4

0,05

0,2

0

0 0 1 2 3 4 5 6

0

1

2

3

4

5

6

Abbildung 4.2: Häugkeitstabelle, Diagramme und Maÿzahlen der Verteilung.

Modus: Für den Modus wird der Index

i=1

ist das der Index

a1 = sehr

mit

ni = 6.

i

ni

mit dem gröÿten Wert von

Die zugehörige Ausprägung

ai

gesucht, hier

ist der Modus, also

gut.

Unteres Quartil: Zum ersten Mal wird für den Index

i = 1 Fi > 0, 25 > Fi−1 ,

also ist

a1

(sehr gut) das untere Quartil. Median: Zum ersten Mal wird für den Index

i = 2 Fi > 0, 5 > Fi−1 ,

also ist

a2

(gut) der

Median. Oberes Quartil: Zum ersten Mal wird für den Index

i = 3 Fi > 0, 75 > Fi−1 ,

also ist

a3

(befriedigend) das obere Quartil. Das Quantil

x0,95

ist nicht eindeutig, da für den Index

gilt, somit ergeben sich sowohl die Werte

a4

i=4

die Gleichung

(ausreichend) als auch

a5

Fi = 0, 95

(mangelhaft).

Eine Mittelung zwischen a4 und a5 ist hier nicht statthaft, da das betrachtete Merkmal ordinal ist. Aufgabe 3.

Ein Gastwirt zählt die Anzahl

X

der Gäste an seinen Tischen und kommt

auf folgende Werte: 3

6

5

8

6

4

4

4

3

6.

Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Ordnen Sie die Urliste und bestimmen Sie damit den Modus, das untere Quartil, den Median, das obere Quartil und die Quantile

x0,2

sowie

x0,9 .

Be-

rechnen Sie das arithmetische Mittel, die Varianz und die Standardabweichung sowie

47

4 Ausgewählte Lösungen die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals

X.

Stellen Sie die Daten als Häugkeitstabelle dar.

Berechnen Sie damit die drei Quartile erneut. Zeichnen Sie abschlieÿend das Stabdiagramm für die relativen Häugkeiten und die Verteilungsfunktion. Die statistischen Einheiten sind die Tische, die zusammen die Gesamtheit bilden. Da alle Tische berücksichtigt werden, handelt es sich um eine Vollerhebung. Das Merkmal sind die Anzahl der Gäste am Tisch. Dieses Merkmal ist metrisch diskret. Die Häugkeitstabelle und die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion sind abgebildet.

A B C D E F G 1 xi x(i) i ai ni Ni 2 3 3 1 3 2 2 3 6 3 2 4 3 5 4 5 4 3 5 1 6 5 8 4 4 6 3 9 6 6 4 5 8 1 10 7 4 5 8 4 6 9 4 6 10 3 6 2 11 6 8 0

H fi

I

J

K

Fi

0,2 0,3 0,1 0,3 0,1

L

N

O

P

fi

0,2 0,5 0,6 0,9 1

0,2 0,1 ai

0

Q

2 3 4 5 6 7 8

4

4

0 0,3

4 5 0,5 0,5

R

S

T

U V W

Fi

1 0,8 0,6 0,4 0,2 0

0,3

3 3 0 0,2 3 4 0,2 0,2

3 0

M

ai

3 4 5 6 8

X

0,2 0,5 0,6 0,9 1

2 3 4 5 6 7 8

5 5 0 0,2 5 6 0,6 0,6

6 6 0 0,2

8

6 8 0,9 0,9

8 1

8

0 0,1

9 1

Abbildung 4.3: Häugkeitstabelle und Diagramme

Modus: Für den Modus wird der Index gilt für

i=2

und

i=4

mit

ni = 3 .

i

ni gesucht, hier a2 = 4 und a4 = 6

mit dem gröÿten Wert von

Die zugehörigen Ausprägungen

sind Modi. Unteres Quartil: Zum ersten Mal wird für den Index

a2 = 4

i = 2 Fi > 0, 25 > Fi−1

i = 3 Fi > 0, 5 aber Fi−1 = 0, 5, somit Q2 = 4, 5. den Index i = 4 Fi > 0, 75 > Fi−1 , also

Median: Zum ersten Mal wird für den Index der Mittelwert von

a3

und

a2

ist

der Median, also

Oberes Quartil: Zum ersten Mal wird für

a4 = 6

, also ist

das untere Quartil.

ist

das obere Quartil.

Wie beim Median begründet sind

x0,2 = 3, 5

und

x0,9 = 7.

Für die restlichen Maÿzahlen gelten

x¯ = (3 · 2 + 4 · 3 + 5 · 1 + 6 · 3 + 8 · 1)/10 = 4, 9 σ 2 = (32 · 2 + 42 · 3 + 52 · 1 + 62 · 3 + 82 · 1)/10 − 4, 92 = 2, 29 s2 = (10/9) · σ 2 = 2, 5¯4 √ σ = σ 2 = 1, 51327460 √ s = s2 = 1, 59513148 v = σ/¯ x = 0, 30883155 Aufgabe 4. 12.

48

Erstellen Sie den einfachen Boxplot zu den Daten des Beispiels 2.1 auf Seite

4.3 Zu Kapitel 3 Q1 , Q2 und Q3 noch der Hier sind Q0 = 5, Q1 = 6,

Für einen einfachen Boxplot werden neben den drei Quartilen

Q0 und der gröÿte Q4 Wert der Daten benötigt. Q2 = 7, Q3 = 8 und Q4 = 10, das ergibt den folgenden Boxplot:

kleinste

Einfacher Boxplot: Studiendauer in Semester

4

5

6

7

8

9

10

11

Abbildung 4.4: Boxplot zu den Daten des Beispiels 2.1

Aufgabe 5.

In einem Projekt zur Betriebsinformatik wurden die Studierenden unter

anderem nach dem Alter ihres Vaters gefragt. Hier ist die geordnete Stichprobe: 44 46 49 50 50 51 51 51 51 51 52 52 53 53 53 54 55 56 57 58 60 Man erstelle beide Varianten des Boxplots. Die Daten stammen von Heindl, Seite 117.

n = 21 bereits geordnete Daten. Somit sind Q0 = 44, Q1 = x6 = 51, Q2 = x11 = 52, Q3 = x16 = 54 und Q4 = x21 = 60. Der einfache Boxplot sieht daher wie folgt aus Es sind

Einfacher Boxplot: Alter von Vätern

42

44

46

48

50

52

54

56

58

60

62

Abbildung 4.5: Einfacher Boxplot

IQR = Q3 −Q1 = 54−51 = 3, das 1,5-fache davon beträgt Q1 − 4, 5 = 46, 5, also Z0 = 49. Der obere Zaun ist die gröÿte Beobachtung unterhalb von Q3 + 4, 5 = 58, 5, also Z4 = 58. Ausreiÿer nach unten sind alle Werte unterhalb von Z0 , also 46 und 44. Ausreiÿer nach oben sind alle Werte oberhalb von Z4 , also nur 60. Der zweite Boxplot Der Interquartilsabstand ist

4,5. Der untere Zaun ist die kleinste Beobachtung oberhalb von

sieht daher wie folgt aus

Variante des Boxplots: Alter von Vätern

42

44

46

48

50

52

54

56

58

60

62

Abbildung 4.6: Variante des Boxplots

49

4 Ausgewählte Lösungen Aufgabe 6.

In der folgenden Urliste ist das Lebensalter

X

von Studenten eines Kurses

aufgeführt. 19, 21, 26, 20, 22, 19, 20, 19, 23, 21, 52, 22, 19, 21, 20, 23, 22, 21, 21, 20, 20 Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Erstellen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion. Berechnen Sie mit Hilfe der Häugkeitstabelle den Modus, das untere Quartil, den Median, das obere Quartil, die Quantile

x0,4

sowie

x0,9 ,

das arithmetische Mittel, die Varianz und

die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals

X.

Der Wert 52 ist

ein Zahlendreher und wäre korrekt 25. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die Standardabweichung? Ein anderer Auswerter dieser Daten unterdrückt den Ausreiÿer von 52 ganz, geht also nur noch von 20 statt 21 Werten aus. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die Standardabweichung? Die statistischen Einheiten sind die Studenten des Kurses, die zusammen die Gesamtheit bilden. Da alle Teilnehmer berücksichtigt werden, handelt es sich um eine Vollerhebung. Das Merkmal ist Alter der Teilnehmer. Dieses Merkmal ist metrisch diskret. Bis auf die beiden letzten Fragen sind alle weiteren Lösungen im folgenden Arbeitsblatt versammelt.

i

ai ni Ni 1 2 3 4 5 6 7

19 20 21 22 23 26 52

4 5 5 3 2 1 1

4 9 14 17 19 20 21

fi

Fi

0,190476 0,238095 0,238095 0,142857 0,095238 0,047619 0,047619

0,190476 0,428571 0,666667 0,809524 0,904762 0,952381 1,000000

Modus 20 und 21 xquer 2 Q1 20 σ 21 22 19 23

Q2 Q3 x0,1 x0,9

22,4285714 46,4353741 6,8143506 48,7571429 6,98263151 0,30382455

σ s2 s v

1 0,8 0,6 0,4 0,2 0

0,2 0,1 0 10

20

30

40

50

10

20

30

40

50

Abbildung 4.7: Häugkeitstabelle, Diagramme und Maÿzahlen.

50

Index arithmetisches Mittel, 29

kardinal, 5

Ausprägung, 12

kategoriell, 5

Ausreiÿer, 23, 28

metrisch, 5

Balkendiagramm, 14 Bestandsmasse, 4 Bewegungsmasse, 4 Boxplot, 27 Datenmatrix, 8

Nominal, 5 Ordinal, 5 polytom, 5 qualitatativ, 6 quantitativ, 6 Merkmalsausprägung, 4 Merkmalsträger, 4, 5

empirische Verteilungsfunktion, 15

Mittelwert, 29

Ereignismasse, 4

Modalwert, 21 Modus, 21

Fragebogen, 7 geschlossene Fragen, 8 oene Fragen, 8

Nominalskala, 7 Ordinalskala, 7

Grundgesamtheit, 2, 4 Gruppierte Daten, 13

Quantil, 23 Quartil

Häugkeit absolute, 13

oberes, 24 unteres, 24

relative, 13 Häugkeitsliste, 13

Säulendiagramm, 14, 18

Häugkeitstabelle, 14

Schiefemaÿe, 21 Skalenniveau, 6

Interquartilsabstand, 26

Spannweite, 27

Intervallskala, 7

Stabdiagramme, 14

Kreisdiagramm, 18 Lagemaÿe, 21 Median, 22

Standardabweichung, 33 empirische, 33 Statistik, 1 beschreibende, 2 schlieÿende, 2

Mehrfachfrage, 8

Statistische Einheit, 4

Merkmal, 4

Stichprobe, 2

dichotom, 5

Stichprobenvarianz, 32

51

Index Streuungsmaÿe, 21 Treppenfunktion, 16 Urliste, 11 Varianz, 31 empirische, 32 Variationskoezient, 33 Verschiebungssatz von Steiner, 31 Vollerhebung, 2 Wahrscheinlichkeitstheorie, 2

52