Skript zur Vorlesung Statistik Dietrich Baumgarten
«
22. Oktober 2012
Inhaltsverzeichnis 1 Grundlagen
1
1.1
Übersicht und Lernziele
. . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Zum Begri Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.3
Wahrscheinlichkeitstheorie, beschreibende und schlieÿende Statistik
. . .
2
. . . . . . . . . . . . . . . .
2
. . . . . . . . . . . . . . .
3
. . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
Gliederung einer statistischen Untersuchung 1.4.1
Beispiele statistischer Untersuchungen
1.5
Statistische Grundbegrie
1.6
Bestands- und Bewegungsmassen
. . . . . . . . . . . . . . . . . . . . . .
4
1.7
Einteilung von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.8
Messen und Skalenniveaus
6
1.9
Fragebögen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.10 Die Datenmatrix 1.11 Aufgaben
. . . . . . . . . . . . . . . . . . . . . . . . . .
7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2 Darstellung univariater Daten
11
2.1
Übersicht und Lernziele
. . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
Zum Begri univariate Datenanalyse
. . . . . . . . . . . . . . . . . . . .
11
2.3
Die vier Grundformen von Datensätzen . . . . . . . . . . . . . . . . . . .
11
2.4
Absolute und relative Häugkeiten
13
2.5
Kumulierte absolute und relative Häugkeiten
2.6
Häugkeitstabellen
2.7
Stab- Säulen- und Balkendiagramme
2.8
Empirische Verteilungsfunktion
2.9
2.9.1
. . . . . . . . . . . . . . . . . . . . .
18
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
. . . . . . . . . . . . . . . . . . . . .
11
. . . . . . . . . . . . . . .
13
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
. . . . . . . . . . . . . . . . . . . .
14
. . . . . . . . . . . . . . . . . . . . . . .
15
Der Sonderfall nominaler Merkmale . . . . . . . . . . . . . . . . . . . . .
17
Kreis- und Säulendiagramm
2.10 Aufgaben
3 Maÿzahlen einer Verteilung
21
3.1
Übersicht und Lernziele
. . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.2
Denition und Einteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.3
Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.4 3.5
Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.4.1
Der Median metrischer Merkmale . . . . . . . . . . . . . . . . . .
23
Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.5.1
Median und Quantile aus einer Häugkeitstabelle
3.5.2
Spannweite und Interquartilsabstand
. . . . . . . . .
25
. . . . . . . . . . . . . . . .
26
iii
Inhaltsverzeichnis 3.6
Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1
3.7 3.8
Eine Variante des Boxplots . . . . . . . . . . . . . . . . . . . . . .
27
Das arithmetische Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.7.1
30
Eigenschaften des arithmetischen Mittels . . . . . . . . . . . . . .
Streuungsmaÿe mit Bezug auf den Mittelwert
. . . . . . . . . . . . . . .
30
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.8.1
Die Varianz
3.8.2
Stichprobenvarianz
. . . . . . . . . . . . . . . . . . . . . . . . . .
32
3.8.3
Die Standardabweichung . . . . . . . . . . . . . . . . . . . . . . .
33
3.8.4
Der Variationskoezient . . . . . . . . . . . . . . . . . . . . . . .
33
3.8.5
Arbeitstabelle zur Berechnung . . . . . . . . . . . . . . . . . . . .
34
Mittlere absolute Abstände . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.10 Transformationseigenschaften der Maÿzahlen . . . . . . . . . . . . . . . .
36
3.11 Anforderungen an Maÿzahlen metrischer Merkmale
. . . . . . . . . . . .
36
3.12 Abschlieÿendes Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.9
3.13 Excel-Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.14 Aufgaben
39
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Ausgewählte Lösungen
iv
27
43
4.1
Zu Kapitel 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
4.2
Zu Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.3
Zu Kapitel 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
Abbildungsverzeichnis 2.1
Stabdiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.2
Empirische Verteilungsfunktion
. . . . . . . . . . . . . . . . . . . . . . .
16
2.3
Häugkeitstabelle und Säulendiagramm . . . . . . . . . . . . . . . . . . .
18
2.4
Kreis- und Säulendiagramm im Vergleich . . . . . . . . . . . . . . . . . .
19
3.1
Einfacher Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
3.2
Eine weitere Form des Boxplots
. . . . . . . . . . . . . . . . . . . . . . .
28
3.3
Arbeitstabelle für einige Maÿzahlen . . . . . . . . . . . . . . . . . . . . .
35
3.4
Arbeitstabelle für einige Maÿzahlen . . . . . . . . . . . . . . . . . . . . .
38
4.1
Maÿzahlen der Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.2
Häugkeitstabelle, Diagramme und Maÿzahlen der Verteilung.
4.3
Häugkeitstabelle und Diagramme
4.4
Boxplot zu den Daten des Beispiels 2.1 . . . . . . . . . . . . . . . . . . .
49
4.5
Einfacher Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
4.6
Variante des Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
4.7
Häugkeitstabelle, Diagramme und Maÿzahlen.
50
. . . . . .
47
. . . . . . . . . . . . . . . . . . . . .
48
. . . . . . . . . . . . . .
v
Tabellenverzeichnis 1.1
Eine Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
Liste der Weltmeister im Fuÿball
. . . . . . . . . . . . . . . . . . . . . .
17
3.1
Anzahl von Cocktails . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.2
Benötigte Werte für den Boxplot
28
. . . . . . . . . . . . . . . . . . . . . .
8
vii
1 Grundlagen 1.1 Übersicht und Lernziele In diesem Kapitel werden folgende Themen behandelt:
- Der Unterschied zwischen schlieÿender und beschreibender Statistik;
- Grundbegrie der Statistik wie Grundgesamtheit, Stichprobe und Merkmalsträger;
- Die vier Arten von Merkmalen;
- Darstellung der Antworten einer Befragung in einer Datenmatrix.
1.2 Zum Begri Statistik Statistik
geht auf das neulateinische Wort status zurück, dessen Bedeutungen Staat
und Zustand sind. Statistik betraf ursprünglich alle Daten, die der Verwaltung bei der Entscheidungsndung behilich sein konnten, etwa Daten über die Bevölkerung (Geburten, Eheschlieÿungen und Todesfälle), Handel und Gewerbe sowie Ein- und Ausgaben des Staates. Datensammlungen dieser Art werden heute als amtliche Statistik bezeichnet, wofür staatliche Organisationseinheiten wie etwa das Statistische Bundesamt zuständig sind. Inzwischen sammeln aber auch Unternehmen und andere Organisationen Daten über Kunden, Mitarbeiter oder Geschäftspartner. Die erste Bedeutung des Begris Statistik ist also die Zusammenstellung von Zahlen und Daten über bestimmte Gesamtheiten. Weiterhin versteht man unter Statistik alle Methoden zur Analyse von variierenden Eigenschaften von Objekten einer fest umrissenen Gesamtheit. Die Unterschiede bei den Ausprägungen der Eigenschaften müssen dabei zumindest teilweise zufälliger Natur sein. Dabei muss zunächst eine präzise Frage gestellt und in ein Modell verwandelt werden. Danach erfolgt die Erhebung von Daten und deren Auswertung bezüglich der Fragestellung. Halten wir fest: Der Begri Statistik bezeichnet sowohl Datenbestände und deren Erhebung wie Bevölkerungsstatistik als auch Methoden zur Untersuchung von Massenphänomenen, die unter Einuss des Zufalls entstanden sind, durch die Auswertung bestehender oder extra zu diesem Zweck erhobener Daten.
1
1 Grundlagen
1.3 Wahrscheinlichkeitstheorie, beschreibende und schlieÿende Statistik In der Statistik, geht es um das Problem, Beobachtungen, die unter Einuss des Zufalls entstanden sind, zu analysieren. Die
beschreibende oder deskriptive Statistik erfasst und bereitet Daten auf und verdich-
tet sie in Form von Tabellen, graphischen Darstellungen und Kennzahlen wie Mittelwert und Varianz. Die beschreibende Statistik beschäftigt sich nur mit den vorliegenden Daten, daher beziehen sich alle Aussagen auch nur auf diese Daten. Die
schlieÿende oder induktive Statistik
stellt Methoden zur Verfügung, die einen
Schluss von Teilerhebungen auf Grundgesamtheiten erlauben. Meinungsforschungsinstitute benötigen die schlieÿende Statistik, um die Ergebnisse von Umfragen auf die Gesamtheit zu übertragen. Da statistische Schlüsse auf den Daten einer Stichprobe genannten Auswahl beruhen, sind Schlussfolgerungen auf die Gesamtheit möglicherweise fehlerhaft. Zu einem Verfahren der schlieÿenden Statistik gehören Abschätzungen der Fehler. Diese liefert die
Wahrscheinlichkeitstheorie ,
ein Spezialgebiet der Mathematik
zur Beschreibung zufallsabhängiger Vorgänge. Die Wahrscheinlichkeitsrechnung entstand aus Untersuchungen von Glücksspielen und basierte zunächst auf rein kombinatorischen Methoden. Die moderne Wahrscheinlichkeitstheorie beruht auf einem für Nichtmathematiker kaum verständlichen axiomatischen Regelwerk des russischen Mathematikers Kolmogorov.
1.4 Gliederung einer statistischen Untersuchung Eine statistische Untersuchung besteht aus mehreren Schritten. (1)
Festlegung der Fragestellung und der Grundgesamtheit Statistische Untersuchungen sollen Vermutungen bestätigen oder widerlegen, daher müssen zunächst die Objekte der Untersuchung genau festgelegt werden. Diese Objekte, z.B. die Wahlberechtigten zur Bundestagswahl 2009, bilden die sogenannte
Grundgesamtheit . (2)
Voll- oder Teilerhebung
Vollerhebung werden alle Objekte der Grundgesamtheit untersucht, bei einer Teilerhebung dagegen nur ein Teil der Grundgesamtheit, eine sogenannte Stichprobe . Vollerhebungen sind bei groÿen Grundgesamtheiten oft aus Kosten-
Bei einer
gründen nicht sinnvoll, manchmal sogar prinzipiell unmöglich. Bei einer Teilerhebung hat die richtige Auswahl der Stichprobe eine groÿe Bedeutung für die Übertragung der gewonnenen Ergebnisse auf die Grundgesamtheit, im Beispiel der Bundestagswahl muss eine Teilerhebung alle gesellschaftlichen Strömungen der wahlberechtigten Bevölkerung widerspiegeln. Man kann daher die Stichprobe bewusst nach bestimmten Kriterien aussuchen, oder aber die Auswahl dem Zufall überlassen. Eine hinreichend groÿe Zufallsstichprobe wird in der Regel durchaus repräsentativ für die Grundgesamtheit sein.
2
1.5 Statistische Grundbegrie (3)
Datenerhebung Hat man Grundgesamtheit und Stichprobe gewählt, stellt sich das Problem der Datenerhebung. Man kann Daten durch
Beobachtung
und durch
Befragung
gewin-
nen. Daten können durch schriftliche oder mündliche Befragung erhoben werden, wobei die mündliche Befragung persönlich oder über Telefon erfolgen kann. Die Auswahl sollte sich danach richten, was am besten für das Ziel der Untersuchung geeignet ist. (4)
Die Datenaufbereitung und Datendarstellung Zunächst werden fehlerhafte Daten bereinigt und dann in einer Datenbank erfasst und von geeigneten Programmen wie SAS oder SPSS ausgewertet und dargestellt, etwa in Form von Tabellen, Diagrammen und Kennzahlen, also mit Verfahren der beschreibenden Statistik.
(5)
Datenanalyse Bei der Auswertung werden Methoden der schlieÿenden Statistik eingesetzt. Die schlieÿende Statistik ist stark mathematisch orientiert und beschäftigt sich damit, welche Schlüsse von einer Stichprobe auf die Grundgesamtheit möglich sind. Im Beispiel der Bundestagswahl geht es dabei um die Frage, wie gut die Stimmanteile der einzelnen Parteien durch die Stichprobe geschätzt werden. Die Angabe erfolgt meist in der Form von sogenannten Kondenzintervallen in der Form: mit einer Wahrscheinlichkeit von 99 % wird die CDU einen Stimmanteil zwischen 33 % und 36 % haben.
1.4.1 Beispiele statistischer Untersuchungen Ich gebe zur Verdeutlichung einige typische Fragen an, die mit statistischen Untersuchungen beantwortet werden können.
•
Berechnung der Anteils von derzeitigen Wählern der FDP. Die Grundgesamtheit sind hier alle Wahlberechtigten in Deutschland. Da nur amtliche Stellen diese Grundgesamtheit kennen, ist diese Frage nur über eine Stichprobe zu beantworten, die Auswertung muss mir Methoden der schlieÿenden Statistik erfolgen und wird somit fehlerhaft sein.
•
Wohnungszählung in Deutschland im Rahmen der Volkszählung 2011. Die Grundgesamtheit sind hier alle Gebäude in Deutschland. Da alle Eigentümer befragt werden und auskunftspichtig sind, liegt eine Vollerhebung vor.
•
Bestimmung des Anteils fehlerhafter Glühbirnen an einem Produktionsstandort. Auch hier kann man nur eine Teilerhebung durchführen, es sei denn, die Glühbirnen werden innerhalb der Produktion sofort getestet.
1.5 Statistische Grundbegrie Zur Beschreibung statistischer Untersuchungen werden folgende Begrie benutzt:
3
1 Grundlagen • Statistische Einheit
oder
Merkmalsträger
Dieser Begri beinhaltet Personen oder Gegenstände, aber auch Ereignisse wie Geburten oder Sterbefälle.
• Grundgesamtheit So wird die Menge der statistischen Einheiten genannt.
• Bestandsmasse Besitzen die statistischen Einheiten der Grundgesamtheit einen längeren Bestand, so spricht man von einer Bestandsmasse. Die Erfassung erfolgt zu einem bestimmten Zeitpunkt. Der Wohnungsbestand und die Einwohner einer Stadt sind typische Bestandsmassen, eine Befragung erfasst den Zustand in einem bestimmten Augenblick.
• Bewegungsmasse
oder
Ereignismasse
Die statistischen Einheiten einer Ereignismasse sind Ereignisse von kurzer Lebensdauer wie Geburten, Todesfälle oder Störfälle in einem Kraftwerk. Wegen der kurzen Lebenszeit eines Ereignisses, werden die statistischen Einheiten einer Ereignismasse über einen längeren Zeitraum hinweg erfasst.
• Merkmale Die bei einer statistischen Einheit erhobenen Eigenschaften wie Geschlecht, Alter oder Haarfarbe bei Personen, werden Merkmale genannt.
• Merkmalsausprägungen Die verschiedenen Werte, die ein Merkmal annehmen kann, werden Merkmalsausprägungen genannt. Beim Merkmal Haarfarbe beispielsweise gibt es die klassischen Ausprägungen wie blond, rot bzw. schwarzhaarig, das Geschlecht hat die beiden Ausprägungen weiblich und männlich und die Ausprägungen des Merkmals Alter einer Person sind die natürlichen Zahlen.
1.6 Bestands- und Bewegungsmassen Bei den Gesamtheiten wird zwischen Bestandsmassen und Bewegungsmassen unterschieden. Bestandsmassen werden an einem einer
Zeitspanne
Zeitpunkt, Bewegungsmassen dagegen innerhalb
erfasst. Oft korrespondieren die beiden Gesamtheiten miteinander. Die
Einwohner Heidelbergs werden am 1.1.2010 und dann wieder am 1.1.2011 gezählt, also jeweils an einem festen Zeitpunkt, daher handelt es sich um Bestandsmassen. Die Stadtverwaltung erfasst auch alle in einem Jahr erfolgten An- und Abmeldungen, sowie alle Geburten und Todesfälle. Das sind vier Bewegungsmassen, die den Unterschied zwischen den beiden Bestandsmassen erklären: Einw. 2011
4
= Einw.
2010
+ Geburten − Todesfälle + Abmeldungen − Anmeldungen
1.7 Einteilung von Merkmalen
1.7 Einteilung von Merkmalen Je nach Fragestellung können Personen, Unternehmen oder ganze Länder statistische Einheiten bilden. Wichtig ist eine räumlich, zeitlich und sachlich klar umrissene Fragestellung mit geeigneten Merkmalen. Merkmale spielen eine so bedeutende Rolle, dass die statistischen Einheiten oft auch als
Merkmalsträger bezeichnet werden. Weitere Beispiele
für Merkmale sind die Konfession mit den Ausprägungen wie RK (römisch katholisch), EKD (evangelische Kirche Deutschlands) oder andere. Bei einer Wohnung gibt es Merkmale wie Anzahl der Zimmer, Gröÿe im qm, Balkon usw. mit Ausprägungen wie 4, 80 qm und keiner. Merkmale werden mit groÿen lateinischen Buchstaben wie etwa
X
bezeichnet, die
zugehörigen Merkmalsausprägungen mit kleinen, wobei zur Unterscheidung ein Index verwendet wird, also
x 1 , x2 , x3 , . . . , x n .
Merkmale lassen sich je nach Typ der Werte ihrer Ausprägung in vier Klassen einteilen. (1)
Nominale Merkmale Nominal stammt vom lateinischen Wort nomen für Namen ab, weil die möglichen Werte der Ausprägungen nur benannt können werden, es gibt keine Maÿeinheit. Dies trit auf Merkmale wie Geschlecht mit den Ausprägungen w und m und auf Konfession mit den erwähnten Ausprägungen RK, EKD und andere zu. Bei der Erfassung werden nominale Merkmalsausprägungen meistens durch Zahlwerte kodiert, etwa 0 für w und 1 für m, das ändert aber nichts an der prinzipiell zahlenfernen Natur dieser Merkmale. Da man die Ausprägungen nur in
kategoriell
Kategorien einteilen kann, werden nominale Merkmale auch
genannt.
Wenn es für die Ausprägung eines nominalen Merkmals nur zwei mögliche Werte gibt, spricht man von einem
dichotomen ,
sonst von einem
polytomen
Merkmal.
Das Merkmal Geschlecht ist somit dichotom, während das Merkmal Nationaltät polytom ist. (2)
Ordinale Merkmale Hier lassen sich die Ausprägungen in eine Rangfolge bringen, aber man kann für die Werte und deren Abstände untereinander kein Maÿ angeben. Das trit z.B. auf Schulnoten zu, sehr gut ist besser als gut, gut besser als befriedigend, aber man kann nicht sagen, dass die Noten sehr gut und gut denselben Abstand wie die Noten gut und befriedigend haben. Auch die Werte ordinal skalierter Merkmale werden zur besseren Auswertung mit Zahlen codiert.
(3)
Metrische Merkmale Sind bei einem Merkmal die Ausprägungen Zahlen mit Einheiten, so spricht man von einem metrischen Merkmal. Hier können die Abstände zwischen den Werten sinnvoll bestimmt werden. Beispiele sind die Merkmale Gröÿe, Gewicht und Alter einer Person. Metrische Merkmale werden auch
kardinal
genannt. Metrische
Merkmale werden noch weiter unterteilt, und zwar in diskret und stetig. Das Gewicht einer Person ist ein stetiges metrisches Merkmal, da die Werte stetig über
5
1 Grundlagen ein ganzes Intervall verteilt sind. Dagegen hat das Merkmal Anzahl der Kinder nur endlich viele Werte, was man als diskret bezeichnet. Die vier Merkmalsklassen sind also nominal, ordinal, metrisch diskret und metrisch stetig, wobei statt nominal auch kategoriell und statt metrisch auch kardinal verwendet
qualitatativ zusammengefasst, die beiden metrischen Merkmale werden dagegen quantitativ genannt.
werden. Nominale und ordinale Merkmale werden unter dem Oberbegri als Fassen wir zusammen:
Sie müssen Merkmale also zunächst in qualitativ oder quantitativ einteilen und danach entscheiden, ob sich ein als qualitativ erkanntes Merkmal ordnen lässt, dann wird es ordinal und sonst nominal genannt. Bei einem quantitativen Merkmal ist zu untersuchen ob nur endlich oder abzählbar unendlich viele Werte auftreten, dann spricht man von einem diskreten metrischen Merkmal. Liegen die Werte stetig in einem ganzen Intervall verteilt, spricht man von einem stetigen metrischen Merkmal. Metrische Merkmale werden oft auch kardinale Merkmale genannt und nominale Merkmale werden manchmal als kategoriell bezeichnet. Entscheidend ist, die wesentlichen Qualitätsunterschiede der Merkmalskategorien und deren Konsequenzen zu kennen: Bei metrischen Merkmalen können Abstände quantiziert werden, was bei ordinalen und nominalen Merkmalen nicht der Fall ist, während bei ordinalen Merkmalen immerhin noch eine natürliche Rangfolge unter den Merkmalswerten existiert. Diese Unterschiede haben Konsequenzen u.a. hinsichtlich der Möglichkeit der Berechnung von Mittelwerten, aber auch anderer statistischer Maÿzahlen und Verfahren. Mittelwerte sowie andere statistische Maÿzahlen und deren Anwendbarkeit bei den drei Merkmalskategorien werden noch ausführlich behandelt. Abschlieÿend noch einige Beispiele. Geschlecht, Haarfarbe und Nationalität sind alles nominale Merkmale. Schulnoten, die Vergabe von Sternen, etwa 1 bis 5, an Hotels oder die Einteilung der Sympathie zu Politikern in die Ränge Mag ich, Na ja und Eher nicht sind ordinale Merkmale. Die folgenden Merkmale sind diskret und metrisch: Zahl der Eheschlieÿungen, Einwohnerzahl von Darmstadt, Anzahl von Studenten der Hochschule Darmstadt. Körpergröÿe und Gewicht einer Person sind stetige metrische Merkmale, deren mögliche Werte z.B. 1,80 m und 78,44 kg sein können.
1.8 Messen und Skalenniveaus Dieser Abschnitt ist zunächst nur für den hartgesottenen Leser. Den Ausprägungen eines Merkmals müssen bestimmte Werte zugeordnet werden. Die Wahl muss dabei so getroen werden, dass die Werte strukturtreu sind, sodass die Werte die realen Unterschiede auch korrekt wiedergeben. Das sei am Beispiel des Merkmals Religionszugehörigkeit verdeutlicht. Im Jahr 1950 waren in Deutschland die drei Werte evangelisch, römisch katholisch und andere oder keine ausreichend, während diese Einteilung heute sicher nicht mehr strukturtreu ist, es sei denn, dass es nur um die Abführung der Kirchensteuer geht. Die Ausprägungen eines Merkmals müssen messbar sein und einem sogenannten
lenniveau
6
Ska-
zugeordnet werden können. Obwohl es unzählige Merkmale gibt, werden nur
1.9 Fragebögen vier Skalenniveaus benötigt und diese decken sich auch noch weitgehend mit der Einteilung der Merkmale. Jedem Skalenniveau entsprechen bestimmte Relationen, in der je zwei Messwerte zueinander stehen. Ich gebe jetzt die vier Skalenniveaus und ihre denierende Relation an. (1)
Nominalskala Die Beziehung besteht in der Feststellung, ob zwei Messwerte gleich sind oder nicht, weitere Unterscheidungen sind nicht möglich. Die Nominalskala passt daher genau zu den nominalen Merkmalen wie Geschlecht oder Familienstand.
(2)
Ordinalskala Bei einer Ordinalskala lassen sich ebenfalls je zwei Messwerte auf Gleichheit untersuchen, aber zusätzlich ist ein Gröÿenvergleich möglich, die Messwerte lassen sich anordnen, aber man kann keine Abstände zwischen den Messwerten angeben. Die Merkmale mit einer Ordinalskala sind also genau die ordinalen Merkmale.
(3)
Intervallskala Bei einer Intervallskala ist der Abstand zwischen je zwei Messwerten deniert. Streng genommen ist das keine Relation, aber eine eindeutige Festlegung des Begris Intervallskala. Ein Abstand von 0 bedeutet Gleichheit, ein positiver Abstand entspricht der Beziehung Gröÿer, eine Intervallskala ist somit immer auch eine Ordinalskala. Intervallskalen gelten für metrische Merkmale, wofür Abstände zwischen den Ausprägungen aber nicht notwendig Verhältnisse gebildet werden können. Beispiel von Merkmalen mit einer Intervallskala sind die Temperatur, die Uhrzeit, das Datum sowie Längen- und Breitengrade von Orten auf der Erde. In jedem Fall ist der Abstand zwischen zwei Messwerten genau deniert, aber es können keine Verhältnisse gebildet werden. Mittag ist genau zwei Stunden vor 10:00, aber nicht um 20 % später, so wenig wie Rom 12 % südlicher als München liegt.
(4)
Verhaltnisskala (Ratioskala) Bei dieser Skala können zusätzlich zu den Abständen auch die Verhältnisse von Messwerten gebildet werden. Diese Messwerte besitzen einen natürlichen Nullpunkt. Beispiele von Merkmalen mit Verhältnisskala sind das Gewicht und die Gröÿe oder das Vermögen. Man kann hier Aussagen treen wie, Am Nachmittag kommen doppelt so viel Studenten in die Vorlesung wie am Morgen oder Mein Elefant nimmt pro Jahr 5 % zu.
Die vier Skalenniveaus sind also geordnet, d.h. jede höhere Skala schlieÿt die niedrigeren Skalen ein. Verhältnisskala und Intervallskala werden auch als metrische Skalen bezeichnet; eine Vielzahl von statistischen Berechnungen benötigen metrisch skalierte Merkmale, um sie sinnvoll anwenden zu können.
1.9 Fragebögen Die Erhebung basiert in der Regel auf Fragen, die dem Untersuchungsziel angepasst sind. Die einzelnen Fragen werden zu einem
Fragebogen
zusammengefasst. Ein Dozent
7
1 Grundlagen befragt beispielsweise die Teilnehmer seines Kurses nach Geschlecht, Alter, Hobbies und Schulabschluss. Die Hobbies werden auf Sport und Reisen begrenzt und bilden eine sogenannte
Mehrfachfrage . In diesem Fall wird jedem Hobby ein eigenes Merkmal zugeordnet,
mit den zulässigen Antworten ja und nein. Abschlieÿend soll jeder Teilnehmer mit eigenen Worten die Mensa bewerten. Man unterscheidet oene und geschlossene Fragen. Bei
geschlossenen Fragen
muss
eine Antwort aus einer Liste oder einem Zahlenbereich ausgewählt werden, das trit auf die Fragen nach Geschlecht, Alter, Schulabschluss und den Hobbies zu. Die Bewertung der Mensa ist eine
oene Frage , die sicherlich zu sehr unterschiedlichen Antworten führt
und deshalb statistisch schwierig auszuwerten ist.
1.10 Die Datenmatrix Die ausgefüllten Fragebögen werden in Form einer Tabelle zusammengefasst, der sogenannten
Datenmatrix .
Die Tabelle 1.1 zeigt die zu den erwähnten Fragen erstellte
Datenmatrix.
Tabelle 1.1: Eine Datenmatrix
ID
X (Sex)
V (Alter) Y1 (Sport) Y2 (Reisen) Z (Schulabschluss)
1
1 männlich
27
1 Ja
1 Ja
3 Mittlere Reife
2
0 weiblich
54
1
1
3
3
1
34
1
0 Nein
4 Abitur
4
0
16
0 Nein
1
2 Hauptschule
5
0
15
0
1
1 nichts
In einer Zeile stehen die Antworten eines Befragten, also einer statistischen Einheit bzw. eines Merkmalsträgers, der durch eine eindeutige ID zu identizieren ist, in jeder Spalte sind die Werte der Merkmale zu nden. Jedem Merkmal wird eine Variable zugeordnet, hier das nominale Merkmal
X
für das Geschlecht, das ordinale Merkmal
den Schulabschluss und das metrische Merkmal
Y1
und
Y2
sind Teile einer
V
Z
für
für das Alter. Die nominalen Merkmale
Mehrfachfrage , hier nach dem Hobby, worauf der gemeinsame
Buchstabe Y hinweist. Die Werte der Variablen
Y1
und
Y2
sind ja oder nein, also
handelt es sich um dichotome Merkmale. Die Rohdaten einer Befragung werden meist auch für qualitative Merkmale durch Zahlen codiert, hier etwa 0 für weiblich und 1 für männlich. Oft zeigt man diese Codierung beim ersten Auftreten in der Datenmatrix an. Trotz der zahlenmäÿigen Erfassung sollte klar sein, dass das arithmetische Mittel des Geschlechts der Merkmalsträger nicht 0,4 ist.
8
1.11 Aufgaben
1.11 Aufgaben Aufgabe 1.
Eine Firma der Metallverarbeitung fasst die wichtigsten Daten über alle
Mitarbeiter in einer Datenmatrix zusammen, deren Felder das Geschlecht, die Abteilung, das Geburtsjahr sowie Tarifgruppe und Gehalt sind. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an.
Aufgabe 2.
Eine Hochschule befragt 100 zufällig ausgewählte Studenten nach Ge-
schlecht, Nationalität, Alter, Schulbildung und Fachbereich. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an.
Aufgabe 3.
Zeigen Sie am Beispiel der in Deutschland zugelassenen PKW den Zusam-
menhang zwischen Bestands- und Bewegungsmassen.
9
2 Darstellung univariater Daten 2.1 Übersicht und Lernziele In diesem Kapitel werden folgende Themen behandelt: - Darstellung univariater Daten durch eine Häugkeitstabelle; - Grasche Darstellung univariater Daten Stab-, Balken- und Säulendiagramm; - Die empirische Verteilungsfunktion.
2.2 Zum Begri univariate Datenanalyse Die univariate Datenanalyse bezeichnet alle Verfahren, die nur auf ein einzelnes Merkmal einer Grundgesamtheit angewendet werden. Die Ausprägungen werden zunächst in einer Häugkeitstabelle übersichtlich dargestellt. Die Häugkeitstabellen können durch verschiedene Arten von Diagrammen veranschaulicht werden. Die so genannte empirische Verteilungsfunktion ist eine weitere Möglichkeit der Darstellung der Ausprägungen. Dabei bleibt der ursprüngliche Informationsgehalt weitgehend erhalten. Eine Informationsverdichtung liefern so genannte Maÿzahlen wie arithmetischer Mittelwert und Varianz.
2.3 Die vier Grundformen von Datensätzen Bei der univariaten Datenanalyse verwendet man vier verschiedene, aber eng verwandte Listen von Daten. (1)
Urliste Die Daten einer Erhebung werden in einer Datenmatrix festgehalten, bei der eine Zeile den vollständigen Datensatz einer statistischen Einheit, also eines Merkmalsträgers, beschreibt. In den Spalten stehen die Werte der einzelnen Merkmale. Bei der univariaten Datenauswertung wird nur ein Merkmal allein ausgewertet. Bei einer Grundgesamtheit mit
n Merkmalsträgern besteht eine Spalte somit aus einer
Folge
x1 , x2 , . . . , xn , wobei
xi
den als
die Merkmalsausprägung des i-ten Merkmalsträgers ist. Diese Werte wer-
Urliste
bezeichnet und stehen am Anfang jedes Verfahrens.
11
2 Darstellung univariater Daten (2)
Aufsteigend geordnete Urliste Die Urliste ist unübersichtlich und wird deshalb der Gröÿe nach geordnet, um etwas Licht ins Dunkel zu bringen, und zwar in der Regel in aufsteigender Ordnung
x(1) ≤ x(2) ≤ . . . ≤ x(n) . Die seltsame Bezeichnung
x(j)
ist in der beschreibenden Statistik für die Elemente
der aufsteigend geordneten Urliste üblich. (3)
Absteigend geordnete Urliste Manchmal fängt die Ordnung auch beim gröÿten Einzelwert an und verläuft dann absteigend. Auch hierfür haben sich die Statistiker eine seltsame Bezeichnung einfallen lassen
x(1) ≥ x(2) . . . ≥ x(n) . Die Elemente der absteigend geordneten Liste werden also mit (4)
x(j)
bezeichnet,
Ausprägungen Innerhalb einer Urliste treten in der Regel manche Werte mehrfach auf. Es gibt dann nur
k
wirklich verschiedene Werte, die ich wie Handl mit
ai
bezeichne, der
Gröÿe nach anordne
a1 < a2 < a3 . . . < ak−1 < ak und als
Ausprägungen
bezeichne.
Ich bezeichne mit n immer die Anzahl der Daten und mit k die Anzahl der Ausprägungen. Nur wenn alle Werte verschieden sind, ist k = n, sonst ist k < n. Beispiel 2.1. 9 Hier sind
6
7
Die folgende Liste zeigt die Studiendauer einer Gruppe von Studenten 10
n = 10
7
5
7
9
x4 = 10,
und
6
denn der vierte Wert der Urliste ist 10. Die nach
zunehmenden Werten geordnete Liste 5
6
6
6
7
7
7
9
6.
9
x(j)
ist
10.
Aus dieser ergibt sich durch Weglassen der Wiederholungen die Liste
aj
der Ausprägun-
gen 5
6
Somit sind
7
9
x(4) = 6
10. und
a4 = 9,
denn in der aufsteigend geordneten Liste ist das vierte
Element 6 und in der Liste der Ausprägungen ist das vierte Element 9. Da es nur fünf Ausprägungen gibt, ist
12
k = 5.
2.4 Absolute und relative Häugkeiten
2.4 Absolute und relative Häugkeiten Bei der Datenanalyse wird gezählt, wie viele Merkmalsträger Man nennt diese Zahl die als
Häugkeitsliste
absolute Häugkeit
ni
ai hat. (ai , ni ) werden
die Ausprägung
der Ausprägung. Die Paare
bezeichnet. Die absolute Häugkeit allein ist wenig aussagekräftig,
n
dazu ist der Bezug zur Anzahl
der Merkmalsträger nötig, also die
relative Häugkeit
fi = ni /n. Da die absoluten Häugkeiten ben, liegen die Werte der
fi
ni
zwischen
1 und n liegen und zusammengezählt n erge-
zwischen 0 und 1 und ihre Summe ist genau 1, in Formeln
k X i=1 k X
ni = n1 + n2 + · · · + nk = n,
(2.1)
fi = f1 + f2 + · · · + fk = 1.
(2.2)
i=1 Relative Häugkeiten werden oft auch in Prozent angegeben, dafür müssen die Werte mit 100 multipliziert werden, die Summe ergibt dann 100. In manchen Fällen liegt die Urliste der Daten nicht vor, weil bei der Datenerfassung bereits die möglichen Ausprägungen bekannt sind und nur noch die absoluten Häugkeiten ausgezählt werden müssen. Die Merkmale mit gleichem Wert bilden eine Gruppe, man spricht auch von
gruppier-
ten Daten . Die Anzahl von Gruppen werde ich immer mit k bezeichnen. Wenn alle Werte
k = n und x(j) = aj . Im Beispiel 2.1 gibt es k = 5 n1 = 1, n2 = 3, n3 = 3, n3 = 2 sowie n5 = 1 und den relativen Häugkeiten f1 = 0, 1, f2 = 0, 3, f3 = 0, 3, f4 = 0, 2 und f5 = 0, 1. Die absoluten Häugkeiten ni summieren sich zu n = 10 und die relativen Häugkeiten der Urliste verschieden sind, folgen
Gruppen mit den absoluten Häugkeiten
zu 1.
2.5 Kumulierte absolute und relative Häugkeiten Bei mindestens ordinalen Merkmalen sind die Ausprägungen
a1 , a2 , . . . , ak
der Gröÿe
nach geordnet. Deshalb ist eine stufenweise Ansammlung (Kumulation) bereits erreichter Anteile möglich, um etwa bei den Ergebnissen einer Klassenarbeit, den Prozentsatz von Schülern anzugeben, die mindestens eine vier erreicht haben. Sind
n1 , n2 , . . . , nk
die absoluten Häugkeiten der geordneten Merkmalsausprägungen, so werden die i-te kumulierte absolute bzw. relative Häugkeit durch
Ni =
k X
nj = n1 + n2 + · · · + ni ,
(2.3)
fj = f1 + f2 + · · · + fi
(2.4)
j=1
Fi =
k X j=1
13
2 Darstellung univariater Daten berechnet. Bei den Daten des Beispiels 2.1 ergeben sich folgende Werte für die kumulierten abso-
N1 = 1, N2 = 4, N3 = 7, N4 = 9 und N5 = 10 und entsprechend nach Division dieser Werte durch n = 10 die kumulierten relativen Häugkeiten F1 = 0, 1, F2 = 0, 4, F3 = 0, 7, F5 = 0, 9 und F5 = 1.
luten Häugkeiten
2.6 Häugkeitstabellen Die Ausprägungen und deren absoluten und relativen Häugkeiten sowie die entsprechenden kumulierten Werte werden in einer Tabelle zusammengefasst, die man
keitstabelle
Häug-
nennt. Im Beispiel der Studiendauer ergibt sich die Häugkeitstabelle wie in
der Tabelle der Abbildung 2.1 im Bereich A1:F6 dargestellt. Nach diesem Muster wird die Häugkeitstabelle eines jeden mindestens ordinalen Merkmals aufgebaut.
1 2 3 4 5 6 7 8 9 10 11
A B i ai
1 2 3 4 5
5 6 7 9 10
C ni
1 3 3 2 1
D Ni
E fi
F GH Fi
1 4 7 9 10
0,1 0,3 0,3 0,2 0,1
0,1 0,4 0,7 0,9 1
5 5 0 0,1 0 1
6
6 0 0,3 0 3
I
J K
L
M
N
O
P
Rel. Stabdiagramm
S
T
U V W xi x(i)
ni
ai 4 5 6 7 8 9 10 11
7 7 0 0,3 0 3
R
Abs. Stabdiagramm
fi 0,3 0,2 0,1 0
Q
9 9 0 0,2 0 2
3 2 1 0
ai 4 5 6 7 8 9 10 11
10 10 0 0,1 0 1
9 5 6 6 7 6 10 6 7 7 5 7 7 7 9 9 6 9 6 10
Abbildung 2.1: Stabdiagramme
In den Spalte V und W stehen die Werte der Urliste bzw. der geordneten Urliste. In der ersten Spalte steht der Index Ausprägungen
ai ,
i
der jeweiligen Zeile, in der zweiten stehen die
in der dritten die absoluten Häugkeiten, in der vierten die kumu-
lierten absoluten Häugkeiten, in der fünften die relativen Häugkeiten, in der letzten die kumulierten relativen Häugkeiten. Den kumulierten relativen Häugkeiten können wir unter anderem entnehmen, dass die Studiendauer bei 90 Prozent der untersuchten Studenten höchstens 9 Semester lang war.
2.7 Stab- Säulen- und Balkendiagramme . Absolute und relative Häugkeiten lassen sich durch Diagramme veranschaulichen. Bei Stab- und Säulendiagrammen werden die Werte der Häugkeiten
ni
bzw.
von Stäben oder Höhen von Säulen umgerechnet und über den Werten von
fi
in Längen
ai abgetragen.
Deshalb kann man die Werte der Häugkeiten sehr gut vergleichen und sogar ablesen.
14
2.8 Empirische Verteilungsfunktion Die Abbildung 2.1 zeigt die Häugkeitstabelle sowie die Stabdiagramme der absoluten und relativen Häugkeiten.
ai eine senkrechte Strecke mit der abgetragen, also die Strecke (ai , 0)(ai , fi ).
Für eine Stabverteilung wird über jeder Ausprägung Länge der relativen Häugkeit
fi
nach oben
Die Anfangs- und Endpunkte dieser
k
Strecken benden sich im Bereich B8:O9 des
abgebildeten Arbeitsblatts. Jeder Stab ist eine Punkt-Grak für sich, der erste Stab wird durch den Bereich B8:C9 erzeugt, dann kommen die leeren Zellen D8:C9 und dann folgen die Koordinaten des zweiten Stabs, usw. bis zu den Koordinaten des letzten Stabs. Die Zeile 10 enthält die y-Werte für das Stabdiagramm der absoluten Häugkeiten. Sie müssen die Koordinaten der Strecken unbedingt durch leere Zellen trennen, sonst würde Excel die Stäbe durch hässliche Zickzacklinien verbinden. Bei einem Balkendiagramm werden die Werte Werte der
fi
ai
auf der y-Achse eingetragen und die
nach rechts, also waagrecht wie ein Balken.
2.8 Empirische Verteilungsfunktion Bis jetzt wurden nur die Häugkeiten grasch dargestellt. Es gibt aber auch eine grasche Darstellung der kumulierten relativen Häugkeiten als Graph einer Funktion, der sogenannten empirischen Verteilungsfunktion. Diese ist nur für die Merkmalsausprägungen mindestens ordinaler Merkmale deniert. Die
empirische Verteilungsfunktion F : R → [0, 1]
einer Urliste von
...,
xn
für jede reelle Zahl
leitet sich aus der Forderung ab, dass
F (x)
Anteil der Werte angibt, welche kleiner oder höchstens gleich
x
n
Werten
x
x1 , x2 ,
den relativen
sind; die Funktion ist
also für alle reellen Zahlen deniert und nicht nur für die eigentlichen Messwerte. Die formale Denition der empirischen Verteilungsfunktion lautet
F (x) =
Anzahl der Daten
xi ≤ x
n
.
Die empirische Verteilungsfunktion gibt die Summe der relativen Häugkeiten aller Daten an, die kleiner oder gleich
x
sind, daher ist sie zwischen zwei benachbarten Daten
x1 , xn . Die Gröÿe des Sprunges am Wert xi ist die relative Häugkeit von xi . Liegen n verschiedene Einzelbeobachtungen mit der aufsteigend geordneten Urliste x(1) , x(2) , . . . , x(n) vor, so hat jeder Sprung die Höhe 1/n und die empirische Verteilungsfunktion zwischen x(i) und x(i+1) den Wert i/n.
konstant, hat also die Form einer Treppe. Die Sprungstellen sind gerade die Daten
x2 ,
...,
Wenn nicht alle Beobachtungen verschieden sind, wird die empirische Verteilungsfunktion über die Ausprägungen bestimmt. Da diese eine der Gröÿe nach geordnete Reihe
a1 < a2 < a3 . . . < ak−1 < ak ai−1 ≤ x < ai konstant, Ausprägung ai um die rela-
bilden, ist die empirische Verteilungsfunktion in jedem Intervall und zwar mit dem Wert tive Häugkeit
fi
Fi−1
und springt an der nächsten
nach oben auf den neuen Wert
Fi .
Funktionen dieser Art werden als
15
2 Darstellung univariater Daten
Treppenfunktion
bezeichnet. Damit ergibt sich für die empirische Verteilungsfunktion:
0, F (x) = Fi , 1,
wenn wenn wenn
x < a1 ; ai ≤ x < ai+1 ; x ≥ ak .
1 ≤ i ≤ k − 1;
Die empirische Verteilungsfunktion beginnt ihren langen Weg von Ausprägung
a1
beim Wert 0, macht dann an jedem der
k
−∞
bis zur kleinsten
Messwerte einen Sprung nach
ak den Endwert 1, und verharrt auf diesem Wert ∞. Gezeichnet wird die empirische Verteilungsfunktion deshalb von einem Wert etwas
oben und erreicht am gröÿten Messwert bis
links vom kleinsten bis zu einem Wert etwas rechts von der gröÿten Ausprägung. Die empirische Verteilungsfunktion des Merkmals
X
Anzahl der benötigten Semes-
ter ergibt sich aus der Häugkeitstabelle der Abbildung 2.1.
0, 0, 1, 0, 4, F (x) = 0, 7, 0, 9, 1,
wenn wenn wenn wenn wenn wenn
x < 5; 5 ≤ x < 6; 6 ≤ x < 7; 7 ≤ x < 9; 9 ≤ x < 10; x ≥ 10.
Mit der empirischen Verteilungsfunktion kann man den Anteil malsträger, deren Merkmalsausprägung im Intervall
(a, b]
f (a < X ≤ b)
der Merk-
liegt, bestimmen:
f (a < X ≤ b) = F (b) − F (a). Der Anteil an Studenten, die länger als 6 und höchstens 9 Semester bis zum Abschluss benötigten, ist also
F (9) − F (6) = 0, 9 − 0, 4 = 0, 5.
Den Graph der empirischen Verteilungsfunktion habe ich ebenfalls mit Excel erstellt.
A B 1 i ai 2 1 5 3 2 6 4 3 7 5 4 9 6 5 10 7 8 9 4 5 10 0 0
C
D
E
F
ni Ni fi Fi 1 1 0,1 0,1 3 4 0,3 0,4 3 7 0,3 0,7 2 9 0,2 0,9 1 10 0,1 1
G
H
J
K
L
M
N
O
P
Empirische Verteilungsfunktion 1 0,8 0,6 0,4 0,2 0
Fi
Q
R
5 6 7 9 10
0,1 0,4 0,7 0,9 1
ai 4
5 6 0,1 0,1
I
6 7 0,4 0,4
5
6
7
7 9 0,7 0,7
8
9
10
9 10 0,9 0,9
11
10 11 1 1
Abbildung 2.2: Empirische Verteilungsfunktion In der Abbildung 2.2 ist der Graph dieser Funktion zu sehen. Die empirische Verteilungsfunktion ist rechtsstetig, d.h. die Treppenfunktion beginnt nach jedem Sprung
16
2.9 Der Sonderfall nominaler Merkmale gleich am Anfang, also an der Stelle
ai
mit dem neuen Wert
Fi . Man deutet dies grasch
mit einer Klammer oder wie in der Abbildung mit einer Markierung am Anfang der Treppenstufen an. Formal bedeutet die Rechtsstetigkeit für
1≤i≤k
F (ai ) = lim F (ai + ε), ε→0+
wobei hier nur
ε > 0 erlaubt ist, da die Annäherung von rechts erfolgt. An allen anderen
Punkten ist die Funktion ohnehin stetig.
F (x) müssen also für 1 ≤ i ≤ k die waag(ai , Fi )(ai+1 , Fi ) eingezeichnet werden. Vor dem kleinsten Wert a1 ist konstant 0, nach dem gröÿten Wert ak konstant 1. Ich habe die Koordina-
Für die empirische Verteilungsfunktion rechte Strecken die Funktion
ten der jeweiligen Anfangs- und Endpunkte der Treppenstufen im Bereich A9:Q10 des Excel-Arbeitsblatts von Abbildung 2.2 aufgeführt. Auch hier ist jede Stufe der Treppenfunktion eine Punktgrak. Die Markierungen am Anfang der Treppen werden ebenfalls als Punktgrak erzeugt, die zugehörigen Koordinaten stehen im Bereich Q1:R5.
Bemerkung 2.1.
Der Begri empirisch bezieht sich immer auf Erfahrungen, Messungen
oder Beobachtungen und wird oft im Gegensatz zum Begri theoretisch verwendet. Empirische Verteilungsfunktionen basieren auf beobachteten Daten, während theoretische Verteilungsfunktionen von einem Modell abgeleitet sind. Für weitere Auskünfte über den Unterschied zwischen theoretischen und empirischen Verteilungsfunktionen wenden Sie sich an den Hütchenspieler ihres Vertrauens oder lesen dessen Allgemeine Geschäftsbedingungen.
2.9 Der Sonderfall nominaler Merkmale Nominale Merkmale haben keine natürliche Rangordnung, man verwendet für die Anordnung die vorgenommene Kodierung oder eine Anordnung nach dem Alphabet, trotzdem ist keine Anhäufung möglich, daher entfallen in der Häugkeitstabelle die beiden Spalten für
Ni
und
Fi .
Beispiel 2.2.
Seit 1930 werden alle vier Jahre mit Ausnahme von 1942 und 1946 Fuÿ-
ballweltmeisterschaften in wechselnden Ländern ausgetragen. Bisher gab es nur 9 Weltmeister und zwar in alphabetischer Reihenfolge Argentinien, Brasilien, Deutschland, England, Frankreich, Italien, Spanien und Uruguay. Die folgende Tabelle zeigt die Anfangsbuchstaben der Weltmeisternationen und die verkürzte Jahreszahl ihres Triumphs.
Tabelle 2.1: Liste der Weltmeister im Fuÿball 30
34
38
50
54
58
62
66
70
74
78
82
86
90
94
98
02
06
10
U
I
I
U
D
B
B
E
B
D
A
I
A
D
B
F
B
I
S
Diese Datensammlung ist die Urliste, die in einer Datenmatrix eine Spalte wäre, hier aber aus Platzgründen in einer Zeile steht. Ich fasse die einmaligen Weltmeister England, Frankreich und Spanien zum Rest zusammen.
17
2 Darstellung univariater Daten Die ungeordnete und die in alphabetischer Reihenfolge der Anfangsbuchstaben geordnete Urliste sowie die Ausprägungen sind dann
U I I U D B B R B D A I A D B F B I R A A B B B B B D D D I I I I R R R U U A B D I R U Somit sind
x3 = I , x(3) = B und a3 = D, denn der Wert des dritten Merkmals der Urliste
ist I, der dritte Wert der geordneten Urliste ist B und die dritte Ausprägung ist D. Weiterhin sind und
n6 = 2.
n = 19, k = 6
sowie
n1 = 2, n2 = 5, n3 = 3, n4 = 4, n5 = 3
Die Ausprägungen und ihre Häugkeiten ergeben sich aus der geordneten
Urliste. Die zugehörige Häugkeitstabelle ist in Abbildung 2.3 zu sehen, wobei ich die Ländernamen durch drei Buchstaben kodiert habe.
1 2 3 4 5 6 7
A
B
C
i 1 2 3 4 5 6
ai Arg Bra Deu Ita Uru Rst
ni 2 5 3 4 2 3
D
E
fi 6 10,53% # 5 4 26,32% W 3 15,79% M 2 1 21,05% 0 10,53% 15,79%
F
G
Arg Bra Deu Ita Land
Uru Rst
Abbildung 2.3: Häugkeitstabelle und Säulendiagramm
Hier sind
a2 = Bra, n2 = 5
und
f2 = 5/19 = 26, 32 %.
Das Säulendiagramm der Ver-
teilung der Weltmeister ist in der Abbildung 2.3 zu sehen, wobei ich hier absolute Zahlen verwendet habe. Die Ergebnisse einer Wahl zum Bundestag werden dagegen besser mit relativen Häugkeiten dargeboten. Bei nominalen Merkmalen sind Säulen- und Balkendiagramme meist die richtige Wahl. Die Presse verwendet sehr gerne
Kreisdiagramme ,
dafür müssen die Anteile in Flächeninhalte von Kreissektoren umgerechnet werden, oder man überlässt das Excel.
2.9.1 Kreis- und Säulendiagramm Die Ausprägungen nominaler Daten werden oft durch ein Kreis-, Säulen- oder Balkendiagramm dargestellt. Bei der Bundestagswahl 2002 erhielt die CDU/CSU 38,5, die SPD 38,5, die FDP 7,4 und die GRÜNEN 8,5 Prozent der Zweitstimmen. In der Abbildung 2.4 sehen Sie diese Daten im Bereich A1:E2 eines Arbeitsblatts als Liste und darunter als Säulen- und Kreisdiagramm. Bei einem Kreisdiagramm werden den relativen Anteilen ren mit den Winkeln
fi · 360 zugeordnet. Bei einen Säulendiagramm
fi
Kreissekto-
werden die relativen
Anteile als Säulen dargestellt. Der Vergleich zeigt, dass Säulendiagramme anschaulicher als Kreisdiagramme sind.
18
2.10 Aufgaben
1 2 3 4 5 6
B
Partei Anteil CDU/CSU 38,5 SPD 38,5 FDP 7,4 GRÜNE 8,5
C
D
E
F
G
Wahl 2002
Wahl 2002 Stimmanteil
A
H
CDU/CSU
40 20 0
SPD Grüne FDP
CDU/CSU SPD Grüne FDP Partei
Abbildung 2.4: Kreis- und Säulendiagramm im Vergleich
2.10 Aufgaben Aufgabe 1.
An einem Kochkurs nahmen neun Männer und elf Frauen teil. Was sind
hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und stellen Sie dann die Daten als Säulendiagramm dar. Warum gibt es hier keine kumulierten Häugkeiten und somit auch keine Verteilungsfunktion?
Aufgabe 2.
Der Chef einer Pizzeria glaubt, dass der Koch die Salamischeiben auf der
Pizza Salami Maximale zu unregelmäÿig verteilt. Er nimmt eine Stichprobe und erhält die folgenden Werte für die Anzahl 10
12
7
12
8
8
14
8
X 12
von Salamischeiben 10
10
7
12
14
10
14
7
12
8
8
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion.
19
3 Maÿzahlen einer Verteilung 3.1 Übersicht und Lernziele In diesem Kapitel werden folgende Themen behandelt: - Zweck der Maÿzahlen und ihre Einteilung in Lage-, Streuungs- und Schiefemaÿe; - Modus, Median, Quantile, Quartile und Boxplot; - Arithmetisches Mittel, Varianz, Standardabweichung und Variationskoezient
3.2 Denition und Einteilung Die Verteilungen von Merkmalen lassen sich durch Tabellen und Diagramme ohne Informationsverlust darstellen. Durch einige treende Maÿzahlen will man die Information bewusst verdichten, um spezische Eigenschaften zu betonen. Dies erleichtert die Vergleichbarkeit von Verteilungen. Man unterscheidet dabei zwischen
ungsmaÿen
und
Lagemaÿen , Streu-
Schiefemaÿen . Lagemaÿe geben an, wo sich die Zentren der Verteilung
benden, Streuungsmaÿe sind Indikatoren dafür, wie gedrängt oder verstreut sich die Beobachtungen um die Lagemaÿe verteilen. Schiefemaÿe zeigen Abweichungen von der Symmetrie und der sogenannten Normalverteilung an. Diese werden hier nicht behandelt.
3.3 Modus Die Merkmalsausprägung, die am häugsten vorkommt, wird
Modus
genannt, und kann
für jedes Messniveau bestimmt werden. Der Modus ist nicht immer eindeutig, da zwei oder mehr Beobachtungen gleich oft auftreten können. Wenn sogar alle Werte verschieden sind, ist jeder davon auch ein Modus. Eine andere Bezeichnung für den Modus ist
Modalwert .
Betrachten wir die Noten einer Klausur, aufgeteilt nach Geschlecht und beginnen mit der Urliste
(xi )
der Noten der sieben teilnehmenden Damen:
gut, ausreichend, befriedigend, gut, befriedigend, ausreichend, gut
(3.1)
Das Merkmal Note ist ordinal, der häugste Wert ist hier gut. Besonders einfach wird die Bestimmung des Modus, wenn für die Verteilung bereits eine Häugkeitstabelle vorliegt, der Modus ist dann in der Zeile mit dem gröÿten
ni
zu
21
3 Maÿzahlen einer Verteilung nden. Die in der Abbildung 2.1 auf Seite 14 im Bereich A1:F6 dargestellte Häugkeitstabelle zeigt die Verteilung der Studiendauer einer Gruppe von Studenten. Hier sind
n2 = n3 = 3
die gröÿten Werte, also sind sowohl
a2 = 6
als auch
a3 = 7
Modi. Bei der
Häugkeitstabelle 2.1 auf Seite 17 mit den Fuÿballweltmeistern ist der Modus eindeutig, da
n2 = 5
gröÿer als alle anderen
ni
ist, somit ist
a2 = Bra(silien)
der Modus.
3.4 Median Der
Median
ist derjenige Merkmalswert eines mindestens ordinalen Merkmals
mindestens 50 Prozent aller Merkmalswerte einer Stichprobe vom Umfang
X,
den
n unterschrei-
ten oder höchstens erreichen und den mindestens 50 Prozent aller Merkmalswerte überschreiten oder zumindest erreichen. Der Median wird mit dem Symbol Der Median wird manchmal auch Zentralwert genannt und mit
Z
x0,5
bezeichnet.
bezeichnet.
Ordinale Daten lassen sich der Gröÿe nach ordnen, bei den Noten der Studentinnen ergibt sich dann die geordnete Urliste
(x(i) )
gut, gut, gut, befriedigend, befriedigend, ausreichend, ausreichend
Ist die Anzahl
x0,5 .
n
der Beobachtungen ungerade, so ist der Wert
x((n+1)/2)
(3.2)
der Median
Bei den sieben Noten der Studentinnen mit der Urliste von 3.1 ist somit der vierte
Wert
x(4)
Schwieriger wird der Fall, nissen
x0,5 = befriedigend. wenn n gerade ist, wie
der Median, also ist
(x(i) )
bei den bereits geordneten Ergeb-
der Studenten:
sehr gut, sehr gut, sehr gut, gut, befriedigend, ausreichend.
(3.3)
Hier ist der Median nicht mehr eindeutig, denn sowohl die dritte als auch die vierte Note erfüllen die an den Median gestellten Bedingungen, denn drei und damit genau 50 % aller Werte sind kleiner oder höchstens gleich oder gleich
x(3) .
x(3) = sehr
gut und vier Werte sind gröÿer
Dagegen sind vier Werte kleiner oder gleich
sind gröÿer oder gleich
x(4) =
gut und drei Werte
x(4) .
Halten wir als Ergebnis fest, dass bei mindestens ordinalen Merkmalen die Werte zunächst geordnet werden. Der Median wird aus der geordneten Urliste
(x(i) )
wie folgt
gefunden:
x0,5 Ist die Anzahl
n
( x((n+1)/2) , = x(n/2) und x(1+n/2)
für für
n n
ungerade, gerade.
(3.4)
der Daten eine gerade Zahl, so ist der Median also nicht eindeutig. Der
Median teilt die Merkmalsträger der Untersuchung in zwei gleich groÿe Gruppen, die bezogen auf das untersuchte Merkmal besser und schlechter abschneiden.
22
3.5 Quantile
3.4.1 Der Median metrischer Merkmale n die Eindeutigkeit x(1+n/2) erzwungen. Es ergibt sich dann: ( x((n+1)/2) , für n ungerade; = x(n/2) +x(1+n/2) , für n gerade 2
Ist das Merkmal metrisch, wird für gerade Werte von durch Mittelung von
x(n/2) x0,5
des Medians
und
(3.5)
Der Median trennt die Merkmalsträger in zwei Hälften, bei einer Einkommens- oder Vermögensverteilung liegt das Einkommen bzw. Vermögen von jeweils 50 Prozent der Merkmalsträger oberhalb bzw. unterhalb des Medians. Bei metrischen Merkmalen ist der Median der Wert, der die Summe der Beträge der Abstände zu den Messwerten (x1 , x2 , . . . , xn ) minimiert, d.h. der Median erfüllt die Bedingung
x0,5 = min g(x), x∈R
mit
g(x) =
n X
|x − xi |
(3.6)
i=1
Diese Eigenschaft ist nicht ganz einfach herzuleiten, da die Funktion
g(x) nicht dieren-
zierbar ist.
Beispiel 3.1.
Die Post hat neun Kunden in einer Straÿe, die täglich einmal Briefe
abgeben wollen. Die Standorte der Kunden liegen vom Anfang der Straÿe aus gemessen 200, 350, 140, 600, 800, 100, 260, 320, 1000 Meter entfernt. Die Straÿe liegt in einer Fuÿgängerzone, der mit der Einsammlung der Briefe betraute Mitarbeiter darf sein Fahrzeug aber an einem Ort abstellen, wohin die Kunden gegen 16:00 die Briefe abliefern. An welchem Ort sollte dies geschehen, damit die Summe der Wege der Kunden minimal wird? Die geordnete Urliste lautet 100, 140, 200, 260, 320, 350, 600, 800, 1000 Der Median ist der fünfte Wert der geordneten Liste, also sollte der Fahrer sein Fahrzeug 320 m vom Anfang der Straÿe aus abstellen. Eine Woche später kommt ein weiterer Kunde hinzu, dessen Geschäft 2000 m vom Anfang der Straÿe entfernt ist. Der Median ist jetzt der Mittelwert des fünften und sechsten geordneten Werts, also 335. Hier zeigt sich, dass der Median robust gegen sogenannte
Ausreiÿer
ist, der groÿe neue Wert ändert den Median kaum. Das arithmetische Mittel
dagegen steigt von 458,75 auf 630.
3.5 Quantile Der Median
x0,5
teilt die Beobachtungen in zwei gleich groÿe Teile. Man kann die ge-
ordnete Urliste nach demselben Prinzip für jede beliebige Zahl
Quantil
genannten und mit
xp
0 p
xp
ai
ai
als auch
und
ai−1
verwendet.
Die in Abschnitt 3.3 auf Seite 22 aufgelisteten Noten der Studenten erge-
ben die folgende Häugkeitstabelle:
i
ai (Note)
1
ni
fi
Fi
sehr gut
3
3/6
3/6
2
gut
1
1/6
4/6
3
befriedigend
1
1/6
5/6
4
ausreichend
1
1/6
1
25
3 Maÿzahlen einer Verteilung p = 0, 5 und in der Häugkeitstabelle gilt für i = 2 zum ersten Mal Fi > 0, 5, aber es ist Fi−1 = 0, 5, also sind bei diesem ordinalen Merkmal sowohl die Ausprägung a2 =sehr gut als auch a1 =gut Der Median ist nicht eindeutig, denn für den Median ist
der Median.
Q1 und Q2 . Das untere Quartil ist das Quantil x0,25 . Die erste Ausprägung mit Fi > p = 0, 25 bendet sich in der ersten Zeile mit F1 = 1/2 und es ist F0 = 0 < 0, 25, also ist Q1 = a1 = sehr gut. Das obere Quartil ist das Quantil x0,75 . Die erste Ausprägung mit Fi > p = 0, 75 ist in der dritten Zeile mit F3 = 5/6 , und es ist F2 = 2/3 < 0, 75, also ist Q3 = a3 = befriedigend. Eindeutig sind dagegen das untere und das obere Quartil
Beispiel 3.5.
Die Werte des Beispiels 3.3 auf Seite 25 stammen von einem metrischen
Merkmal und führen zu folgender Häugkeitstabelle:
Tabelle 3.1: Anzahl von Cocktails
i
ai
ni
fi
Fi
1
1
2
0,2
0,2
2
2
3
0,3
0,5
3
3
2
0,2
0,7
4
4
2
0,2
0,9
5
6
1
0,1
1
Hier berechnen sich die drei Quartile wie folgt
Q1 = x0,25 = a2 = 2 Q2 = x0,5 = 0, 5(a2 + a3 ) = 2, 5 Q3 = x0,75 = a4 = 4, p = 0, 25 und für i = 2 ist das erste Mal Fi > 0, 25 und es F1 < 0, 25. Für den Median ist p = 0, 5 und für i = 3 gilt zum ersten Mal gleichzeitig ist F2 = p = 0, 5, also muss für den Median der Mittelwert von
denn für das erste Quartil ist ist gleichzeitig
Fi > p, aber a2 und a3 gebildet
werden. Die Begründung für das dritte Quartil überlasse ich Ihnen.
3.5.2 Spannweite und Interquartilsabstand p = r/s, r = 1, 2, . . . , s − 1 in s = 4 Teile zerlegt, die benötigten Quantile werden Quartile genannt und mit Q1 , Q2 und Q3 bezeichnet. Das Quartil Q2 ist der Median x0,5 , das sogenannte untere Quartil Q1 entspricht dem Quantil x0,25 , das sogenannte obere Quartil Q3 entspricht dem Quantil x0,75 . Die Dierenz zwischen Q3 und Q1 wird Interquartilsabstand IQR (von der englischen Bezeichnung interquartile range abgeleitet) genannt. Innerhalb des Intervalls [Q1 , Q3 ] Jede angeordnete Datenreihe kann durch Quantile mit
s
gleich groÿe Teile zerlegt werden. Besonders häug werden die Daten in
26
3.6 Boxplots liegen 50 % der Daten. Die Dierenz zwischen dem gröÿten Wert Wert
x(1)
wird
Spannweite R genannt (von englisch range).
Bezeichnet man den kleinsten Wert
x(1)
mit
Q0
x(n)
und dem kleinsten
und den gröÿten Wert
x(n)
mit
Q4 ,
so
ergibt sich
R = Q4 − Q0 IQR = Q3 − Q1
(3.9) (3.10)
3.6 Boxplots Ein
Boxplot
ist eine komprimierte graphische Darstellung eines Datensatzes, die von
Tukey (1977) eingeführt worden ist. Boxplots veranschaulichen vier Bereiche mit je einem Viertel der Werte. Ein Boxplot besteht aus der eigentlichen Box und zwei sogenannten Zäunen (auch Antennen genannt), die an die Box anschlieÿen. Die Box ist immer ein Rechteck, das durch das erste und dritte Quartil begrenzt wird, die Box umfasst also die mittlere Hälfte der Daten, bestimmt durch den Interquartilsabstand. Die Box wird durch den Median in zwei in der Regel ungleich groÿe Teile geteilt. Die Lage des Medians gibt Aufschluss über die Symmetrie. Liegt der Median ungefähr in der Mitte der Box, so deutet dies auf eine symmetrische Verteilung hin. Bei einer rechtsschiefen Verteilung liegt der Median näher am unteren Quartil und bei einer linksschiefen Verteilung näher am oberen Quartil. Die Box vermittelt also einen Überblick über die mittleren 50 % der Beobachtungen eines Datensatzes, während die Zäune (whiskers, adjacent values) das erste und letzte Viertel der Verteilung veranschaulichen. Bei der einfachsten Form reichen die Linien der Zäune gerade bis an den kleinsten bzw. gröÿten Wert heran. Die Enden der Linien sind durch kleine senkrechte Striche gekennzeichnet. Der Boxplot zum Beispiel 3.3 auf Seite 25 sieht dann so aus:
Abbildung 3.1: Einfacher Boxplot
Q0 = 1, der Q1 = 2, Q2 = 2, 5 und Q3 = 4.
Der kleinste Wert ist nämlich die Werte
gröÿte
Q4 = 6
und die drei Quartile haben
3.6.1 Eine Variante des Boxplots Bei der folgenden weit verbreiteten Variante des Boxplots werden nur die Zäune verändert, und zwar sind die Zäune durch diejenigen Beobachtungen festgelegt, die gerade
27
3 Maÿzahlen einer Verteilung [Q1 − 1, 5IQR, Q3 + 1, 5IQR]
noch innerhalb des Bereichs ginnt also beim kleinsten
Z0
liegen. Der untere Zaun be-
genannten Wert, der gröÿer oder gleich
und der obere Zaun endet beim gröÿten
Z4
Q1 − 1, 5IQR
ist
genannten Wert, der kleiner oder gleich
ist. Darüber hinaus liegende Beobachtungen gelten als mögliche Ausreiÿer , also stark aus der Reihe fallende Werte, und werden einzeln durch ein Symbole wie
Q3 + 1, 5IQR
Kreis oder Sternchen gekennzeichnet.
Beispiel 3.6.
Die in Meter gemessenen Weiten
X
im Speerwurf einer Gruppe von
Sportstudenten waren wie folgt:
35, 45, 50, 50, 51, 51, 51, 53, 54, 54, 55, 56, 56, 56, 57 57, 57, 58, 58, 60, 61, 61, 61, 62, 62, 62, 62, 65, 70, 75
Die Beobachtungen sind bereits geordnet, der Boxplot wird nach den Werten der folgenden Tabelle gezeichnet.
Tabelle 3.2: Benötigte Werte für den Boxplot
Q1
Q2
Q3
IQR
Q1 − 1, 5IQR
Q3 + 1, 5IQR
Z0
Z4
53
57
61
8
41
73
45
70
Überzeugen Sie sich selbst: Der Median
Q2
ist der Mittelwert des 15. und 16. Wertes,
also 57. Das untere Quartil ist der achte Wert, denn
30·0, 25 = 7, 5 und das obere Quartil
ist der 23. Wert, also 61. Somit ist der Interquartilsabstand 8 und das 1,5-fache davon 12. Der untere Zaun beginnt beim kleinsten Wert gröÿer gleich
41 = Q1 − 1, 5IQR, also 73 = Q3 + 1, 5IQR,
bei 45. Der obere Zaun endet beim gröÿten Wert kleiner gleich
also bei 70. Verdächtig als Ausreiÿer sind lediglich die Werte 35 und 75. Der zugehörige Boxplot sieht daher wie folgt aus:
Abbildung 3.2: Eine weitere Form des Boxplots
Die Box wird wie beim einfachen Boxplot durch
Q1 , Q2
und
Q3
festgelegt, aber die
Zäune nicht mehr durch den kleinsten und den gröÿten Wert, sondern durch
28
Z0
und
Z4 .
3.7 Das arithmetische Mittel
3.7 Das arithmetische Mittel Das
arithmetische Mittel , auch als Mittelwert
bezeichnet, mittelt über alle Beobachtun-
gen. Daher muss das Merkmal metrisch sein. Es gilt dann
n
1X x1 + x2 + · · · + xn = xi . x¯ = n n i=1 Kennt man bereits die Ausprägungen
ai
(3.11)
mit ihren absoluten Häugkeiten
ni ,
so gilt
k
n1 a1 + n2 a2 + · · · + nk ak 1X x¯ = = n i ai . n n i=1 Wegen
fi = ni /n
(3.12)
gilt auch
x¯ = f1 a1 + f2 a2 + · · · + fk ak =
k X
f i ai .
(3.13)
i=1
Beispiel 3.7.
Die IT-Abteilung eines Unternehmens besteht aus zwei Teams. Das erste
hat vier Mitarbeiter mit den Monatsgehältern von 2.000, 2.600, 3.000 und 4.000 Euro. Im zweiten verdienen je zwei Mitarbeiter 2.000 bzw. 3.000 und die Leiterin 6.000 Euro im Monat. Im ersten Team sind alle
n=4
Werte verschieden, daher wird der Mittelwert nach
der Formel (3.11) berechnet
x¯ = (2.000 + 2.600 + 3.000 + 4.000)/4 = 11.600/4 = 2.900. n = 5 Werte verschieden, sondern es sind a1 = 2.000 n2 = 2 sowie a3 = 6.000 und n3 = 1, daher wird der
In der zweiten Gruppe sind nicht alle und
n1 = 2, a2 = 3.000
und
Mittelwert nach der Formel (3.12) berechnet
x¯ = (2 · 2.000 + 2 · 3.000 + 1 · 6.000)/5 = 16.000/5 = 3.200. Beispiel 3.8.
Betrachten wir die Altersverteilung einer Gruppe von
n = 13
junger
Menschen mit den bereits geordneten Werten 18, 18, 18, 19, 19, 19, 20, 21, 21, 21, 22, 22, 22 so gelten
18 + 18 + 18 + 19 + 19 + 19 + 20 + 21 + 21 + 21 + 22 + 22 + 22 260 = = 20 13 13 3 · 18 + 3 · 19 + 20 + 3 · 21 + 3 · 22 260 x¯ = = = 20 13 13 3 3 1 3 3 260 x¯ = · 18 + · 19 + · 20 + · 21 + · 22 = = 20 13 13 13 13 13 13 x¯ =
29
3 Maÿzahlen einer Verteilung
3.7.1 Eigenschaften des arithmetischen Mittels Da das arithmetische Mittel über alle Einzelwerte mittelt, ist die Summe der Abweichungen gleich 0, also
n X
(xi − x¯) = 0.
(3.14)
i=1 Gibt es umgekehrt eine Zahl
z,
die diese Bedingung erfüllt, so ist
z = x¯.
Man kann an
der Datenreihe der Altersverteilung damit sofort raten, dass 20 das arithmetische Mittel ist, denn zu jeder Abweichung nach oben gibt es eine genau so groÿe Abweichung nach unten. Auch das arithmetisches Mittel erfüllt eine Minimumeigenschaft, es minimiert nämlich die quadrierten Abstände zu den Beobachtungen, genauer es gilt
x¯ = min QS(x), x∈R
mit
QS(x) =
n X
(x − xi )2 .
(3.15)
i=1
Diese Eigenschaft ist sehr einfach mit Mitteln der Dierentialrechnung zu beweisen, denn die zu minimierende Funktion
QS(x)
ist dierenzierbar. Die Bezeichnung QS steht
für Quadratsumme.
3.8 Streuungsmaÿe mit Bezug auf den Mittelwert Lagemaÿe charakterisieren die Mitte einer Verteilung, Streuungsmaÿe sollen widerspiegeln, wie stark die Werte um das Zentrum verstreut sind. Bei geringer Streuung liegen die einzelnen Werte überwiegend in der Nähe von Median und Mittelwert, bei groÿer Streuung sind die durchschnittlichen Abweichungen vom Zentrum entsprechend groÿ. Streuungsmaÿe nehmen also in der Regel Bezug auf ein Lagemaÿ. Zunächst wird als Lagemaÿ das arithmetische Mittel verwendet. Als einfaches Streuungsmaÿ bietet sich an, die absoluten Abstände vom arithmetischen Mittel zu mitteln
dx¯ =
n X
|xi − x¯|
(3.16)
i=1 Es gibt aber geeignetere Streuungsmaÿe.
3.8.1 Die Varianz Ausdrücke mit Betragsstrichen sind nicht dierenzierbar, daher verwendet man für die Messung von Variabilität lieber quadratische Abweichungen vom Mittelwert. Zunächst führe ich folgende Bezeichnung ein:
QS(x) =
n X i=1
30
(xi − x)2 .
(3.17)
3.8 Streuungsmaÿe mit Bezug auf den Mittelwert Die Bezeichnung QS steht für Quadratsumme. Der Wert von
Verschiebungssatz von Steiner
Es gilt folgende Beziehung, die
QS(x) =
n X
(xi − x)2 =
i=1
n X
x
ist zunächst beliebig.
genannt wird.
(xi − x¯)2 + n (¯ x − x)2 .
(3.18)
i=1
Daraus folgt, dass die Funktion
QS(x)
für
x = x¯
minimal wird.
Der Beweis dieser wichtigen Beziehung sei nun skizziert.
QS(x) = =
n X
2
(xi − x) =
i=1 n X
n X
([xi − x¯] + [¯ x − x])2
i=1
(xi − x¯)2 + 2(xi − x¯)(¯ x − x) + (¯ x − x)2
i=1
=
n X
(xi − x¯)2 + n (¯ x − x)2 .
i=1 Dabei wurde die Beziehung
n X
(xi − x¯) = 0
i=1 verwendet. Die mittlere quadratische Abweichung vom Mittelwert ist somit ein zweck2 volles Streuungsmaÿ, das genannt und mit σ bezeichnet wird.
Varianz
n
1X (xi − x¯)2 . σ = QS(¯ x) = n i=1 2
(3.19)
Die Varianz hat nur dann den Wert 0, wenn jede einzelne quadratische Dierenz verschwindet, also alle Datenwerte mit dem Mittelwert übereinstimmen und folglich konstant sind. Bei nicht konstanten Daten ist die Varianz immer positiv. Setzt man im Verschiebungssatz von Steiner x 2 für die Varianz σ : n 1X 2 2 x σ = n i=1 i
= 0, kommt man auf eine zweite Formel − x¯2 .
(3.20)
Diese Formel ist bei Rechnungen mit der Hand oder einem Taschenrechner meist einfacher als die Formel (3.19).
Beispiel 3.9.
Seien noch einmal die Einkünfte des ersten IT-Teams betrachtet mit den
Werten von 2.000, 2.600, 3.000 und 4.000 Euro. Das arithmetische Mittel
11.600/4 = 2.900.
x¯ hat den Wert
Somit gilt:
(2.000 − 2.900)2 + (2.600 − 2.900)2 + (3.000 − 2.900)2 + (4.000 − 2.900)2 4 = 530.000 2.0002 + 2.6002 + 3.0002 + 4.0002 σ2 = − 2.9002 = 530.000 4
σ2 =
31
3 Maÿzahlen einer Verteilung (a1 , a2 , . . . , ak ), k < n mit Häugkeiten fi auf, so gelten:
Kennt man bereits die Ausprägungen gkeiten
ni
bzw. mit den relativen
den absoluten Häu-
k
1X σ = ni (ai − x¯)2 , n i=1 2
k X
2
σ =
fi (ai − x¯)2 ,
(3.21)
(3.22)
i=1 k
1X ni a2i − x¯2 . n i=1
σ2 = Beispiel 3.10.
(3.23)
Betrachten wir dazu jetzt die Monatseinkünfte des zweiten Teams von
zweimal 2.000 und zweimal 3.000 sowie einmal 6.000 Euro:
2 · (2.000 − 3.200)2 + 2 · (3.000 − 3.200)2 + (6.000 − 3.200)2 = 2.160.000, 5 1 σ2 = 2 · 2.0002 + 2 · 3.0002 + 6.0002 − 3.2002 = 2.160.000. 5
σ2 =
3.8.2 Stichprobenvarianz Die Varianz wird verwendet, wenn das Merkmal einer Grundgesamtheit untersucht wird, was in der beschreibenden Statistik sehr oft der Fall ist, da die Daten aus amtlichen oder betrieblichen Vollerhebungen stammen. In der schlieÿenden Statistik stammen die Daten in der Regel von einer Stichprobe. In diesem Fall dividiert man die Summe der
n, sondern durch n−1 und spricht empirischen Varianz s2 . Somit besteht zwischen
quadrierten Abweichungen vom Mittelwert nicht durch von der
Stichprobenvarianz
oder der
der Varianz und der Stichprobenvarianz der einfache Zusammenhang
s2 =
n σ2. n−1
(3.24)
Daraus ergeben sich folgende Formeln
n
1 X s = (xi − x¯)2 n − 1 i=1 2
(3.25)
n
1 X 2 n s = xi − x¯2 n − 1 i=1 n−1 2
(3.26)
bzw. bei Kenntnis der Häugkeitsliste
k
s2 =
1 X ni (ai − x¯)2 n − 1 i=1
(3.27)
k
1 X n s = ni a2i − x¯2 . n − 1 i=1 n−1 2
32
(3.28)
3.8 Streuungsmaÿe mit Bezug auf den Mittelwert Beim Team mit den Monatseinkünften von 2.000, 2.600, 3.000 und 4.000 Euro erhält man also
4 4 s2 = σ 2 = · 530.000 = 706.666, 67 3 3 1 s2 = (2.000 − 2.900)2 + (2.600 − 2.900)2 + (3.000 − 2.900)2 + (4.000 − 2.900)2 3 = 706.666, 67 4 1 s2 = 2.0002 + 2.6002 + 3.0002 + 4.0002 − 2.9002 = 706.666, 67. 3 3 Beim anderen Team mit den Monatseinkünften von zweimal 2.000 und zweimal 3.000 sowie einmal 6.000 Euro, kann die empirische Varianz wie folgt berechnet werden
5 5 s2 = σ 2 = · 2.160.000 = 2.700.000 4 4 1 s2 = 2 · (2.000 − 3.200)2 + 2 · (3.000 − 3.200)2 + (6.000 − 3.200)2 = 2.700.000 4 5 1 s2 = 2 · 2.0002 + 2 · 3.0002 + 6.0002 − 3.2002 = 2.700.000. 4 4
3.8.3 Die Standardabweichung Varianz und empirische Varianz haben nicht die Maÿeinheiten der Beobachtungen selbst. Daher wird die Quadratwurzel aus der Varianz bzw. der empirischen Varianz gezogen. Die somit erhaltenen Werte werden
weichung s genannt.
Standardabweichung σ bzw. empirische Standardab-
Im Beispiel des ersten Teams ergibt sich
σ =
√ 530.000 = 728, 01
Euro. Für die
empirische Standardabweichung muss die Wurzel aus der empirischen Varianz gezogen
√ s= √ 706.666, 67 = 840, 63 Euro. 2.160.000 = 1.469, 69 Euro. sich σ =
werden, also erhält man beim erstem Team Im Beispiel des zweiten Teams ergibt
Für die
empirische Standardabweichung muss die Wurzel aus der empirischen Varianz gezogen werden, also erhält man
s=
√ 2.700.000 = 1.643, 17
Euro.
3.8.4 Der Variationskoezient Die Standardabweichung ist ebenso wie die Spannweite und die mittleren absoluten Abweichungen vom arithmetischen Mittel oder vom Median ein Maÿ für die absolute Streuung. Diese sind im Allgemeinen dimensionsbehaftete Gröÿen, die von der Maÿeinheit abhängen, in der ein Merkmal gemessen wird. Relative Streuungsmaÿe sind dagegen dimensionslos. Ein Beispiel eines solchen relativen Maÿes ist der sogenannte
koezient . Für ein metrisches Merkmal X abweichung
σ
ist der Variationskoezient
mit arithmetischem Mittel
v
v=
x¯
Variations-
und Standard-
deniert durch
σ . x¯
(3.29)
33
3 Maÿzahlen einer Verteilung Der Variationskoezient ist ein relatives Streuungsmaÿ, denn das absolute Streuungsmaÿ
σ
wird ins Verhältnis gesetzt zum arithmetische Mittel des Merkmals. Der Varia-
tionskoezient hat keine Einheit, da er der Quotient zweier Gröÿen gleicher Dimension ist. Beim ersten Team ergibt sich
v = σ/¯ x = 728, 01/2.900 = 0, 2510. Bei dem Team mit den Monatseinkünften von zweimal 2.000 und zweimal 3.000 sowie einmal 6.000 ergibt sich
v = σ/¯ x = 1.469, 69/3.200 = 0, 4593. Betrachten wir die bei einem Wettkampf erbrachten Weiten von 15 Sportstudenten im Kugelstoÿen mit der in [m] angegebenen Messreihe:
6, 1 6, 6 6, 9 7, 1 7, 2 7, 2 7, 4 7, 7 7, 9 8, 2 8, 4 9, 1 10, 3 10, 5 11, 4 Man erhält:
1 (6, 1 + 6, 6 + · · · + 11, 4) = 8, 13 15 1 σ 2 = (6, 12 + 6, 62 + · · · + 11, 42 ) − 8, 132 = 2, 24 15 p σ = 2, 24 = 1, 496662955 σ v = = 0, 184091384 x¯ s2 = (15/14)σ 2 = 2, 4 p s = 2, 4 = 1, 549193338 x¯ =
3.8.5 Arbeitstabelle zur Berechnung Der Mittelwert und die Varianz sowie die davon abgeleiteten Gröÿen lassen sich mit Arbeitstabellen berechnen. Ich zeige dies ein letztes Mal an den Daten der Einkünfte der beiden IT-Teams. Im linken Tabellenteil werden die Daten des ersten Teams verwendet. In den Zellen B2 bis B5 stehen die Daten, darunter deren Summe, die durch die Anzahl
n=4
der Daten geteilt wird und den Mittelwert
x¯
in der Zelle A8 ergibt. In der Spalte
C sehen Sie direkt die Quadrate der Daten, in der Zelle C6 dann deren Summe. Die Varianz ergibt sich in der Zelle B8 durch Division dieser Summe durch n, wovon dann das Quadrat des Mittelwerts, also x ¯2 , abgezogen wird. Die Standardabweichung σ sehen Sie in der Zelle C8, dafür muss nur die Wurzel aus der Varianz gezogen werden. Auch die empirische Varianz ergibt sich sofort aus der Varianz durch Multiplikation mit
n/(n−1),
hier also mit 4/3. Die empirische Standardabweichung folgt durch Wurzelziehen. Der Variationskoezient ist der Bruch
v = σ/¯ x.
Für das zweite Team müssen die Ausprägungen
ai
und deren Häugkeiten
ni
berück-
sichtigt werden, die entsprechenden Werte stehen im Bereich F2:G4. In den Zellen H2
34
3.9 Mittlere absolute Abstände bis H4 stehen die Produkte
ni · a2i . Die sich in den Zellen H6 bzw. I6. Der Mittelwert x ¯ steht in durch Division des Wertes der Zelle H6 durch n = 5. Die
n i · ai
jeweiligen Summen benden der Zelle G8 und ergibt sich
und in den Zellen I2 bis I4 die Produkte
Varianz steht in der Zelle H8 und ergibt sich durch Division des Wertes der Zelle G6 durch n = 5, wovon dann wieder x ¯2 abgezogen wird.
A 1 2 3 4 5 6 7 8 9 10
B
i 1 2 3 4
xi 2.000 2.600 3.000 4.000 11.600 σ2 530.000
xquer 2900 s2 s 706.666,6667 840,6347
C
D E
2
i
xi 4.000.000 6.760.000 9.000.000 16.000.000 35.760.000
F
G ni
ai 1 2000 2 3000 3 6000
σ 728,0110
H 2 2 1 5
xquer 3.200 s2 2.700.000
v 0,2510
I
ni*ai 4.000 6.000 6.000 16.000
ni*ai2 8.000.000 18.000.000 36.000.000 62.000.000
σ2 2.160.000
σ 1.469,6938
s 1643,1677
v 0,4593
Abbildung 3.3: Arbeitstabelle für einige Maÿzahlen
Schneller und sicherer kommen Sie mit den Excel-Funktionen zum Ziel, die ich später vorstellen werde. Das gezeigte Schema ist für Rechnungen mit der Hand geeignet.
3.9 Mittlere absolute Abstände Die Streuungsmaÿe Varianz und Standardabweichung beziehen sich auf das arithmetische Mittel. Es gibt aber auch Streuungsmaÿe, die als Lagemaÿ den Median verwenden, und zwar die gemittelten absoluten Abstände vom Median. Es ergibt sich dann
n
dx0,5
1X = |xi − x0,5 | n i=1
(a1 , a2 , . . . , ak ), k < n Häugkeit fi auf, so gelten
Kennt man bereits die Ausprägungen gkeiten
ni
bzw. mit der relativen
(3.30)
mit den absoluten Häu-
k
dx0,5
1X ni |ai − x0,5 | , = n i=1
dx0,5 =
k X
fi |ai − x0,5 | .
(3.31)
(3.32)
i=1
Beispiel 3.11.
Die IT-Abteilung eines Unternehmens besteht aus zwei Teams. Das
erste hat vier Mitarbeiter mit den Gehältern von 2.000, 2.600, 3.000 und 4.000 Euro. Im
35
3 Maÿzahlen einer Verteilung zweiten verdienen je zwei Mitarbeiter 2.000 bzw. 3.000 und die Leiterin 6.000 Euro im Monat. Hier ist im ersten Team der Median der Mittelwert zwischen dem zweiten und drittem Wert, also 2.800 Euro. Im zweiten Team ist der Median der dritte Wert, also 3.000 Euro. Somit folgen die Werte
|2.000 − 2.800| + |2.600 − 2.800| + · |3.000 − 2.800| + · |4.000 − 2.800| = 600; 4 2 · |2.000 − 3.000| + 2 · |3.000 − 3.000| + |6.000 − 3.000| = 1.000 = 5
dx0,5 = dx0,5
Die Werte der zweiten Gruppe sind stärker verstreut als in der ersten Gruppe.
3.10 Transformationseigenschaften der Maÿzahlen Oft werden die ursprünglichen Daten
(x1 , x2 , . . . , xn )
einer linearen Transformation un-
terworfen, d.h.
yi = a xi + b. Durch diese Transformation ändern sich auch die Maÿzahlen und zwar gelten folgende Beziehungen:
y¯ = a x¯ + b y0,5 = a x0,5 + b σy2 = a2 σx2
(3.33) (3.34) (3.35)
σy = |a| σx
(3.36)
Nehmen wir wieder das Team mit den Ausgangswerten von je zweimal 2.000 Euro bzw. 3.000 EURO und einmal 6.000 Euro als Beispiel. Der dankbare Chef erhöhe die Gehälter um den Sockelbetrag von 200 Euro und um zusätzliche 5 Prozent. Dann gilt also:
yi = 1, 05 xi + 200. Ohne Berechnung der Einzelwerte können wir somit folgende neue Lagemaÿe angeben:
y¯ = a x¯ + b = 1, 05 · 3.200 + 200 = 3.560 y0,5 = a x0,5 + b = 1, 05 · 3.000 + 200 = 3.350 σy2 = a2 σx2 = 1, 052 · 2.160.000 = 2.381.400 σy = a σx2 = 1, 05 · 1.469, 690 = 1.543, 18
3.11 Anforderungen an Maÿzahlen metrischer Merkmale Abschlieÿend sei kurz gestreift, welche allgemeinen Anforderungen an Maÿzahlen metrischer Merkmale gestellt werden. Der Ausgangspunkt ist der Datensatz
36
(x1 , . . . , xn ).
Bei
3.12 Abschlieÿendes Beispiel metrischen Merkmalen wird eine Maÿzahl
m durch eine Abbildung ϕ : Rn → R wie folgt
festgelegt
m = ϕ(x1 , . . . , xn ) Bei Lagemaÿen sollte die Funktion
ϕ
(3.37)
die beiden Eigenschaften
ϕ(x1 + t, x2 + t, . . . , xn + t) = ϕ(x1 , x2 , . . . , xn ) + t, ϕ(ax1 , ax2 , . . . , axn ) = aϕ(x1 , x2 , . . . , xn )
(3.38) (3.39)
erfüllen. Wenn alle Daten um einen konstanten Wert verändert werden, soll auch das Lagemaÿ sich entsprechend anpassen. Werden dagegen alle Daten mit einem Faktor multipliziert, soll sich das auch auf das Lagemaÿ so auswirken. Bei Streuungsmaÿen werden dagegen
ϕ(x1 , x2 , . . . , xn ) ≥ 0 ϕ(x1 + t, x2 + t, . . . , xn + t) = ϕ(x1 , x2 , . . . , xn ), ϕ(ax1 , ax2 , . . . , axn ) = |a|p ϕ(x1 , x2 , . . . , xn ), p > 0
(3.40) (3.41) (3.42)
gefordert. Streuungsmaÿe müssen nichtnegativ und für nicht konstante Daten sogar positiv sein und dürfen sich bei einer Verschiebung der Daten nicht ändern, während die Multiplikation mit einem Faktor das Streuungsmaÿ um eine Potenz
p des Betrags dieses ϕ ste-
Faktors vergröÿert. Auÿerdem sollte bei allen Maÿzahlen die zugehörige Funktion
tig sein, damit kleine Änderungen bei den Daten auch nur kleine Änderungen bei den Maÿzahlen nach sich ziehen.
3.12 Abschlieÿendes Beispiel Beispiel 3.12.
Die folgende Urliste stammt von Frondel und gibt Auskunft über die
Körpergröÿen von 20 Teilnehmern eines Kurses in Statistik. 1,56, 2,05, 1,76, 1,68, 1,86, 1,71, 1,62, 1,83, 1,76, 1,83 1,75, 1,69, 1,91, 1,89, 1,83, 1,93, 1,71, 1,78, 1,71, 1,83 Es sollen nun die wichtigsten Kennzahlen berechnet werden. Für die Bestimmung der Quantile wird die aufsteigend geordnete Urliste benötigt, sie lautet 1,56, 1,62, 1,68, 1,69, 1,71, 1,71, 1,71, 1,75, 1,76, 1,76 1,78, 1,83, 1,83, 1,83, 1,83, 1,86, 1,89, 1,91, 1,93, Hier sind sowohl
10 = 20 · 0, 5
als auch
5 = 20 · 0, 25
2,05
sowie
15 = 20 · 0, 75
ganzzahlig.
Deshalb ergibt sich für die Quartile:
x0,25 = Q1 = 0, 5(x(5) + x(6) ) = 0, 5(1, 71 + 1, 71) = 1, 71 x0,5 = Q2 = 0, 5(x(10) + x(11) ) = 0, 5(1, 76 + 1, 78) = 1, 77 x0,75 = Q3 = 0, 5(x(15) + x(16) ) = 0, 5(1, 83 + 1, 86) = 1, 845
37
3 Maÿzahlen einer Verteilung Für das obere Terzil
T2 = x2/3
ergibt sich wegen
13, 3333 = 20 · 2/3
T2 = x2/3 = x(14) = 1, 83. Weitere Kennzahlen werden wie folgt berechnet
1 (1, 56 + 2, 05 + · · · + 1, 83) = 1, 7845 20 1 σ 2 = (1, 562 + 2, 052 + · · · + 1, 832 ) − 1, 78452 = 0, 01244 20 p σ = 0, 01244 = 0, 11156 σ 0, 11156 v= = = 0, 062516 x¯ 1, 7845 s2 = (20/19)σ 2 = 0, 013099737 p s = 0, 013094737 = 0, 114454082 x¯ =
3.13 Excel-Funktionen Für die hier vorgestellten Maÿzahlen gibt es Funktionen in Excel. Vorausgesetzt wird immer, dass die Daten in einem zusammenhängenden Bereich stehen, z.B. folgende acht Zahlen im Bereich B2:B9 10
3
12
6
1
11
4
9
Der Mittelwert wird durch =MITTELWERT(B2:B9) berechnet.
A B C 1 i xi x(i) 2 1 10 1 3 2 3 3 4 3 12 4 5 4 6 6 6 5 1 9 7 6 11 10 8 7 4 11 9 8 9 12
D Q1 Q2 Q3 xquer σ2 σ s2 s v
E
F 3,5 =0,5*(C3+C4) 7,5 =0,5*(C5+C6) 10,5 =0,5*(C7+C8) =MITTELWERT(B2:B9) =MITTELWERT(B2:B9) =VAR.P(B2:B9) =VARIANZEN(B2:B9) =STABW.N(B2:B9) =STABWN(B2:B9) =VAR.S(B2:B9) =VARIANZ(B2:B9) =STABW.S(B2:B9) =STABW(B2:B9) =E6/E4 =F6/F4
G =QUANTIL(B2:B9;0,25) =QUANTIL(B2:B9;0,5) =QUANTIL(B2:B9;0,75) 7 14,5 3,80788655293195 16,5714285714286 4,07080195679286 0,543983793275993
H 3,75 7,5 10,25
Abbildung 3.4: Arbeitstabelle für einige Maÿzahlen
2 Für die Varianz muss man unterscheiden zwischen der Varianz σ für eine Gesamt2 heit, englisch Population, und der empirischen Varianz s für eine Stichprobe, englisch 2 Sample. Die Funktion VARIANZEN berechnet σ . Die Funktion VARIANZ berechnet 2 die empirische Varianz, also s . Für die Standardabweichung einer Grundgesamtheit gibt es Funktion STABWN. Bei den obigen Zahlen ergibt sich somit für =STABWN(B2:B9) der Wert 3,807886553,
38
3.14 Aufgaben also die Quadratwurzel von 14,5. Für die Standardabweichung einer Stichprobe gibt es die Funktion STABW. Daher hat =STABW(B2:B9) den Wert 4,070801957, also die Quadratwurzel von 16,57142857. Die Funktionen sind im Bereich F4:F8 zu sehen. Im neueren Excel sollen diese Funktionen nicht mehr verwendet werden, sondern für die beiden Varianzen die Funktionen VAR.P und VAR.S, wobei sich P immer auf die Grundgesamtheit (Population) und S auf eine Stichprobe (Sample) beziehen. Bei den obigen Zahlen ergeben sich somit für =VAR.P(B2:B9) der Wert 14,5 und für =VAR.S(B2:B9) der Wert 16,57142857, also das 8/7-fache von 14,5. Für die beiden Standardabweichungen gibt es die beiden Funktionen STABW.N und STABW.S. Warum hier ein N statt dem P steht, weiÿ niemand. Bei den obigen Zahlen ergeben sich somit für =STABW.N(B2:B9) der Wert 3,807886553, und für =STABW.S(B2:B9) der Wert 4,070801957. Die Funktionen sind im Bereich E4:E8 zu sehen. Alle Funktionen müssen immer auf die Urliste oder die geordnete Urliste angewendet werden, niemals nur auf die Ausprägungen, da deren absolute Häugkeit unberücksichtigt bliebe! Für den Variationskoezienten gibt es in Excel keine Funktion. Die Quantile berechnet Excel anders als von mir beschrieben. Es gibt ab Excel 2010 zwei Funktionen, und zwar QUANTIL.INKL und QUANTIL.EXKL. Die erste entspricht der alten Funktion QUANTIL. Sie müssen als erstes Argument einen Bereich eingeben, hier also B2:B9 und als zweiten den Wert von
p
als Zahl zwischen 0 und 1. Das erste
Quartil sollte somit durch =QUANTIL.INKL(B2:B9;0,25) bestimmt werden. Excel liefert 3,75, während nach meiner Denition der Mittelwert von 3 und 4 zu bilden ist, also 3,5. Excel rechnet dabei wie folgt
r = (n − 1) · p, wobei n die Anzahl der bereits aufsteir in den ganzzahligen Teil i und den Rest
1. Bestimme zunächst die Zahl
gend angeordneten Werte ist. Zerlege nach dem Komma 2. Das Quantil
xp
d.
ist dann
xp = (1 − d)x(i) + dx(i+1) . Im obigen Beispiel sind für das erste Quartil
r = (8 − 1)/4 = 2, 75,
und somit sind
i=2
und
p = 0, 25 und es ist n = 8. d = 0, 75 und deshalb
Also ist
xp = (1 − d)x(i) + dx(i+1) = 0, 25 · 3 + 0, 75 · 4 = 3, 75. Bitte beachten Sie, dass diese Berechnungsmethode zwar einleuchtend ist, aber von der in der Statistik üblichen abweicht!
3.14 Aufgaben Aufgabe 1.
In der Abiturprüfung kamen die Schülerinnen des Sportleistungskurses
eines Gymnasiums beim Kugelstoÿen auf folgende Weiten
X
in [m]
39
3 Maÿzahlen einer Verteilung 3,23
2,35
5,37
3,49
6,90
2,93
1,81
4,26
4,44
2,73.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie das untere Quartil, den Median, das obere Quartil, das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten
X.
des Merkmals
Aufgabe 2.
Der Notenspiegel einer Klausur ist wie folgt: 6-mal sehr gut, je 5-mal gut
und befriedigend, 3-mal ausreichend und einmal mangelhaft. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen dann die Stabverteilung sowie die empirische Verteilungsfunktion. Geben Sie abschlieÿend den Modus, das untere Quartil, den Median und das obere Quartil sowie das 95 % Quantil an. Warum ist es hier nicht sinnvoll Mittelwert und Varianz zu berechnen?
Aufgabe 3.
Ein Gastwirt zählt die Anzahl
X
der Gäste an seinen Tischen und kommt
auf folgende Werte: 3
6
5
8
6
4
4
4
3
6.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Ordnen Sie die Urliste und bestimmen Sie damit den Modus, das untere Quartil, den Median, das obere Quartil und die Quantile
x0,2
sowie
x0,9 .
Berechnen Sie
das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Stellen Sie die Daten als Häugkeitstabelle dar. Berechnen
Sie damit die drei Quartile erneut. Zeichnen Sie abschlieÿend das Stabdiagramm für die relativen Häugkeiten und die Verteilungsfunktion.
Aufgabe 4.
Erstellen Sie den einfachen Boxplot zu den Daten des Beispiels 2.1 auf Seite
12.
Aufgabe 5.
In einem Projekt zur Betriebsinformatik wurden die Studierenden unter
anderem nach dem Alter ihres Vaters gefragt. Hier ist die geordnete Stichprobe: 44 46 49 50 50 51 51 51 51 51 52 52 53 53 53 54 55 56 57 58 60 Man erstelle beide Varianten des Boxplots. Die Daten stammen von Heindl, Seite 117.
Aufgabe 6.
In der folgenden Urliste ist das Lebensalter
X
von Studenten eines Kurses
aufgeführt. 19, 21, 26, 20, 22, 19, 20, 19, 23, 21, 52, 22, 19, 21, 20, 23, 22, 21, 21, 20, 20
40
3.14 Aufgaben Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Erstellen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion. Berechnen Sie mit Hilfe der Häugkeitstabelle den Modus, das untere Quartil, den Median, das obere Quartil, die Quantile
x0,4
sowie
x0,9 ,
das arithmetische Mittel, die Varianz und
die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Der Wert 52 ist
ein Zahlendreher und wäre korrekt 25. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die Standardabweichung? Ein anderer Auswerter dieser Daten unterdrückt den Ausreiÿer von 52 ganz, geht also nur noch von 20 statt 21 Werten aus. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die Standardabweichung?
41
4 Ausgewählte Lösungen 4.1 Zu Kapitel 1 Aufgabe 1.
Eine Firma der Metallverarbeitung fasst die wichtigsten Daten über alle
Mitarbeiter in einer Datenmatrix zusammen, deren Felder das Geschlecht, die Abteilung, das Geburtsjahr sowie Tarifgruppe und Gehalt sind. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an. Die statistischen Einheiten sind die Mitarbeiter, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Vollerhebung. Das Merkmal Geschlecht ist nominal und dichotom, das Merkmal Abteilung ist nominal und polytom. Das Merkmal Geburtsjahr ist metrisch diskret, die Tarifgruppe ist ordinal und das Gehalt metrisch stetig.
ID
X (Sex)
A (Abt.) J (Geb.Jahr) T (Tarifg.) G (Gehalt)
1
1 männlich
Personal
1972
T4
2.345
2
0 weiblich
Vertrieb
1980
T1
7.050
Aufgabe 2.
Eine Hochschule befragt 100 zufällig ausgewählte Studenten nach Ge-
schlecht, Nationalität, Alter, Schulbildung und Fachbereich. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an. Die statistischen Einheiten sind die Studenten, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Teilerhebung. Die Merkmale Nationalität und Fachbereich sind nominal und polytom, die Schulbildung ordinal, das Alter metrisch diskret.
Aufgabe 3.
Zeigen Sie am Beispiel der in Deutschland zugelassenen PKW den Zusam-
menhang zwischen Bestands- und Bewegungsmassen. Die zugelassenen PKW bilden eine Bestandsmasse, Zulassungen und Abmeldungen bilden Bewegungsmassen. Die Veränderungen bei der Bestandsmasse zwischen zwei Erhebungen werden durch die beiden Bewegungsmassen verursacht.
43
4 Ausgewählte Lösungen
4.2 Zu Kapitel 2 Aufgabe 1.
An einem Kochkurs nahmen neun Männer und elf Frauen teil. Was sind
hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und stellen Sie dann die Daten als Säulendiagramm dar. Warum gibt es hier keine kumulierten Häugkeiten und somit auch keine Verteilungsfunktion?
ai Männlich Weiblich Summen
ni
fi
9 11 20
0,45 0,55 1
Säulendiagramm
0,6 0,4 0,2 0
Männlich
Weiblich
Die statistischen Einheiten sind die Teilnehmer, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Vollerhebung. Das Merkmal ist das Geschlecht des Teilnehmers, die möglichen Ausprägungen sind männlich und weiblich. Dieses Merkmal ist nominal, daher gibt es keine Anordnung und folglich auch weder kumulierte Häugkeiten noch die Verteilungsfunktion. Die Häugkeitstabelle und das Säulendiagramm sind abgebildet.
Aufgabe 2.
Der Chef einer Pizzeria glaubt, dass der Koch die Salamischeiben auf der
Pizza Salami Maximale zu unregelmäÿig verteilt. Er nimmt eine Stichprobe und erhält die folgenden Werte für die Anzahl 10
12
7
12
8
8
14
8
X
von Salamischeiben
12
10
10
7
12
14
10
14
7
12
8
8
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion.
1 2 3 4 5 6 7 8 9 10 11
44
A i Urliste xi geordnete Urliste x(i)
B
C D E F G H I J K 1 2 3 4 5 6 7 8 9 10 10 12 7 12 8 8 14 8 12 10 7 7 7 8 8 8 8 8 10 10
fi
L M N O P 11 12 13 14 15 10 7 12 14 10 10 10 12 12 12 i
1 0,75 0,5 0,25 0
0,3 0,2 0,1 0 6 7 8 9 10 11 12 13 14 15 Anzahl Salamischeiben
1 2
6 7 8 9 10 11 12 13 14 15 Anzahl Salamischeiben
Q R S 16 17 18 14 7 12 12 12 14
T 19 8 14
U 20 8 14
ai ni Ni
fi
Fi
7 8 3 10 4 12 5 14
3 3 0,15 0,15 5 8 0,25 0,4 4 12 0,2 0,6 5 17 0,25 0,85 3 20 0,15 1
4.2 Zu Kapitel 2 Die statistischen Einheiten sind die insgesamt hergestellten Pizzen der Sorte Salami Maximale, die zusammen die statistische Gesamtheit bilden. Da nur 20 Pizzen untersucht wurden, handelt es sich um eine Teilerhebung. Das Merkmal ist die Anzahl von Salamischeiben, die möglichen Ausprägungen sind natürliche Zahlen. Dieses Merkmal ist metrisch diskret. Die Häugkeitstabelle und das Säulendiagramm sowie die Verteilungsfunktion sind abgebildet.
45
4 Ausgewählte Lösungen
4.3 Zu Kapitel 3 Aufgabe 1.
In der Abiturprüfung kamen die Schülerinnen des Sportleistungskurses
eines Gymnasiums beim Kugelstoÿen auf folgende Weiten 3,23
2,35
5,37
3,49
6,90
2,93
1,81
X
4,26
in [m]
4,44
2,73.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie das untere Quartil, den Median, das obere Quartil, das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Die statistischen Einheiten sind die Schülerinnen des Sportleistungskurses, die zusammen die Gesamtheit bilden. Da alle Einheiten berücksichtigt werden, handelt es sich um eine Vollerhebung. Das Merkmal sind die erzielten Weiten. Dieses Merkmal ist metrisch stetig. Die restliche Lösung nden Sie im abgebildeten Arbeitsblatt. Im Bereich F4:G7 sehen Sie die Funktionen von Excel für die Werte für das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung. Die Funktionen der Spalte F gelten nur im neuen Excel.
A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
i
B
C x(i) 1,81 2,35 2,73 2,93 3,23 3,49 4,26 4,44 5,37 6,9 =SUMME(C2:C11) σ2 xquer =C12/A11 =D12/A11-B14^2 3,751 2,105749
xi 1 3,23 2 2,35 3 5,37 4 3,49 5 6,9 6 2,93 7 1,81 8 4,26 9 4,44 10 2,73
D x(i)2 =C2^2 =C3^2 =C4^2 =C5^2 =C6^2 =C7^2 =C8^2 =C9^2 =C10^2 =C11^2 =SUMME(D2:D11) σ =C14^0,5 1,45112
E Q1 Q2 Q3 xquer σ2 σ s2 s
F 2,73 3,36 4,44 =MITTELWERT(B2:B11) =VAR.P(B2:B11) =STABW.N(B2:B11) =VAR.S(B2:B11) =STABW.S(B2:B11)
s2 s =C14*10/9 =E14^0,5 2,339721 1,529615
G =C4 =0,5*(C6+C7) =C9 =VARIANZEN(B2:B11) =STABWN(B2:B11) =VARIANZ(B2:B11) =STABW(B2:B11)
v =D14/B14 0,386862
Abbildung 4.1: Maÿzahlen der Aufgabe
Aufgabe 2.
Der Notenspiegel einer Klausur ist wie folgt: 6-mal sehr gut, je 5-mal gut
und befriedigend, 3-mal ausreichend und einmal mangelhaft. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen dann die Stabverteilung sowie die empirische Verteilungsfunktion. Geben Sie abschlieÿend den Modus, das untere Quartil, den Median und das obere Quartil sowie das 95 % Quantil an. Warum ist es hier nicht sinnvoll
46
4.3 Zu Kapitel 3 Mittelwert und Varianz zu berechnen? Die statistischen Einheiten sind die Teilnehmer, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Vollerhebung. Das untersuchte Merkmal ist die Note des Teilnehmers, die möglichen Ausprägungen sind sehr gut, gut usw. Das Merkmal ist ordinal, folglich sollten Mittelwert und Varianz nicht berechnet werden, was aber gerade bei Noten fast immer doch gemacht wird. Die Häugkeitstabelle und die beiden Diagramme sind abgebildet. Ich habe die Noten wie in der Schule üblich durch die Zahlen 1 bis 5 codiert.
1 2 3 4 5 6 7 8 9 10
A i 1 2 3 4 5
B ai
C D ni Ni 1 2 3 4 5
6 5 5 3 1 Modus 1 Q1 1 Q2 2 Q3 3
6 11 16 19 20
E fi
F Fi
0,3 0,25 0,25 0,15 0,05
G
0,3 0,55 0,8 0,95 1
x0,95 4 und 5
H
I
0,35
1,2
0,3
1
0,25
J
0,8
0,2 0,6
0,15 0,1
0,4
0,05
0,2
0
0 0 1 2 3 4 5 6
0
1
2
3
4
5
6
Abbildung 4.2: Häugkeitstabelle, Diagramme und Maÿzahlen der Verteilung.
Modus: Für den Modus wird der Index
i=1
ist das der Index
a1 = sehr
mit
ni = 6.
i
ni
mit dem gröÿten Wert von
Die zugehörige Ausprägung
ai
gesucht, hier
ist der Modus, also
gut.
Unteres Quartil: Zum ersten Mal wird für den Index
i = 1 Fi > 0, 25 > Fi−1 ,
also ist
a1
(sehr gut) das untere Quartil. Median: Zum ersten Mal wird für den Index
i = 2 Fi > 0, 5 > Fi−1 ,
also ist
a2
(gut) der
Median. Oberes Quartil: Zum ersten Mal wird für den Index
i = 3 Fi > 0, 75 > Fi−1 ,
also ist
a3
(befriedigend) das obere Quartil. Das Quantil
x0,95
ist nicht eindeutig, da für den Index
gilt, somit ergeben sich sowohl die Werte
a4
i=4
die Gleichung
(ausreichend) als auch
a5
Fi = 0, 95
(mangelhaft).
Eine Mittelung zwischen a4 und a5 ist hier nicht statthaft, da das betrachtete Merkmal ordinal ist. Aufgabe 3.
Ein Gastwirt zählt die Anzahl
X
der Gäste an seinen Tischen und kommt
auf folgende Werte: 3
6
5
8
6
4
4
4
3
6.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Ordnen Sie die Urliste und bestimmen Sie damit den Modus, das untere Quartil, den Median, das obere Quartil und die Quantile
x0,2
sowie
x0,9 .
Be-
rechnen Sie das arithmetische Mittel, die Varianz und die Standardabweichung sowie
47
4 Ausgewählte Lösungen die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Stellen Sie die Daten als Häugkeitstabelle dar.
Berechnen Sie damit die drei Quartile erneut. Zeichnen Sie abschlieÿend das Stabdiagramm für die relativen Häugkeiten und die Verteilungsfunktion. Die statistischen Einheiten sind die Tische, die zusammen die Gesamtheit bilden. Da alle Tische berücksichtigt werden, handelt es sich um eine Vollerhebung. Das Merkmal sind die Anzahl der Gäste am Tisch. Dieses Merkmal ist metrisch diskret. Die Häugkeitstabelle und die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion sind abgebildet.
A B C D E F G 1 xi x(i) i ai ni Ni 2 3 3 1 3 2 2 3 6 3 2 4 3 5 4 5 4 3 5 1 6 5 8 4 4 6 3 9 6 6 4 5 8 1 10 7 4 5 8 4 6 9 4 6 10 3 6 2 11 6 8 0
H fi
I
J
K
Fi
0,2 0,3 0,1 0,3 0,1
L
N
O
P
fi
0,2 0,5 0,6 0,9 1
0,2 0,1 ai
0
Q
2 3 4 5 6 7 8
4
4
0 0,3
4 5 0,5 0,5
R
S
T
U V W
Fi
1 0,8 0,6 0,4 0,2 0
0,3
3 3 0 0,2 3 4 0,2 0,2
3 0
M
ai
3 4 5 6 8
X
0,2 0,5 0,6 0,9 1
2 3 4 5 6 7 8
5 5 0 0,2 5 6 0,6 0,6
6 6 0 0,2
8
6 8 0,9 0,9
8 1
8
0 0,1
9 1
Abbildung 4.3: Häugkeitstabelle und Diagramme
Modus: Für den Modus wird der Index gilt für
i=2
und
i=4
mit
ni = 3 .
i
ni gesucht, hier a2 = 4 und a4 = 6
mit dem gröÿten Wert von
Die zugehörigen Ausprägungen
sind Modi. Unteres Quartil: Zum ersten Mal wird für den Index
a2 = 4
i = 2 Fi > 0, 25 > Fi−1
i = 3 Fi > 0, 5 aber Fi−1 = 0, 5, somit Q2 = 4, 5. den Index i = 4 Fi > 0, 75 > Fi−1 , also
Median: Zum ersten Mal wird für den Index der Mittelwert von
a3
und
a2
ist
der Median, also
Oberes Quartil: Zum ersten Mal wird für
a4 = 6
, also ist
das untere Quartil.
ist
das obere Quartil.
Wie beim Median begründet sind
x0,2 = 3, 5
und
x0,9 = 7.
Für die restlichen Maÿzahlen gelten
x¯ = (3 · 2 + 4 · 3 + 5 · 1 + 6 · 3 + 8 · 1)/10 = 4, 9 σ 2 = (32 · 2 + 42 · 3 + 52 · 1 + 62 · 3 + 82 · 1)/10 − 4, 92 = 2, 29 s2 = (10/9) · σ 2 = 2, 5¯4 √ σ = σ 2 = 1, 51327460 √ s = s2 = 1, 59513148 v = σ/¯ x = 0, 30883155 Aufgabe 4. 12.
48
Erstellen Sie den einfachen Boxplot zu den Daten des Beispiels 2.1 auf Seite
4.3 Zu Kapitel 3 Q1 , Q2 und Q3 noch der Hier sind Q0 = 5, Q1 = 6,
Für einen einfachen Boxplot werden neben den drei Quartilen
Q0 und der gröÿte Q4 Wert der Daten benötigt. Q2 = 7, Q3 = 8 und Q4 = 10, das ergibt den folgenden Boxplot:
kleinste
Einfacher Boxplot: Studiendauer in Semester
4
5
6
7
8
9
10
11
Abbildung 4.4: Boxplot zu den Daten des Beispiels 2.1
Aufgabe 5.
In einem Projekt zur Betriebsinformatik wurden die Studierenden unter
anderem nach dem Alter ihres Vaters gefragt. Hier ist die geordnete Stichprobe: 44 46 49 50 50 51 51 51 51 51 52 52 53 53 53 54 55 56 57 58 60 Man erstelle beide Varianten des Boxplots. Die Daten stammen von Heindl, Seite 117.
n = 21 bereits geordnete Daten. Somit sind Q0 = 44, Q1 = x6 = 51, Q2 = x11 = 52, Q3 = x16 = 54 und Q4 = x21 = 60. Der einfache Boxplot sieht daher wie folgt aus Es sind
Einfacher Boxplot: Alter von Vätern
42
44
46
48
50
52
54
56
58
60
62
Abbildung 4.5: Einfacher Boxplot
IQR = Q3 −Q1 = 54−51 = 3, das 1,5-fache davon beträgt Q1 − 4, 5 = 46, 5, also Z0 = 49. Der obere Zaun ist die gröÿte Beobachtung unterhalb von Q3 + 4, 5 = 58, 5, also Z4 = 58. Ausreiÿer nach unten sind alle Werte unterhalb von Z0 , also 46 und 44. Ausreiÿer nach oben sind alle Werte oberhalb von Z4 , also nur 60. Der zweite Boxplot Der Interquartilsabstand ist
4,5. Der untere Zaun ist die kleinste Beobachtung oberhalb von
sieht daher wie folgt aus
Variante des Boxplots: Alter von Vätern
42
44
46
48
50
52
54
56
58
60
62
Abbildung 4.6: Variante des Boxplots
49
4 Ausgewählte Lösungen Aufgabe 6.
In der folgenden Urliste ist das Lebensalter
X
von Studenten eines Kurses
aufgeführt. 19, 21, 26, 20, 22, 19, 20, 19, 23, 21, 52, 22, 19, 21, 20, 23, 22, 21, 21, 20, 20 Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Erstellen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion. Berechnen Sie mit Hilfe der Häugkeitstabelle den Modus, das untere Quartil, den Median, das obere Quartil, die Quantile
x0,4
sowie
x0,9 ,
das arithmetische Mittel, die Varianz und
die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Der Wert 52 ist
ein Zahlendreher und wäre korrekt 25. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die Standardabweichung? Ein anderer Auswerter dieser Daten unterdrückt den Ausreiÿer von 52 ganz, geht also nur noch von 20 statt 21 Werten aus. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die Standardabweichung? Die statistischen Einheiten sind die Studenten des Kurses, die zusammen die Gesamtheit bilden. Da alle Teilnehmer berücksichtigt werden, handelt es sich um eine Vollerhebung. Das Merkmal ist Alter der Teilnehmer. Dieses Merkmal ist metrisch diskret. Bis auf die beiden letzten Fragen sind alle weiteren Lösungen im folgenden Arbeitsblatt versammelt.
i
ai ni Ni 1 2 3 4 5 6 7
19 20 21 22 23 26 52
4 5 5 3 2 1 1
4 9 14 17 19 20 21
fi
Fi
0,190476 0,238095 0,238095 0,142857 0,095238 0,047619 0,047619
0,190476 0,428571 0,666667 0,809524 0,904762 0,952381 1,000000
Modus 20 und 21 xquer 2 Q1 20 σ 21 22 19 23
Q2 Q3 x0,1 x0,9
22,4285714 46,4353741 6,8143506 48,7571429 6,98263151 0,30382455
σ s2 s v
1 0,8 0,6 0,4 0,2 0
0,2 0,1 0 10
20
30
40
50
10
20
30
40
50
Abbildung 4.7: Häugkeitstabelle, Diagramme und Maÿzahlen.
50
Index arithmetisches Mittel, 29
kardinal, 5
Ausprägung, 12
kategoriell, 5
Ausreiÿer, 23, 28
metrisch, 5
Balkendiagramm, 14 Bestandsmasse, 4 Bewegungsmasse, 4 Boxplot, 27 Datenmatrix, 8
Nominal, 5 Ordinal, 5 polytom, 5 qualitatativ, 6 quantitativ, 6 Merkmalsausprägung, 4 Merkmalsträger, 4, 5
empirische Verteilungsfunktion, 15
Mittelwert, 29
Ereignismasse, 4
Modalwert, 21 Modus, 21
Fragebogen, 7 geschlossene Fragen, 8 oene Fragen, 8
Nominalskala, 7 Ordinalskala, 7
Grundgesamtheit, 2, 4 Gruppierte Daten, 13
Quantil, 23 Quartil
Häugkeit absolute, 13
oberes, 24 unteres, 24
relative, 13 Häugkeitsliste, 13
Säulendiagramm, 14, 18
Häugkeitstabelle, 14
Schiefemaÿe, 21 Skalenniveau, 6
Interquartilsabstand, 26
Spannweite, 27
Intervallskala, 7
Stabdiagramme, 14
Kreisdiagramm, 18 Lagemaÿe, 21 Median, 22
Standardabweichung, 33 empirische, 33 Statistik, 1 beschreibende, 2 schlieÿende, 2
Mehrfachfrage, 8
Statistische Einheit, 4
Merkmal, 4
Stichprobe, 2
dichotom, 5
Stichprobenvarianz, 32
51
Index Streuungsmaÿe, 21 Treppenfunktion, 16 Urliste, 11 Varianz, 31 empirische, 32 Variationskoezient, 33 Verschiebungssatz von Steiner, 31 Vollerhebung, 2 Wahrscheinlichkeitstheorie, 2
52