Elementare Stochastik Freizeit

Freizeit

Boxplot

Streudiagramm

120

männlich

100 80 60

weiblich

40 20

0

5

10

15

20 25 30 Zeit_Comp

35

40

45

0 1,50

1,60

Geschlecht männlich

1,70

1,80 Groesse weiblich

Prof. Dr. Rolf Biehler Vorlesung im WS 2006/07 Fachbereich Mathematik/Informatik Universität Kassel

1,90

2,00

1 Grundbegriffe und Überblick

1

1 Einführung 1.1 Grundbegriffe und Überblick Die Ausführungen werden am Datensatz muffins.ftm erläutert. Untersucht wurden Freizeitverhalten und Mediennutzung von Jugendlichen. Die Befragung wurde mit 540 Schüler/innen der Jahrgangsstufe 11 1999/2000 in NRW durchgeführt. Grundbegriffe Beispiel

Statistischer Begriff

Repräsentation in FATHOM

Menge der befragten Schüler/innen

Kollektion; Ω ; Menge der Untersuchungseinheiten oder Beobachtungseinheiten Beobachtungseinheit; Untersuchungseinheit; Merkmalträger ω ∈Ω Merkmal; statistische Variable X 1 ; X 2 ; G ,…

Kollektion von Fällen

Einzelne(r), Schüler/in Körpergröße, Geschlecht, Interesse an Talkshows,... Körpergröße einer/eines Schülerin/Schülers (Schüler-Nr. j)

Merkmalsausprägung Wert der statistischen Variablen bei der Untersuchungseinheit j „Körpergröße“ X bei einer Untersuchungseinheit ω j

„Kugel“ (mit Karteikarte) in der Schachtel (Kollektion; Fall) Zeile in der Datentabelle Merkmale Tabellenspalte in der Datentabelle oder Zeile im „Info-Fenster“ zu einem case Datentabelle:

X (ω j ) Wertebereich der Variablen X Menge der möglichen Merkmalsausprägungen WX z. B.: Körpergröße WX = Ñ Wˆ Menge der tatsächlich

männlich, weiblich 1,73; 1,84; ...

ermittelt werden 1

Beispiel: Geschlecht

vorhandenen Merkmalsausprägungen WX = {maennlich, weiblich} „kategoriale Variable“ WX ist endlich

Beispiel: Körpergröße

WX ⊂ Ñ „quantitative Variable”; „numerische Variable”

Dezimalzahlen (genauer: solche, die Fathom kennt)

Gesamtheit der möglichen Werte der Körpergröße, des Geschlechtes

X

1

Werte von Variablen, Zahlen oder „Kategorien“

Zahlen oder „Zeichenketten“ (Strings)

WX : keine Repräsentation Wˆ : kann mit FATHOM-Kommandos X

Die Kategorien werden als Zeichenketten repräsentiert.

a) Man ziehe die betreffende kategoriale Variable in ein „Auswertungstabelle“, so erhält man automatisch eine Liste mit den vorkommenden Werten, dann sofort die Häufigkeit, mit der sie auftreten [Soreendump] b) Dasselbe erreicht man, wenn man eine quantitative Variable mit shift-Taste in eine leere „Auswertungstabelle“ zieht.

Elementare Stochastik

Rolf Biehler

WS 2006/2007

2

Anzahl der Schüler/innen

Umfang der Kollektion

Anzahl der Zeilen

Bemerkungen zu kategorialen Variablen:

1. Bei kategorialen Variablen nennt man die Elemente aus WX , Wˆ X „Kategorien“. 2. Es gibt kategoriale Variablen, bei denen die Reihenfolge der Kategorien bedeutsam ist, z. B. die Variable Wochentag: Montag, Dienstag, ..., Sonntag (in dieser Reihenfolge) oder die Variable „Monat“ mit den Ausprägungen Januar, Februar, ... An kategorialen Variablen gibt es 2 Typen – nominal (Namen; Reihenfolge unwichtig) – ordinal (Reihenfolge bedeutend) 3. Die Reihenfolge der Kategorien spielt in FATHOM bei manchen Darstellungen eine Rolle. Kategorien werden automatisch lexikographisch sortiert. Will man die inhaltlich festgelegte Reihenfolge in FATHOM repräsentieren, so kann man die Ausprägungen so umbenennen, dass die lexikographische Reihenfolge der inhaltlichen entspricht. Beispiel: a_Montag, b_Dienstag, ..., g_Sonntag

Eine Alternative dazu ist es den Ausprägungen einer kategorialen Variable eine Reihenfolge zuzuordnen über sogenannte Kategorienliste. In der Graphik findet sich die Kategorienliste „Häufigkeitsstufen“, die aus 6 naheliegend geordneten Ausprägungen besteht. Ordnet man einer kategorialen Variable eine solche Liste zu, so kann man die lexikographische Anordnung überschreiben.

Die Tabelle zeigt das Ergebnis von 2 Stufen: Messen (Erheben) T Kodieren in Software. Merkmalsausprägung

Erheben

Kodieren

Messen Realität

Softwaretabelle

Qualitätsmerkmale von Messverfahren

1. Bei wiederholter Messung kommt immer wieder derselbe Wert heraus Reliabilität 2. Es wird das gemessen, was man intendiert Validität Elementare Stochastik

Rolf Biehler

WS 2006/2007

1 Grundbegriffe und Überblick

3

1.2 Merkmalsausprägungen in Fathom Kategoriale Merkmale

Freizeit

Man kann sich in Fathom auf einfache Weise anzeigen lassen, welche MerkmalsausprägunAbsprache 274 gen vorkommen, indem man die Variable in ja 124 WährendZuhause eine Auswertungstabelle zieht (bei numerischen Variablen muss man unbedingt die nein 135 Shift-Taste drücken). Es wird dann gleichzeiSpaltenzusammenfassung 533 tig die Häufigkeit mitgeliefert, mir der die einzelnen Ausprägungen auftreten. Die VariS1 = Anzahl ( ) able WochenendeZuhause hat die Ausprägungen Absprache, ja, nein, genauso wie die Variable WährendZuhause. Um zu verstehen, was damit gemeint ist, muss man auf den Fragebogen zurückgehen. Die Kodierung erfolgte z.B. folgendermaßen: ja

Feste Zeit

nein

Keine Zeit vorgeschrieben

Absprache

Indiv. Absprache

Die u.U. vorgeschriebene Zeit wird in einer anderen Variable kodiert. Inhaltlich entspricht die Häufigkeitsverteilung qualitativ unseren Erwartungen: Am Wochenende werden feste Zeiten eher selten, es dominiert die Gruppe, der keine Zeiten vorgeschrieben sind. Bei der obigen Tabelle wurden die Ausprägungen alphabetisch angeordnet (zuerst: Absprache). Die Reihenfolge ist eigentlich beliebig. Vielleicht könnte man die Reihenfolge ja < Absprache < nein wählen, wenn man die Ausprägungen nach wachsender Freiheit der Schüler/innen ordnen wollte. Bei anderen Fragen, wie nach dem Interesse ist eine „natürliche“ Reihenfolge der Kategorien gegeben. Wir betrachten Freizeitaktivitäten, z.B. kommen beim aktiven Sporttreiben folgende Kategorien vor. Da wir unserem Merkmal FZt_Sp_akt die Kategorienliste „Häufigkeitsstufen“ zugeordnet haben, werden die Ausprägungen in der richtigen Reihenfolge dargestellt. Freizeit FZt_Sp_akt nie seltener 14

47

1-2x/Monat 44

1x/Woche 2-3x/Woche 133

186

Zeilenzusammenfassung täglich 113

537

S1 = Anzahl ( )

Beim Theater kommt die Ausprägung „täglich“ gar nicht vor und wird mit der Anzahl 0 angezeigt, da wir auch die Kategorienliste „Häufigkeitsstufen“ zugeordnet haben.

Elementare Stochastik

Rolf Biehler

WS 2006/2007

4

Freizeit FZt_Theater nie

seltener

176

1-2x/Monat

309

Zeilentäglich zusammenfassung

1x/Woche 2-3x/Woche

43

5

1

0

534

S1 = Anzahl ( )

Hätte man keine Kategorienliste zugeordnet, ergäbe sich folgende Tabelle, in der erstens nicht vorkommende Ausprägungen gar nicht aufgeführt werden und zweitens die Reihenfolge der Ausprägungen lexikographisch sortiert wurden. Beides kann zu Fehlinterpretationen führen. Freizeit FZt_Theater 1-2x/Monat

1x/Woche 2-3x/Woche

43

5

Zeilenseltener zusammenfassung

nie

1

176

309

534

S1 = Anzahl ( )

Die Häufigkeitsverteilungen sprechen für sich. Numerische Merkmale (als kategoriale Merkmale)

Bei numerischen Variablen kann man ähnlich vorgehen. Wenn man die Shift-Taste gedrückt hält, so werden sie als kategoriale Variable interpretiert, mit z.B. folgendem Ergebnis: Freizeit Alter 16

17

Zeilen18 19 20 zusammenfassung

148

325

43

5

1

522

S1 = Anzahl ( )

.

Bei numerischen Variablen mit vielen verschiedenen Werten kann die Sache unübersichtlich werden. Wir betrachten die wöchentliche Zeit in Stunden, die zum Spielen eines Musikinstruments verwendet wird. Freizeit Zeit_Instr 0

0,25 0,5

1

1,25 1,5

2

328

1

36

1

41

8

3

2,5 5

3 30

3,5 1

4 18

4,5 3

5

6

7

8

Zeilen9 10 12 14 15 16 18 20 zusammenfassung

11

5

11

7

4

9

1

3

2

1

1

1

531

S1 = Anzahl ( )

Dass täglich mindestens eine halbe Stunde gespielt wird ist also eher seltener! Fehlende Werte

Man beachte: Die Anzahl der Personen, die die Fragen beantwortet haben schwankt von Merkmal zu Merkmal. Beispielsweise haben nur 522 Personen ihr Alter angeben, aber 531 haben sich zum Instrumentspielen geäußert. Das liegt daran, dass manchmal einfach keine Angaben gemacht wurden, man spricht dann von „fehlenden Werten“.

Elementare Stochastik

Rolf Biehler

WS 2006/2007

1 Grundbegriffe und Überblick

5

1.3 Mathematische Formalisierungen: Merkmale als Zuordnungen Die Menge Ω = {ω1 , ω2 ,… , ωn } bezeichnet man als Kollektion. Ω = n bezeichnet den Umfang der Kollektion2. Statistische Variable X 1 , X 2 ,… X n haben Wertebereiche WX i

endlich: kategoriale Variable ⊂ Ñ : quantitative (oder numerische) Variable

Statistische Variable kann man formal als Abbildungen auffassen: X : Ω → WX , die jeder Beobachtungseinheit ωi die Ausprägung der Variable X (ωi ) zuordnen. X (ωi ) ist der Wert der Abbildung X an der Stelle ωi . Hierfür führen wir die Bezeichnung X (ωi ) = xi ein.

Merkmalsausprägung der Variablen X ω1

X (ω1 ) = x1

ω2

X (ω2 ) = x2

ω3

X (ω3 ) = x3

ω4

X (ω4 ) = x4

Bemerkung zu WX : Die Festlegung ist zum Teil willkürlich, aber mindestens müssen die vorkommenden Werte enthalten sein.

Wir haben gesehen, dass für Variable X manchmal nicht zu allen Beobachtungseinheiten auch Angaben vorliegen. Wir bezeichnen Ω X = {ω∈ Ω | X (ω) liegt vor.} Mit nX = Ω X wird die Anzahl der Beobachtungseinheiten

angegeben, für die kein fehlender Wert bei der Variablen X vorliegt.

1.4 Teilmengen von Kollektionen, Filter Man kann rein gedanklich Teilmengen der Menge aller Schüler/innen in unserem Datensatz bilden, allgemeiner Teilmengen der Menge Ω , z. B. alle Schüler/innen, deren Körpergröße größer als 1,70 m ist oder alle Schüler/innen, die weiblich sind und mehr als 5 Std. wöchentlich Hausaufgaben machen. Diese verbale Beschreibung kann man in Mengenschreibweise formulieren: M 1 := {ω∈ Ω | Die Körpergröße von ω ist > 1, 70 m} M 2 : {ω∈ Ω | Geschlecht von ω ist weiblich und Zeit für Hausaufgaben von ω ist > 5 Std} 2

Im Formeleditor von FATHOM wird n mit dem Befehl Anzahl (Index) ermittelt.

Elementare Stochastik

Rolf Biehler

WS 2006/2007

6

Wenn wir statistische Variablen X 1 , X 2 als Abbildungen auffassen, z. B. X 1 : Ω → Ñ be-

zeichne die Körpergröße in m, X 2 : Ω → {männlich, weiblich} das Geschlecht und

X 3 : Ω → Ñ die wöchentliche Zeit für Hausaufgaben in Stunden, so kann man in der Abbildungsnotation schreiben: M 1 = {ω∈ Ω | X 1 (ω) > 1, 70} M 1 = {ω∈ Ω | X 2 (ω) = weiblich und X 3 (ω) > 5} Ω

Ω

Anschaulich handelt es sich um Urbildmengen: Wir betrachten

W X1 = Ñ

2

B ⊂ WX1 und zwar

1,9

ω1

B

1,8

ω2 ω3

B = { x ∈ Ñ | x > 1, 7}

1,7

Dann ist das Urbild von B unter X 1 :

1,6

X 1−1 ( B) = {ω∈ Ω X (ω) ∈ B} =

1,5

{ω∈ Ω X (ω) < 1, 7} = M

ω4

1

ω5

1

Wir arbeiten mit verschiedenen Darstellungen: M = {ω∈ Ω | X 1 (ω) > 1, 7} = {ω∈ Ω | X 1 > 1, 7} = { X 1 > 1, 7} Die letztgenannte Darstellung wird verwendet, wenn aus dem Kontext klar ist, was Ω ist. Ein der Statistik ist es interessant, die Größe von bestimmten Teilmengen, z. B. wie viele Schüler ein eigenes TV-Gerät besitzen und weniger als 2 Stunden wöchentlich fernsehen, auszuzählen. Dies sind typische Fragen, die man an Datenbanken stellen kann. Elementare Stochastik

Rolf Biehler

WS 2006/2007

1 Grundbegriffe und Überblick

7

1.5 FATHOM als Datenbank. Wie man eine Teilmenge herausfiltert. Computerrepräsentierte Datenbanken erlauben die Suche nach Kriterien und das Zählen der Anzahl der gefundenen Objekte. Das ist z.B. bei Suchmaschinen im Internet der Fall. Ist eine Kollektion in FATHOM repräsentiert, kann man über das Kommando Filter hinzufügen Teilmengen auswählen. Bei der Eingabe von Auswahl- bzw. Suchbedingungen muss man sich an das von FATHOM vorgeschriebene Format halten. Beispielsweise ist die Aussage Groesse > 1,7

in der die Variable Groesse vorkommt für jede Schüler/in entweder wahr oder falsch. Mit einem Filter Groesse > 1,7 filtert man genau diejenigen heraus, für die diese Aussage wahr ist (genauer diejenigen ω ∈ Ω bei denen die Aussage Groesse (ω) > 1,7 wahr ist. Bilden von Teilmengen in Fathom (Filtern)

Zum Setzen von Filtern in Fathom gibt es mehrere Möglichkeiten. Das Filter kann sich auf die ganze Kollektion beziehen oder nur auf einzelne Graphiken oder Tabellen. Beim Filter auf Kollektionen klickt man auf die Kollektion, um sie zu aktivieren, anschließend öffnet man mit dem Kommando Filter hinzufügen (Kontextmenü rechte Maustaste) den Formeleditor und gibt die Filterbedingung ein. Alle gefilterten Fälle, die das Kriterium nicht erfüllen, erscheinen nun grau. Freizeit A Ailton

AB XY

Abby

Alaina Macbaren Albert Einstein

Adidas-gilry Alice

Amicusamo

Amy

Andreas Franke Andreas Moelle

Angelique

Anigone

Anitola

Anja

Anna Lisa

Anna1

Anna2

Anna3

Anne Fritz

Annette

Annie

APU

Geschlecht = "maennlich"

Das Filtern auf einer Kollektion bewirkt, dass in anderen Darstellungen (Datentabelle, Graphiken, Auswertungstabellen) nur noch die Objekte genommen werden, die beim Filtern übrig geblieben sind. Des Weiteren kann man auch einen Filter auf die Datentabelle und auf Graphiken setzen. Man aktiviert dafür die Datentabelle (die Graphik) und verfährt, wie bei der Kollektion beschrieben.

Elementare Stochastik

Rolf Biehler

WS 2006/2007

8

Freizeit ID

Erfassungsdatum

Name

Name_

Schule

Jahrgangsstufe

Geschl...

Alter

Groesse

Gewicht

= 1

2000_04

Digger

Digger

108

11 maennlich

19

1,78

59

2

2000_04

Djane

Djane

102

11 weiblich

19

1,75

65

3

2000_04

Dr. Helm... Dr. Helm...

104

11 maennlich

19

1,87

85

4

2000_04

Ismail

Ismail

109

11 maennlich

19

1,9

82

5

2000_04

Jiggs

Jiggs

6

2000_04

Muemonic Muemonic

104

11 maennlich

19

1,83

73,5

108

11 maennlich

20

1,83

67

Alter > 18

Nun erscheinen hier nur noch die Fälle, die die Bedingung erfüllen, dass Alter > 18, das sind hier genau 6 Schüler/innen. TIPP zum Filter auf eine Kollektion bzw. Datentabelle: Filter auf Kollektion: Auswirkungen auf alle vorhandenen und später erstellten Graphiken und Auswertungstabellen Filter auf Graphiken, Datentabellen, Auswertungstabellen: Wirkung nur auf die das betreffende Objekt. Vorsicht: Auch Filter auf eine Datentabelle haben keine weiteren Auswirkungen. Die formale Sprache für die Festlegung von Filtern

Die Eingabe in Fathom folgt analog zur Mengensprache. Man muss aber ein paar Kleinigkeiten beachten. Mengensprache (z.B.)

Fathom-Filter

M 1 := {ω ∈ Ω | Geschlecht(ω ) = weiblich}

Geschlecht = “weiblich“

M 2 := {ω ∈ Ω | SoAufst(ω ) > 12}

SoAufst > 12

M 3 := {ω ∈ Ω | Sportverein(ω ) = "ja"}

Sportverein = “ja“



Man muss Ausprägungen von kategorialen Variablen immer in “ “ setzen.



Es kommt in Fathom auf perfekte Bezeichnungen der Variablen an. In der Mengensprache kann man auch andere sinngemäß äquivalente Formulierungen nehmen, z.B. M 1 := {ω ∈ Ω | Geschlecht von ω ist : Frau}

Kategoriale Variable

Häufig kommen Eingaben des Typs Geschlecht = „weiblich“ [Variablenname = „Kategorienname“] oder Geschlecht ≠ „weiblich“ vor.3 Quantitative Variable

3

Hinweis für Experten: Auch für Texte sind die Zeichen < und > definiert. Sie bedeuten die Reihenfolge in der lexikographischen Anordnung, d.h. das Filter FZ-Kino < „d_1xWoche“ filtert alle Fälle heraus, die lexikographisch kleinere Kategorien besitzen, d.h. a_nie, b_seltener, c_1-2xMonat heraus. Elementare Stochastik

Rolf Biehler

WS 2006/2007

1 Grundbegriffe und Überblick

9

Beispiel: SoAufst > 12

Variablenname ◊ Zahl. Dabei können für ◊ folgende Vergleichzeichen gewählt werden: ≠ > < ≥ ≤ Verknüpfungen von Bedingungen

Es bezeichnet M 1 ∩ M 2 ∩ M 3 , die Menge derjenigen Schüler, die in allen M 1 , M 2 , M 3 enthalten sind. Dem entsprechen logische Verknüpfungen von Aussageformen Mengensprache (z.B.)

Fathom – Filter 4

⎧ω ∈ Ω | Geschlecht(ω ) = weiblich ⎫ M 4 := ⎨ ⎬ = M1 ∩ M 2 ⎩und SoAufst(ω ) > 12 ⎭

(Geschlecht = “weiblich“) UND (SoAufst > 12)

⎧ω ∈ Ω | SoAufst(ω ) > 12 ⎫ M 5 := ⎨ ⎬ = M2 ∪ M3 ⎩oder Sportverein(ω ) = ja ⎭

(SoAufst > 12) ODER (Sportverein = “ja“)

Bedingungen kann man mit UND oder ODER verknüpfen Mengen

UND

ODER





Durchschnitt

Vereinigung

Man beachte: Frühaufsteher und Spätaufsteher zusammen muss als (SoAufst > 12) ODER (SoAufst < 9) dargestellt werden. Es können nicht beide Bedingungen für eine Person zutreffen, das umgangssprachliche „und“ muss hier in das mathematische ODER übersetzt werden. Die Menge der Frühaufsteher und die der Spätaufsteher wird vereinigt.

1.6 Männlich? Weiblich? Oder was? Negation einer Bedingung und „fehlende Werte“ Es ist Ω = {ω ∈ Ω | Geschlecht = "weiblich"} ∪ {ω ∈ Ω | Geschlecht = "maennlich"} . In der Mathematik (und in der Regel im täglichen Leben) gilt die sogenannte 2-wertige Logik: Entweder jemand ist weiblich oder männlich, das heißt die Negation der Aussage „Geschlecht = „weiblich“ ist die Aussage „Geschlecht = männlich“. Eine vorgegebene Menge Ω zerlegen wir vollständig und disjunkt in die weiblichen und die männlichen Personen. In allen realen Untersuchungen gibt es aber fehlende Werte, d.h. es gilt folgende Beziehung Ω = Ω X ∪ {ω ∈ Ω X (ω ) ist fehlend} =

{ω ∈ Ω X (ω ) ist weiblich} ∪ {ω ∈ Ω X (ω ) ist männlich} ∪ {ω ∈ Ω X (ω ) ist fehlend}. Wir heben noch mal hervor:

4

Beim Eingeben zusammengesetzter Bedingungen im Formeleditor ist Folgendes zu beachten: 〈Klammernsetzung, UND aus dem Formeleditor〉 Elementare Stochastik

Rolf Biehler

WS 2006/2007

10

Definition 1.1: Sei X eine statistische Variable, dann nennt man Ω X := {ω ∈ Ω | X (ω )besitzt einen Wert} die Menge der ω , für die für X ein Wert vor-

liegt. nX = Ω X ist die Anzahl von Untersuchungseinheiten, die Werte für X angegeben haben. Wir betrachten als Beispiel die Variable Sportverein. Wir erhalten folgende Auswertung. 320 sind in einem Sportverein, 215 nicht, 3 haben dazu keine Angaben gemacht, denn insgesamt sind 538 Leute befragt worden. Die logische Negation der Aussage Sportverein=“ja“ lässt sich auch als Sportverein=“nein“ oder die Person hat keine Angabe zum Sportverein gemacht ausdrücken.

Freizeit

Sportverein

ja

320

nein 215 Spaltenzusammenfassung 535

S1 = Anzahl ( )

In Fathom gibt es die Möglichkeit Bedingungen für Filter zu negieren, in dem man NICHT eingibt, was mit dem logischen " ¬ " -Zeichen dargestellt wird. Was passiert, wenn man in Fathom die Bedingung NICHT (Sportverein=“ja“) eingibt? Es werden dann alle ausgegeben, die Sportverein = „nein“ angegeben haben. Das Negationszeichen hat also in Fathom eine etwas andere Bedeutung als in der Aussagenlogik: Es werden auch immer die fehlenden Werte mit herausgefiltert. Die Teilmengen, die fehlende Werte bezüglich einer Variablen enthalten, kann man auch herausfiltern: Mengensprache

Fathom-Filter

Ω X = {ω ∈ Ω | ω macht Angabe zu Sportverein}

existiert(Sportverein) = wahr

Ω \ Ω X = {ω ∈ Ω | ω macht keine Angabe zu Sportverein} existiert(Sportverein) = falsch

⎛ {ω ∈ Ω | Sportverein(ω ) = ja} ⎞ M 6 := Ω \ ⎜ ⎟ ⎜ ∪ {ω ∈ Ω | keine Angabe zu Sportverein} ⎟ ⎝ ⎠ = {ω ∈ Ω | Sportverein(ω ) = nein}

¬ (Sportverein = “ja“)

M 7 := Ω \ {ω ∈ Ω | Sportverein(ω ) = ja}

(¬ (Sportverein = “ja“)) ODER (existiert(Sportverein) = falsch)

= {ω ∈ Ω | Sportverein(ω ) = nein} ∪ {ω ∈ Ω | keine Angabe zu Sportverein}

alternativ: (Sportverein = “nein“) ODER (existiert(Sportverein) = falsch)

Wir wollen das allgemein ausdrücken. Es sei eine Teilmenge M durch eine Bedingung an eine Variable X (ω ) gegeben, dann gilt mit dem Negationszeichen ¬ in Fathom:

Elementare Stochastik

Rolf Biehler

WS 2006/2007

1 Grundbegriffe und Überblick

11

Ω = M ∪ (Ω \ M ) =

{ω ∈ Ω Bedingung für X (ω )} ∪

{ω ∈ Ω ¬ ( Bedingung für X (ω ) ) } ∪ {ω ∈ Ω ω hat keine Angabe für X gemacht} 1.7 Auszählen von Teilmengen: Einfache Sätze über relative Häufigkeiten und Anzahlen Für die Anzahl von Elementen einer endlichen Menge M hat sich in der Mathematik das Zeichen M eingebürgert. Schon in der Grundschule hat jedermann im Prinzip folgende Aussage gelernt: Satz 1.1 (Additivität der Anzahlbestimmung): Sei M 1 , M 2 , M 3 ,… M k ein System von Teilmengen von Ω , die paarweise disjunkt sind, dann gilt M1 ∪ M 2 ∪ M 3 ∪… M k = M1 + M 2 + … M k .

Ist insbesondere M 1 ∪ M 2 ∪ M 3 ∪ … M k = Ω so gilt M 1 + M 2 + … M k = Ω Man zählt die Elemente einer Vereinigungsmenge, indem man die Größe der Einzelmengen bestimmt und sie addiert – natürlich nur wenn die Mengen keine gemeinsamen Elemente haben. Wir sind oft auch am relativen Anteil einer Teilmenge von Ω interessiert. Relative Häufigkeiten kann man als Bruch, Dezimalzahl oder in % angeben. Definition 1.2: Sei M ⊂ Ω eine Teilmenge der Kollektion Ω , dann nennt man M

die relative Häufigkeit oder relativen Anteil von M in Ω .

Ω

Wenn M die Menge der Computerbesitzer ist und Ω die Muffins-Kollektion bezeichnet, wird so der relative Anteil von Computerbesitzern unter den Befragten ermittelt. Definition 1.3: Sei B ⊂ Ω eine nicht-leere Teilmenge und M ⊂ Ω eine Teilmenge der Kollektion Ω , dann nennt man

M ∩B B

die relative Häufigkeit oder den relativen Anteil von M in B .

Ist B die Teilmenge der Frauen, so bezeichnet M ∩ B die Teilmenge weiblicher ComputerbeM ∩B sitzer und den Anteil weiblicher Computerbesitzer unter den Frauen, anders ausgeB drückt den Anteil von Computerbesitzern unter den Frauen.

Elementare Stochastik

Rolf Biehler

WS 2006/2007

12

Satz 1.2 (Additivität von relativen Häufigkeiten): Sei M 1 , M 2 , M 3 ,… M k ein System von Teilmengen von Ω , die paarweise disjunkt sind und B ⊂ Ω eine nicht-leere Teilmenge der Kollektion Ω , dann gilt

M1 ∪ M 2 ∪ M 3 ∪… M k M M M = 1 + 2 +… + k Ω Ω Ω Ω

Ist insbesondere M 1 ∪ M 2 ∪ M 3 ∪ … M k = Ω so gilt

M1 M 2 M Ω + +… + k = =1 Ω Ω Ω Ω

Dies ist anschaulich völlig klar und folgt direkt aus Satz 1.1. Man kann die relative Häufigkeit einer Vereinigungsmenge berechnen, indem man die einzelnen relativen Häufigkeiten addiert. Zerlegen die Teilmengen die Grundmenge vollständig, muss beim Aufsummieren der relativen Häufigkeiten insgesamt 1 (100%) herauskommen.

1.8 Anzahl von Teilmengen und Häufigkeiten in Fathom Die Auswertung rechts erhält man, indem man zunächst den Namen (!) einer Kollektion in eine leere Auswertungstabelle zieht. Damit ist die Verknüpfung zur Kollektion - in diesem Fall „Freizeit“- hergestellt und man kann Auswertungsformeln eingeben.5 In Fathom muss man zum Zählen das Kommando Anzahl( )verwenden. Die Struktur des Anzahl-Kommandos ist Anzahl (Bedingung). Es wird dann gewissermaßen Zeile für Zeile (Fall für Fall) die Anzahl der Fälle gezählt, bei denen die Bedingung wahr ist. Liegt ein fehlender Wert vor, so ist die Bedingung nicht erfüllt.

Freizeit 305 191 42 496 538 S1 S2 S3 S4 S5

= = = = =

Anzahl ( Groesse > 1,7 ) Anzahl ( Groesse ≤ 1,7 ) Anzahl ( existiert ( Groesse ) = falsch) Anzahl ( Groesse ) Anzahl ( Index)

Rechts haben wir die Personen gezählt, die eine Körpergröße größer als 1,70 (305 Personen), kleiner gleich 1,70 (191 Personen) und keine Körpergröße (42 Personen) angegeben haben. Diese 3 disjunkten Teilmengen bilden zusammen die Grundmenge von 538 Personen (305+191+42=538!). Die Kommando-Variante Anzahl(X), wobei X ein Merkmal ist, ist eine Sonderform oder Ankürzung des ausführlichen Komandos Anzahl(existiert (X) = wahr), mit dem die Anzahl nicht-fehlender Werte gezählt wird, das sind hier 496 Personen ( = 305 +191). In der Mengensprache kann man das so gegenüberstellen:

5

Vorsicht: Nicht einen Variablennamen in die Auswertungstabelle ziehen, dann verändert sich der Tabellentyp.

Elementare Stochastik

Rolf Biehler

WS 2006/2007

1 Grundbegriffe und Überblick

13

Menge

Fathom-Kommando

Ω

Anzahl(Index)

ΩX

Anzahl(Groesse), Anzahl(existiert (Groesse) = wahr)

{ω ∈ Ω Groesse(ω ) > 1, 7}

Anzahl(Groesse > 1,7)

{ω ∈ Ω Groesse(ω ) wurde nicht angegeben}

Anzahl (existiert(Groesse) = falsch)

Man kann in der folgenden Aufteilung unseren allgemeinen Satz 1.1. wieder erkennen:

{ω ∈ Ω | Groesse < 1, 7} ∪ {ω ∈ Ω | Groesse ≥ 1, 7} = ∪ {ω ∈ Ω | ω hat keine Körpergröße angegeben} {ω ∈ Ω | Groesse < 1, 7} + {ω ∈ Ω | Groesse ≥ 1, 7} + {ω ∈ Ω | ω hat keine Körpergröße angegeben} Ω=

Die in 1.6 hergeleiteten Beziehungen bei den fehlenden Werten kann man in der folgenden Tabelle überprüfen, wo wir die Anzahlen in den verschiedenen Teilmengen ermittelt haben. Freizeit 320 215 535 215 538 S1 S2 S3 S4 S5

= = = = =

Anzahl ( Sportverein = "ja" ) Anzahl ( Sportverein = "nein" ) Anzahl ( existiert ( Sportverein) ) Anzahl ( ¬ ( Sportverein = "ja" ) ) Anzahl ( )

1.9 Einfache relative Häufigkeiten in Fathom Relative Häufigkeiten bestimmt man mit einer Auswertungstabelle, die mit der Kollektion verknüpft ist, indem man den Umfang einer Teilmenge durch den Umfang der Grundmenge dividiert. Relative Häufigkeiten im Sinne von Definition 1.2 kann man mithilfe des Anzahlkommandos ausdrücken. Wir wählen ein Beispiel, in dem wir die Grundmenge in 3 Teilmengen disjunkt zerlegen können.

Elementare Stochastik

Rolf Biehler

WS 2006/2007

14

Wir teilen einfach durch die 538, den Umfang der Grundmenge und erhalten zunächst Dezimalzahlen. Prozente erhalten wir, indem wir mit 100 multiplizieren. Das Runden macht die Tabelle übersichtlicher. In der Summe ergeben die 3 Zahlen links 538 (Satz 1.1) und sonst 1 bzw. 100 % (Satz 1.2). Man kann sich die Gesamtanzahl auch durch das Kommando Anzahl (Index) berechnen lassen, ferner steht in Fathom noch das Kommando Gesamtanzahl dafür zur Verfügung. Freizeit 0,5669145 0,5669145 0,5669145 S1 =

Freizeit

Anzahl ( Größe > 1,7 )

Anzahl ( Index) Anzahl ( Größe > 1,7 ) S2 = Gesamtanzahl Anzahl ( Größe > 1,7 ) S3 =

0,5669145 0,5669145 S1 = Anteil ( Größe > 1,7 ) S2 =

538

Anzahl ( Größe > 1,7 ) 538

Alternativ dazu kann das Kommando Anteil() verwendet werden, dass automatisch durch die Gesamtanzahl teilt. Wir haben also herausgefunden, dass 56,7 % der Befragten größer als 1,70 m groß sind, 35,5 % sind kleiner gleich 1,70 m und 7,8 % haben zu ihrer Körpergröße keine Angabe gemacht. Diese drei relativen Häufigkeiten summieren sich zu 1 bzw. 100%, die 538 SchülerInnen teilen sich in diesem Verhältnis auf die 3 disjunkten Teilmengen auf.

1.10 Relative Häufigkeiten unter Nicht-Beachtung fehlender Werte Man kann sich aber auch für die relativen Häufigkeiten in der Teilmenge derjenigen interessieren, die überhabt Angaben gemacht haben. Wir sind z.B. an der relativen Häufigkeit interessiert, mit der Groesse > 1.7 unter denen vor{ω ∈ Ω Groesse > 1.7} . kommt, die überhaupt eine Körpergröße angegeben haben, d.h. an ΩGroesse Im Nenner muss man dann im Sinne der Definition 1.3 die Anzahl der Personen angeben, die ihre Körpergröße angegeben haben.Da die Grundmenge kleiner wird, wird auch der Anteil größer: Er steigt von etwa 56,7% auf 61,5%, wie die neben stehende Auswertungstabelle zeigt. Auch hier summieren sich die beiden relativen Häufigkeiten zu 1 bzw. 100% (der Bezug ist aber die andere Grundmenge Ω X ). Freizeit 61,5 38,5

Anzahl ( Größe > 1,7) 100; 1 ) Anzahl ( Größe ) Anzahl ( Größe ≤ 1,7) S2 = runde ( 100; 1 ) Anzahl ( Größe ) S1 = runde (

Elementare Stochastik

Rolf Biehler

WS 2006/2007

1 Grundbegriffe und Überblick

15

1.11 Eigenschaften einer Kollektion als Ganzes in Fathom: Messgrößen Die Statistik interessiert sich in der Regel für Eigenschaften eines ganzen Kollektivs, also z.B. dem durchschnittlichen PISA-Score der deutschen Schüler und Schülerinnen. Solche Eigenschaften einer Kollektion als Ganzer und nicht einzelner Beobachtungseinheiten, nennt man in der Statistik auch schlicht „statistische Funktionen“. Beispiele Eigenschaft (statistische Funktion)

Formel in FATHOM

Mittelwert des Körpergewichts

aMittel (Groesse)

Minimum der Körpergröße

Min (Groesse)

Anzahl der Früh- oder Spätaufsteher am Sonntag

Anzahl((SoAufst > 12) ODER (SoAufst < 9))

Man kann solche Eigenschaften durch Formeln in „Auswertungstabellen“ sich angeben lassen. Eine Alternative ist die Speicherung als „Messgröße“, die man gemeinsam mit den Daten der Kollektion abspeichern kann. Eigenschaften einer Kollektion heißen “Messgrößen” in Fathom. Definition von Kollektionseigenschaften in FATHOM

Anschaulich gilt in FATHOM, wir heften „Messgrößen“ an die Kollektion: Wir öffnen das Infofenster zur Kollektion und wechseln zur Karteikarte „Messgrößen“. Hier können wir nun unter Messgrößen einen Namen definieren und unter Formel die entsprechende Formel angeben.

Alle 5 genannten Messgrößen sind Eigenschaften unserer Schülergruppe von 538 Personen. Der Formeleditor erlaubt hier verschiedene Komplexitätsstufen. a) Zusammenfassende Werte einer Spalte (einer Variablen) werden eingegeben als z. B. aMittel (Variablenname) Min (Variablenname) Max (Variablenname) Elementare Stochastik

Rolf Biehler

WS 2006/2007

16

b) Die Anzahl von Elementen einer Teilmenge erhält man durch Anzahl (Bedingung für die Teilmenge) c) Man interessiert sich oft auch für zusammenfassende Werte, die man nur für Teilmengen ausrechnen möchte, z. B. für die mittlere Körpergröße der Schülerinnen: aMittel (Groesse; Geschlecht = “weiblich“). Die einschränkende Bedingung trennt man durch Semikolon ab. Dieselben Größen kann man auch in einer Auswertungstabelle eingeben und berechnen lassen. Die Größen bleiben dadurch ohne Namen und können nicht so gut weiterverarbeitet werden wie Messgrößen.

Elementare Stochastik

Rolf Biehler

WS 2006/2007