Kontingenztabellen. Worum geht es in diesem Modul?

(c) Projekt Neue Statistik 2003 - Lernmodul: Kontingenztabellen Kontingenztabellen Worum geht es in diesem Modul? Die Ausgangssituation Die 2x2 Felde...
Author: Hedwig Pfeiffer
3 downloads 2 Views 17KB Size
(c) Projekt Neue Statistik 2003 - Lernmodul: Kontingenztabellen

Kontingenztabellen Worum geht es in diesem Modul? Die Ausgangssituation Die 2x2 Felder Tafel Randverteilungen in 2x2-Tafeln Bedingte Häufigkeiten in 2x2-Tafeln Die IxJ-Felder Tafel Kontingenztabelle und Klassierung

Worum geht es in diesem Modul? In diesem Lernmodul betrachten wir die Situation, dass zwei Merkmale beobachtet wurden, die jeweils nur wenige Ausprägungen haben. Die Aufbereitung solcher Beobachtungen führt zu Kontingenztafeln. Ausgehend von der einfachsten Situation, dass beide Merkmale jeweils nur zwei Werte annehmen können, werden die relevanten Begriffe und Konzepte präsentiert.

Die Ausgangssituation Bei den bisher beschriebenen statistischen Begriffen und Verfahren wurde jeweils nur ein Merkmal der verschiedenen Merkmalsträger betrachtet, also nur univariate Datensätze. Zumeist werden bei statistischen Untersuchungen jedoch mehrere Merkmale eines Merkmalsträgers erfasst. Dann liegen sogenannte multivariate Datensätze vor. Die einfachste Situation ist dabei die, dass zwei nominal skalierte Merkmale, und , berücksichtigt werden. Der bivariate Datensatz besteht dann aus Ausprägungspaaren , bei denen beide Komponenten jeweils nur wenige unterschiedliche Werte aufweisen. Beispiel: Schulung und Image Eine Ladenkette ist mit ihrem Image in der Öffentlichkeit unzufrieden. Eine Befragung bei 350 Bürgern hat den Mitarbeitern Unfreundlichkeit vorgeworfen. Die Leitung befürchtet, dass die Kunden daher zur Konkurrenz abwandern können. Sie beabsichtigt daher in einigen Filialen ihre Mitarbeiter zu schulen. Hier soll der "zusätzliche" Effekt der Schulung untersucht werden. Seien = "Schulung" und = "Zufriedenheit". bedeutet, dass keine Schulung durchgeführt wurde, , dass geschult wurde. bedeutet, dass ein Kunde unzufrieden war , dass die Angabe "zufrieden" lautete. Zehn der 350 Beobachtungspaare sind:

1

1

0

0

1

1

1

1

1

0

0

1

0

1

Page 1

(c) Projekt Neue Statistik 2003 - Lernmodul: Kontingenztabellen

1

0

1

1

0

0

Den gesamten Datensatz finden Sie hier ( ab6.txt ) . Die 2x2 Felder Tafel Beispiel: Schulung und Image Bei der Befragung der Kunden der Ladenkette wurde nur nach der Zufriedenheit gefragt. Zusätzlich wurde natürlich notiert, ob die Frage in einer Filiale mit bzw. ohne geschultes Personal durchgeführt wurde. Somit haben beide Merkmale jeweils nur zwei Ausprägungen. Die Beobachtungspaare sollen nun zusammengefasst werden. Dazu bietet es sich an, entsprechend der univariater Datensätze die Anzahlen gleicher Beobachtungspaare auszuzählen. Um aber eine übersichtliche Darstellung zu erhalten, ordnen wir die Häufigkeiten in einer Tabelle an. Für die 350 Beobachtungspaare ergibt sich: Tabelle der absoluten Häufigkeiten: Wir sehen, dass 150 der 350 befragten Kunden in einer Filiale ohne Schulung angesprochen wurden und nicht zufrieden waren. Nur 50 der befragten Kunden kauften in einer Filiale ohne Schulung ein und waren zufrieden. Wie bei univariaten Beobachtungen erhalten wir die relativen Häufigkeiten, indem die absoluten Häufigkeiten durch den Umfang des Datensatzes dividiert werden: Tabelle der relativen Häufigkeiten: Die allgemeine Angabe einer 2x2 Kontingenztafel Die beiden Merkmale mögen wie in unserer konkreten Situation nur je zwei Ausprägungen haben; diese seien mit 0 und 1 kodiert. Die gemeinsame Häufigkeitsverteilung der Beobachtungen solcher binärer Variablen wird dann in einer 2x2-Felder Tafel oder 2x2-Kontingenztafel angegeben. Sowohl Zeilen als auch Spalten repräsentieren Ausprägungen des Datensatzes. Die Ausprägungen des Merkmals sind zeilenweise angeordnet, die des Merkmals spaltenweise. Das Feld in der i-tenZeile und der j-tenSpalte gibt die gemeinsame absolute Häufigkeit an, mit der das Ausprägungspaar im bivariaten Datensatz enthalten ist. Die absoluten Häufigkeiten erhalten wir einfach durch Auszählen. Die relativen

Page 2

(c) Projekt Neue Statistik 2003 - Lernmodul: Kontingenztabellen

Häufigkeiten ergeben sich aus den absoluten Häufigkeiten durch Division durch den Umfang des Datensatzes. Allgemein bezeichnen wir die gemeinsamen absoluten Häufigkeiten, mit der die Ausprägungspaare im bivariaten Datensatz enthalten sind, mit

;

sind die entsprechenden relativen Häufigkeiten: Die Kontingenztafel bekommt dann die folgende Gestalt:

Randverteilungen in 2x2-Tafeln Beispiel: Schulung und Image Aus der Kontingenztafel erhalten wir auch die Häufigkeitsverteilungen der einzelnen Variablen. Für die Häufigkeitsverteilung von brauchen wir nur zu bestimmen, wie oft jeweils der Wert 0 bzw. 1 erhalten wurde. Das ergibt sich gerade durch die Summe der Anzahl der Beobachtungen, bei denen jeweils unterschiedlich, aber fest ist. Diese Häufigkeiten werden am rechten Rand der Kontingenztabelle notiert. Entsprechend erhalten wir die Häufigkeitsverteilung von . Diese wird als neue Zeile der Kontingenztabelle hinzugefügt. Insgesamt ergibt sich: Für die relativen Häufigkeiten erhalten wir entsprechend die Tabelle: Die allgemeine Angabe von Randverteilungen Werden die Häufigkeiten in einer Zeile zusammengenommen, so ergibt sich die Häufigkeit der Beobachtungspaare, bei denen den Wert 0 bzw. den Wert 1 angenommen hat. Die Summe der Eintragungen in einer Spalte ist gleich der Häufigkeit, mit der denen den Wert 0 bzw. den Wert 1 angenommen hat. Diese Summen heißen Randhäufigkeiten. Um kenntlich zu machen, dass über einen der beiden Indizes summiert wird, wird bei den Randhäufigkeiten an der entsprechenden Stelle ein Punkt angebracht: und bzw. und Die Kontingenztabelle wird nun um eine Spalte und eine Zeile erweitert, um die Randhäufigkeiten mit einzutragen; sie bekommt somit die folgende Gestalt: Enthält die Kontingenztabelle absolute Häufigkeiten, so ergibt die Summe der univariaten Randhäufigkeiten (sowohl in der Zeile als auch in der Spalte) den Datenumfang . Wenn sie relative Häufigkeiten enthält, lautet die Summe eins:

Beispiel: Erstellen einer Kontingenztafel mit dem Labor Die Universität in Bochum bietet neben Lehrveranstaltungen auch ein Kulturprogramm

Page 3

(c) Projekt Neue Statistik 2003 - Lernmodul: Kontingenztabellen

für die Studierenden an. Im Rahmen einer Untersuchung zur Annahme eines Kulturangebotes von den Studierenden wurde getrennt nach Geschlecht auch danach gefragt, ob das Angebot vor allem angenommen würde, um Leute kennen zu lernen. In einer Labordatei finden Sie den Datensatz mit einer Anleitung zur Erstellung der Kontingenztafel mit dem Labor. Die Daten stammen aus Bischoff, M. (1999) Studierende und Kultur in Bochum, Tectum Verlag: Marburg. Labordatei öffnen ( b67.spf ) Erstellen Sie aus den Beobachtungen der beiden binären Variablen und im folgenden Datensatz eine 2x2-Felder-Tafel mit (i) absoluten Häufigkeiten (ii) relativen Häufigkeiten. Datensatz öffnen ( b7b.zmpf ) Bedingte Häufigkeiten in 2x2-Tafeln Beispiel: Schulung und Image Das hauptsächliche Interesse der Geschäftsleitung richtet sich auf einen Vergleich der beiden Gruppen von Filialen: diejenigen, bei denen die Mitarbeiterschulung vorgenommen wurde und die, bei denen das nicht geschehen ist. Für solche Gruppenvergleiche sind die relativen Häufigkeiten geeigneter als die absoluten, da die Unterschiedlichkeit der Gruppengrößen ausgeglichen wird. In der Kontingenztafel werden die beiden Gruppen durch die Zeilen gegeben. Die getrennte Betrachtung der beiden Zeilen führt dazu, dass die absoluten Häufigkeiten durch die jeweils zugehörige Randhäufigkeit dividiert werden: Wir sehen deutlich, dass die Schulung das Image ins Positive verändert hat. Die allgemeine Angabe von bedingten Verteilungen Wie bei dem Beispiel besteht eine der häufigsten Fragestellungen bei bivariaten Daten im Vergleich von Untergruppen, die durch die Ausprägungen einer der beiden Variablen gegeben sind. Für den Vergleich werden die relativen Häufigkeiten herangezogen. Allgemein ergeben sich bei binären Variablen zwei Verteilungen von , wenn die Untergruppen durch die Variable gegeben sind: Diese auf die Zeilen bezogenen relativen Häufigkeiten werden als bedingte relative Häufigkeiten bezeichnet. Dafür wird geschrieben. Es ist Entsprechend ergeben sich die bedingten relativen Häufigkeiten für die Spalten: In einer Tabelle zusammengefasst bekommen sie folgende Gestalt: Gegeben ist die folgende 2x2-Felder Tafel: Bestimmen Sie

Page 4

(c) Projekt Neue Statistik 2003 - Lernmodul: Kontingenztabellen

1.die Randverteilungen von und . 2.die bedingten Verteilungen von bei gegebenen -Werten. Anleitung zu Berechnung: Labordatei öffnen ( bd8.spf ) Die IxJ-Felder Tafel Wenn wir den Zusammenhang zweier nominal skalierter Variablen betrachten, wobei mindestens eine von beiden mehr als zwei mögliche Ausprägungen hat, werden wir auf Kreuztabellen mit mehr als zwei Zeilen und / oder zwei Spalten geführt. Die Ausprägungen der Variablen werden einfach durch aufeinanderfolgende ganze Zahlen wie oder bezeichnet. Die für 2x2-Felder Tafeln vorgestellten Konzepte lassen sich recht einfach auf IxJ-Felder Tafeln verallgemeinern. Zunächst erhalten wir durch die Kreuzklassifikation der in einer Datenmatrix vorliegenden Realisationen eine IxJ-Felder Tafel von absoluten Häufigkeiten: Die relativen Häufigkeiten werden auf alle Beobachtungen bezogen. Damit erhalten wir die entsprechende IxJ-Felder Tafel mit den Eintragungen Auch die bedingten relativen Häufigkeiten ergeben sich ganz wie im Fall einer 2x2-Tafel. Die auf die Zeilen bezogenen bedingten relativen Häufigkeiten sind Entsprechend sind die auf die Spalten bezogenen bedingten relativen Häufigkeiten: In der folgenden Abbildung ist die Auswahl einer Zeile und die resultierende Bestimmung der bedingten Häufigkeiten verdeutlicht. Quelle: Statistik interaktiv!

Kreuz- oder Kontingenztabellen sind natürlich auch für ordinal oder metrisch skalierte Merkmale bedeutsam, wenn beide nur wenige unterschiedliche Realisationen aufweisen. Beispiel: Technikakzeptanz Im Rahmen einer Studie wurden von 1553 Personen u.a. Angaben zur Berufsposition (= ) und zu ihrer Technik-Akzeptanz (= ) erhoben. Dazu hatten die Befragten auf einer Skala, die von 1 (= sehr skeptisch) bis 7 (=stimme voll zu) reichte, ihre Techniknähe anzugeben. Das Ergebnis ist in der folgenden Tabelle zusammengefasst. Von speziellem Interesse ist hier natürlich, die Verteilung der Technikakzeptanz für die Personen unterschiedlicher Berufspositionen miteinander zu vergleichen. Anhand der bedingten Verteilungen wird deutlich, dass leitende Angestellte und Selbständige neuer Technik gegenüber am aufgeschlossensten sind. In keiner Gruppe überwiegen jedoch die absoluten Befürworter. Im Rahmen freier Krankenkassenwahl ist es für die verschiedenen Kassen immer wichtiger, sich über die Zufriedenheit ihrer Kunden ein Bild zu machen. So wurde in

Page 5

(c) Projekt Neue Statistik 2003 - Lernmodul: Kontingenztabellen

einer Fragebogenaktion unter anderem nach der Zufriedenheit mit der fachlichen Beratung und danach gefragt, ob man die Kasse weiterempfehlen würde. Das Merkmal

="Zufriedenheit" hat fünf Ausprägungen

(1=vollkommen zufrieden, 5= unzufrieden), das Merkmal

="Weiterempfehlung" hat

drei Ausprägungen (1=ja, 2=eventuell, 3=nein). Der Datensatz steht hier zur Verfügung: Labordatei öffnen ( c3f.zmpf ) i) Aus dem Datensatz ist eine Kontingenztabelle zu erstellen. ii) Ermitteln Sie die Randverteilungen. iii) Es sind die bedingten Verteilungen von

bei gegebenen Werten

von zu bestimmen und zu interpretieren. Kontingenztabelle und Klassierung Schlafstörungen stellen ein weit verbreitetes Problem in der Bevölkerung dar. Dabei verändert sich die Problemlage mit dem Alter. Da die Anzahl der unterschiedlichen Ausprägungen für das Merkmal Alter sehr groß ist, empfiehlt es sich, für eine übersichtliche Darstellung Altersgruppen zu bilden. Dann können die Schlafstörungen mit den Ausprägungen "gar nicht", "leicht", "mittel" und "schwer" mit der Altersgruppe

kreuzklassifiziert werden.

(Daten nach einer Veröffentlichung in der Frankfurter Rundschau und dem Statistischen Jahrbuch.) Erst durch die Klassierung des Merkmals Alter ist hier eine Tabelle mit einer relevanten Aussagekraft konstruierbar. Wie bei der gilt aber, dass durch die Klassierung bivariater Datensätze die Information reduziert wird. Der Straßenverkehr ist nicht nur tagsüber die dominierende Geräuschquelle. Die Geräuschbelastung durch Straßenverkehr hat trotz technischer und planerischer Lärmminderungsmaßnahmen ein hohes Niveau. 2000 Messungen in den alten Bundesländern, je 1000 tagsüber und 1000 nachts, ergaben einen Datensatz: Labordatei öffnen ( c6e.zmpf ) (Nach Umweltbundesamt, Umweltdaten Deutschland 1998.) Klassieren Sie die Lautstärke-Werte wie auf der Laborseite angegeben und erstellen Sie eine Kontingenztafel! Interpretieren Sie die Tabelle! (Bei Pegeln über 30 dB(A) muss mit Schlafstörungen infolge der Geräuschbelastung gerechnet werden.) bedingte relative Häufigkeit Erklärungbinäre Variable Erklärungbivariater Datensatz Erklärungbivariate Häufigkeiten ErklärungKlassierung

Page 6

(c) Projekt Neue Statistik 2003 - Lernmodul: Kontingenztabellen

ErklärungKontingenztabelle ErklärungRandverteilung Erklärung (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de

Page 7