Logistische Regression

Logistische Regression destra, Version 11 (150724/11.0.3.2) Logistische Regression 1/28 Inhalt 1. Vorwort ..........................................

Author: Andreas Krüger

123 downloads 1 Views 2MB Size

Report

Download PDF

Recommend Documents

Polytome logistische Regression: Auswertung einer Fall-Kontroll-Studie

LOGISTISCHE KENNZEICHNUNG

Logistische Gleichung

Allgemeine logistische Anforderungen

Logistische Prozesse mit SAP Kapitel 5 Logistische Prozesse

Statistik Methoden. Datenskalen. 5. Konfidenzintervall 6. Logistische Regression 7. Lebensdaueranalysen 8. Software 9. Fallzahlberechnung

Logistische Funktion Verhulst ( ), belgischer Mathematiker

VRC Rolcontainer eine logistische Entscheidung

Punktum. Logistische Kennzeichnung und Kalibrierung

Logistische Prozesse Berufe der Lagerlogistik

Logistische Software. Ihre Transportprozesse optimal abbilden! soloplan.de. Logistische Software von Soloplan. 900 Kunden Branchenvielfalt

09. Regression line. Regression. Slope intercept form review. Regression line. Regression line. Regression. y = mx + b

Preh Gmbh Logistikrichtlinie Logistische Anforderung an Lieferanten

Multiple Regression. SPSS output. Multiple Regression Multiple Regression Model:

Multiple Regression Mais-NP Zweidimensionale lineare Regression Data Display Dreidimensionale lineare Regression Multiple Regression

Regression Diagnostics and Advanced Regression Topics

Regression Coefficients

Statistik - Regression

Logistikrichtlinie. Logistische Anforderung von Preh GmbH an Lieferanten

Je schwerer das Gut, desto wichtiger die logistische Kette

REGRESSION Simple Linear Regression Model 12.2 Fitting the Regression Line 12.3 Inferences on the Slope Parameter

2013. Partial least Squares. Multivariate Regression. Multivariate Regression. MLR: Multiple Linear Regression

Regression with Qualitative Information. Part VI. Regression with Qualitative Information

CHAPTER. Regression. Regression lines. In this chapter we cover

Logistische Regression destra, Version 11 (150724/11.0.3.2)

Logistische Regression

1/28

Inhalt 1.

Vorwort ........................................................................................................................... 2

2.

Grundlagen der logistischen Regression ........................................................................ 3

3.

4.

2.1

Voraussetzung ........................................................................................................ 3

2.2

Funktionen – Logistisch, Odds und Logit ................................................................. 4

Fallbeispiel ..................................................................................................................... 5 3.1

Ein neues Projekt anlegen....................................................................................... 5

3.2

Auswerten der Daten............................................................................................... 9

3.2.1

Wald-Signifikanztest ........................................................................................12

3.2.2

Vorhersagewerte (Fit) des Modells ..................................................................13

3.2.3

Den Odds-Ratio bestimmen und darstellen .....................................................15

Ausgewählte Kenngrößen der logistischen Regression .................................................18 4.1

Kenngrößen der Modellanpassung.........................................................................18

4.1.1

Kenngröße Log-Likelihood (LL oder Log L) .....................................................18

4.1.2

Kenngröße Devianz (Deviance; -2LL oder -2 Log L)........................................18

4.1.3

Kenngröße Likelihood Ratio ............................................................................19

4.1.4

Informationskriterien AIC und SC ....................................................................19

4.2

Konkordanz- und Korrelationsmaße .......................................................................20

4.2.1

Anteil übereinstimmender Paare (konkordanter Paare) ...................................22

4.2.2

Anteil nicht übereinstimmender Paare (diskonkordanter Paare) ......................22

4.2.3

Anteil gleicher Paare (Ties) .............................................................................22

4.2.4

Beziehungsmaße ............................................................................................22

4.2.4.1 Kenngröße D nach Somer ...........................................................................23 4.2.4.2 Kenngröße Gamma nach Goodman und Kruskal ........................................23 4.2.4.3 Kenngröße Tau nach Kendall ......................................................................23 4.2.4.4 Kenngröße Concordant C ............................................................................23 4.3

(Pseudo-) Bestimmtheitsmaße ...............................................................................24

4.3.1

Bestimmtheitsmaß nach Cox und Snell ...........................................................24

4.3.2

Bestimmtheitsmaß nach Nagelkerke ...............................................................24

4.3.3

Bestimmtheitsmaß nach McFadden ................................................................24

4.4

Testen der Anpassungsgüte des Modells ...............................................................25

4.4.1

Kontingenztabelle ............................................................................................25

4.4.2

Anpassungstest nach Pearson ........................................................................26

4.4.3

Test auf Anpassungsgüte: Deviance ...............................................................27

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

2/28

1. Vorwort Mit diesem Fallbeispiel führen wir Sie in die Binäre Logistische Regression ein, welche eine der Neuerungen in dem Programm destra ist. Das charakteristische Merkmal der logistischen Regression ist die Art der Zielgrößenwerte: Diese sind diskret und können im Spezialfall der Binären Logistischen Regression nur genau zwei verschiedene Werte annehmen (dichotome Zielgröße). Eine typische Anwendung der Binären Logistischen Regression im Qualitätsmanagement ist das Klassifizieren von zu prüfenden Objekten: So erfasst man z.B. Merkmalswerte der Objekte mit einem optisch arbeitenden Messsystem. Anhand der Merkmalswerte errechnet die logistische Funktion die Zugehörigkeit der geprüften Objekte zur Kategorie Gut oder Schlecht. Während in den Modulen Stichproben- und Prozessanalyse jeweils eine automatisierte Auswertung mit ebenso automatisierter Ergebnisbeurteilung entsprechend der eingestellten Auswertestrategie erfolgt, ist das im Modul Regressions-/Varianzanalyse nicht der Fall. Hier zeigt uns das Programm die Auswertungsergebnisse oft als Werteliste ohne weitere Erläuterungen oder Bewertungen an. Aus diesem Grund sind die Ergebnisse in diesem Fallbeispiel etwas ausführlicher dargestellt. Im Fokus dieses Fallbeispiels steht die Handhabung des Programmes destra in der Version 11. Sofern Ihnen die theoretischen Grundlagen zur Regression fehlen, empfehlen wir Ihnen den Besuch eines entsprechenden Seminares bei unserem Schwesterunternehmen TEQ Training & Consulting. www.teq.de Sofern Sie mit dem in der Version 11 neu eingeführten Projekt-Explorer noch nicht vertraut sind, bitten wir Sie, zunächst das Fallbeispiel zum Projekt-Explorer durchzuarbeiten. Sie finden das Fallbeispiel auf der Q-DAS-Webseite unter: www.q-das.de Über Lob oder Tadel von Ihnen freuen wir uns. Bitte senden Sie Ihre Rückmeldung an: [email protected] Vielen Dank! Wir wünschen Ihnen noch viel Freude an dem Produkt destra.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

3/28

2. Grundlagen der logistischen Regression Mit einer Regression beschreiben wir üblicher Weise den Zusammenhang zwischen einer oder mehreren stetigen Einflussgrößen und einer Zielgröße. Hier haben wir es mit einer kategorialen Zielgröße zu tun, wie wir sie beispielsweise bei attributiven Prüfungen erhalten. Anwendungsgebiet: Die Binäre Logistische Regression ist eine Methode zur Klassifizierung - Einheiten oder „Fälle“ werden anhand ihrer Merkmalswerte in eine von zwei Kategorien zugeordnet. Beispielsweise, wenn wir Einheiten anhand ihrer Merkmalswerte mit einem Kamerasystem in eine der Kategorien Gut oder Schlecht einstufen lassen. Idee: Bei der Binären Logistischen Regression wird die Beziehung zwischen den Einflussund Zielgrößenwerten nicht direkt modelliert. Vielmehr bestimmt das logistische Modell anhand der Istwerte der Einflussgrößen die Wahrscheinlichkeit, mit der eine Einheit oder ein „Fall“ zu einer bestimmten Kategorie gehört. Somit ist der Zielgrößenwert stets eine Zahl zwischen 0 und 1, also die Wahrscheinlichkeit der Zugehörigkeit einer Beobachtung zu einer bestimmten Kategorie. Vorgehen: Zunächst brauchen wir eine nicht zu kleine Menge an Referenzdatensätzen, die wir nach dem Zufallsprinzip in zwei Hälften aufteilen. Mit der einen Hälfte der Daten bestimmen wir das Regressionsmodell und beurteilen die Anpassungsgüte. Ggf. verfeinern wir das Modell, bis wir mit der Anpassungsgüte zufrieden sind. Anschließend führen wir mit der zweiten Hälfte der Daten die Kontrolle der Kategorisierung durch: Ordnet das Modell die Fälle der richtigen Kategorie zu? Wie sieht es mit der Rate an Fehlentscheidungen aus? Sind wir auch damit zufrieden, so können wir das Modell für den praktischen Einsatz freigeben.

2.1

Voraussetzung

Zuordenbarkeit: Die Merkmalswerte der Einfluss- und Zielgrößen müssen zeilenweise einander zuordenbar erfasst und aufgezeichnet werden. Die erwartete Struktur ist in der folgenden Tabelle dargestellt: Jede Zeile stellt eine zusammengehörige Beobachtung an einer einzigen Einheit oder von einem einzigen „Fall“ dar. An einer Einheit werden demnach bis zu m Merkmale (Einflussgrößen) gemessen oder beobachtet. In Abhängigkeit dieser Merkmalswerte wird die Einheit in eine der beiden Zielgrößen-Kategorien eingestuft. Nr.

Einflussgröße 1

…

Einflussgröße m

Zielgröße

Häufigkeit

1

x1.1

…

xm.1

y1

h1

2

x1.2

…

xm.2

y2

h2

⁞

⁞

⁞

⁞

⁞

⁞

n

x1.n

…

xm.n

yn

hn

Tabelle 2-1: Tabellenstruktur von einander zuordenbaren Merkmalswerten

Tipp: Ein einfacher Indikator dafür, dass keine Zuordenbarkeit vorliegt, ist die Anzahl der Werte je Spalte: Ist diese von Spalte zu Spalte unterschiedlich groß, so haben wir sicher keine Zuordenbarkeit der Werte.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

4/28

Ausreichend viele Beobachtungen: Als Faustregel lässt sich festhalten, dass wir etwa 30 Einheiten mehr messen, als Modellparameter in dem Regressionsmodell vorhanden sind. Vereinfacht gesagt: Die Anzahl der Zeilen entspricht mindestens der Anzahl Modellparameter plus 30. Keine unvollständigen Beobachtungen: Fehlt in einer Zeile mindestens ein Wert, so schließen wir die gesamte Zeile von der Auswertung aus.

2.2

Funktionen – Logistisch, Odds und Logit

Anders als bei einer „normalen“ linearen Regression ist das Interpretieren des Steigungskoeffizienten nicht so einfach möglich. Während wir bei der einfach linearen Regression den Steigungskoeffizienten direkt als Zuwachs der Zielgröße deuten können, ist das bei der logistischen Regression nicht möglich. Das Schätzen der Modell-Parameter erfolgt mit der Maximum Likelihood Methode, angewendet auf die Formel 2-3: Log-odds oder Logit-Funktion. Der dabei geschätzte Steigungskoeffizient drückt den Zuwachs der LogitFunktion aus. 𝑝(𝑋) =

𝑒 𝛽0 +𝛽1 𝑋 1 = 𝛽 +𝛽 𝑋 −(𝛽 1+𝑒 0 1 1 + 𝑒 0 +𝛽1 𝑋)

Formel 2-1: Logistische Funktion

𝑝(𝑋) = 𝑒 𝛽0 +𝛽1 𝑋 1 − 𝑝(𝑋) Formel 2-2: Odds-Funktion

𝑝(𝑋) 𝑙𝑜𝑔 ( ) = 𝛽0 + 𝛽1 𝑋 1 − 𝑝(𝑋) Formel 2-3: Log-odds oder Logit-Funktion

Um Prognosewerte zu berechnen, verwenden wir die Formel 2-1: Logistische Funktion. Setzten wir darin die mit Formel 2-3 bestimmten Schätzwerte für die Koeffizienten und auch einen vorgegebenen Wert für die Einflussgröße X ein, so erhalten wir als Ergebnis die Wahrscheinlichkeit, mit der die zugehörige Beobachtung zu der Zielgrößen-Kategorie gehört, für die wir das Modell berechnet haben. Hinweis: Das Binäre Logistische Regressionsmodell wird für eine der beiden ZielgrößenKategorien berechnet.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

5/28

3. Fallbeispiel Für diese Einführung wählen wir das Beispiel Fußball: Wir betrachten bei diesem Fußballspiel die kategoriale Zielgröße Tor mit den zwei möglichen Werten ja oder nein. Die stetige Einflussgröße ist die Distanz zum Tor in der Einheit Meter. Die Ergebnisse von insgesamt 447 Torschüssen wurden anhand von Video-Aufnahmen analysiert. Hinweis: Die Daten für dieses Beispiel sind frei erfunden.

3.1

Ein neues Projekt anlegen

Zunächst laden wir uns die Daten zu diesem Fallbeispiel von der Q-DAS Webseite herunter. Die Werte sind in der Text-Datei mit der Bezeichnung Datendatei (txt) enthalten. Öffnen Sie diese Datei mit dem Programm Notepad. Wir starten das Programm destra und wählen: Datei | Neues Projekt… | Regression | Logistische Regression

Abbildung 3-1: Aufruf des Befehls zum Starten eines neuen Projektes für eine logistische Regression

Es öffnet sich das Fenster Process Improvement – Logistische Regression. Darin sind im Standard vier Variablen enthalten: Eine Zielgröße (Y), zwei Einflussgrößen (X1 und X2) und das Merkmal Freq für die Angabe der Häufigkeit. In unserem Fallbeispiel benötigen wir nur eine einzige Einflussgröße. Aus diesem Grund löschen wir die zweite Einflussgröße X2: Wir Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

6/28

klicken in dem Fenster auf das Merkmal mit der Bezeichnung X2 und klicken anschließend auf die Schaltfläche Merkmal löschen.

Abbildung 3-2: Anweisung für das Löschen der zweiten Einflussgröße mit der Bezeichnung X2

Wir aktivieren im unteren Bereich des Fensters die Option Catalog is part of data source. Anschließend überschreiben wir die Bezeichnung der Zielgröße Y mit dem Namen Tor. Am rechten Fensterrand sehen wir die Tabelle Stufenwerte, in der wir die kategorialen Werte der Zielgröße ja und nein untereinander eingeben.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

7/28

Abbildung 3-3: Anlegen der Zielgröße Tor mit den kategorialen Werten ja und nein

Als nächstes überschreiben wir die Bezeichnung X1 mit dem Namen Distanz.

Abbildung 3-4: Überschreiben der Bezeichnung X1 mit dem Namen Distanz

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

8/28

Hinweis: Die Spalte Freq für die Häufigkeiten darf nicht gelöscht werden. Sie wird für die Auswertung zwingend benötigt. Wir bestätigen unsere Änderungen mit Ok. Wenden wir uns zuerst dem Projekt-Explorer zu: Das Programm hat automatisch eine Projektstruktur erzeugt.

Abbildung 3-5: Automatisch erzeugte Projekt-Struktur im Projekt-Explorer

Ist die Datenquelle ausgewählt, so sehen wir das Fenster Wertemaske. In die Wertemaske übernehmen wir die Daten aus der Datei Datendatei (txt) mit den Befehl Kopieren und Einfügen.

Abbildung 3-6: Ansicht des Fensters Wertemaske mit den eingefügten Werten aus der Datei Datendatei (txt)

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

9/28

Hinweis: In der Spalte für das Merkmal Freq ist stets der Wert 1 enthalten. Das Merkmal erscheint für dieses Fallbeispiel überflüssig, darf aber nicht gelöscht werden.

3.2

Auswerten der Daten

Für das Auswerten der Daten wählen wir: Menüband Start | Befehlsgruppe Auswerten | Befehl Modell f(x) | Regression | Logistisch

Abbildung 3-7: Ansicht des Befehls zum Berechnen der logistischen Regression

Es öffnet sich das Fenster SelectGrid mit dem aktiven Register Merkmalsauswahl.

Abbildung 3-8: Fenster SelectGrid – Register Merkmalsauswahl

In diesem Fenster sollte die Einflussgröße Distanz als Kovariable (Spalte V) markiert sein, das Merkmal Tor als Zielgröße (Spalte Y) und das Merkmal Freq als Häufigkeitsangabe (Spalte F). In der Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

10/28

Regel ist im Standard alles entsprechend den genannten Angaben voreingestellt. Doch Kontrolle ist besser! Mit einem Klick auf das Register Modell wechseln wir in die zugehörige Ansicht:

Abbildung 3-9: Fenster SelectGrid – Register Modell – hier aktivieren wir das lineare Modell für quantitative Faktoren (in der Regel voreingestellt)

In diesem Fenster wählen wir unter der Rubrik Modelle quantitativer Faktoren die Option linear aus, sofern es nicht schon im Standard ausgewählt ist. Wir klicken nun auf das Register Optionen. Wir stellen das Drop-Down-Feld auf den Wert nein ein, so dass hinter dem Wort Ereignis der Wert ja zu sehen ist. Das Modell wird nun für das Ereignis Tor = ja berechnet.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

11/28

Abbildung 3-10: Fenster SelectGrid - Register Optionen – hier achten wir auf die Zuordnung Ereignis ja (in der Regel voreingestellt)

Wir bestätigen unsere Einstellungen mit OK. Das Programm öffnet das Fenster Übersicht/Eingabe, in dem die Parameter-Schätzer von dem Regressionsmodell enthalten sind. Das Programm berechnet die Parameter-Schätzer des Modells mit der Maximum-LikelihoodMethode.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

12/28

Abbildung 3-11: Fenster Übersicht / Eingabe mit den Parameter-Schätzern des Regressionsmodells

In der folgenden Tabelle sind die Erläuterungen zu dem Inhalt des Fensters Übersicht/Eingabe enthalten: Spalte

Erläuterung

Merkm. Nr.

Nummer des Merkmals; in der Merkmalsmaske einzutragen

Merkm. Bez.

Bezeichnung des Merkmals; in der Merkmalsmaske einzugeben

xi

Art des Modell-Parameters

Stufe

Gibt an, für welchen Stufenwert einer diskreten Einflussgröße der Koeffizient gilt (nur bei diskreten Einflussgrößen)

Y Level

Gibt an, für welchen Zielgrößenwert der Koeffizient bestimmt wurde.

c

Schätzwert des jeweiligen Koeffizienten (Parameter-Schätzer)

se

Standardabweichung (Standardfehler) des Koeffizienten

95 % lcl

Untere Grenze des zweiseitigen 95 %-Vertrauensbereiches des Koeffizienten

95 % ucl

Obere Grenze des zweiseitigen 95 %-Vertrauensbereiches des Koeffizienten

Wald ²

Prüfgröße für den Signifikanztests des Koeffizienten

DF

Anzahl der Freiheitsgrade für den Signifikanztest der Koeffizienten

P

Ergebnis des Signifikanztests der Koeffizienten (P-Wert)

Tabelle 3-1: Erläuterung zum Inhalt des Fensters Übersicht/Eingabe

3.2.1 Wald-Signifikanztest Mit dem Wald-Signifikanztest prüfen wir die Signifikanz der Modellparameter. Die Hypothesen für den Test lauten:  

Nullhypothese H0: Der Wert des Koeffizienten ist Null Alternativhypothese H1: Der Wert des Koeffizienten ist ungleich Null

Um die Nullhypothese zu prüfen, berechnen wir die Prüfgröße des Wald-Signifikanztests: 𝑐 2 2 𝜒𝑊 =( ) 𝑠𝑒 Formel 3-1: Prüfgröße des Signifikanztests nach Wald

Diese Prüfgröße hat einen Freiheitsgrad.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

13/28

Als nächstes ermitteln wir den P-Wert mit der Verteilungsfunktion der Chi-QuadratVerteilung: 2 𝑃 = 1 − 𝐺(𝜒𝑤 ; 𝑑𝑓 = 1)

Formel 3-2: P-Wert Ermittlung für den Wald-Signifikanztest

Für das Deuten des Testergebnisses verwenden wir üblicher Weise das folgende Schema: P-Wert

Aussage

Größer als 0,05

Keine Signifikanz – Die Nullhypothese konnte nicht verworfen werden.

Kleiner oder gleich 0,05

Indifferentes Prüfergebnis – Die Nullhypothese wird auf dem Signifikanzniveau kleiner gleich 5 % verworfen.

Kleiner oder gleich 0,01

Signifikantes Prüfergebnis – Die Nullhypothese wird auf dem Signifikanzniveau kleiner gleich 1 % verworfen.

Kleiner oder gleich 0,001

Hoch signifikantes Prüfergebnis – Die Nullhypothese wird auf dem Signifikanzniveau kleiner gleich 0,1 % verworfen.

Abbildung 3-12: Deutung des Wald-Signifikanztests

3.2.2 Vorhersagewerte (Fit) des Modells Wir öffnen nun die Grafik der Prognosewerte, mit der wir die Wahrscheinlichkeit für ein Tor in Abhängigkeit der Distanz vom Tor abschätzen können. Menüband Grafiken | Befehlsgruppe Lineares Modell | Befehl Modellgrafiken | Predicted Probability

Abbildung 3-13: Ansicht des Befehls für das Aufrufen des Vorhersagemodells (siehe Formel 2-1 im Abschnitt 2.2)

Im Menüband Grafikeinstellungen haben wir Zugriff auf Einstellungen für den darzustellenden Inhalt.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

14/28

Abbildung 3-14: Ansicht der Grafik Predicted Probability, in der wir die Vorhersagewahrscheinlichkeit für ein Tor in Abhängigkeit von der Variablen Distanz zum Tor sehen

Die Grafik zeigt uns nun die Wahrscheinlichkeit für ein Tor in Abhängigkeit von der Distanz des Schützen zum Tor. Je näher der Schütze dem Tor ist, desto wahrscheinlicher ist der Torerfolg. Bei einer Distanz kleiner als 45 m ist die Torwahrscheinlichkeit größer als 0,5. Wir berechnen einen konkreten Prognosewert für einen gegebenen Distanzwert x mit der Formel 2-1: Logistische Funktion aus dem Abschnitt 2.2 𝑝(𝑥) =

𝑒 6,497−0,141𝑥 1 + 𝑒 6,497−0,141𝑥

Formel 3-3: Logistische Funktion - Prognose der Torwahrscheinlichkeit in Abhängigkeit von der Distanz zum Tor

In der Grafik der Vorhersagewahrscheinlichkeit stellen wir mit den nachfolgend dargestellten Einstellungsoptionen zusätzlich die beobachteten relativen Häufigkeiten der Tore in Abhängigkeit von der Distanz dar:

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

15/28

Abbildung 3-15: Darstellung der Vorhersagewahrscheinlichkeiten für die Ereignisse Tor (blau) und kein Tor (rot), und der beobachteten relativen Häufigkeiten

3.2.3 Den Odds-Ratio bestimmen und darstellen Den Wert der Odds-Funktion erhalten wir gemäß der Formel 2-2: Odds-Funktion aus dem Abschnitt 2.2. Wenn wir in diese Funktion z.B. nacheinander die Werte x und x+1 einsetzten und die Ergebnisse beider Funktionswerte durcheinander teilen, erhalten wir den Wert des Odds-Ratios. Speziell für das Fallbeispiel gilt: 𝑂𝑑𝑑𝑠𝑅𝑎𝑡𝑖𝑜 =

𝑒 𝛽0 +𝛽1 (𝑥1 +1) = 𝑒 [𝛽0 +𝛽1 (𝑥1 +1)−𝛽0 −𝛽1 (𝑥1 )] = 𝑒 [𝛽1 ] = 𝑒 −0,141 = 0,868 𝑒𝛽0 +𝛽1 (𝑥1 )

Formel 3-4: Berechnung der Größe Odds-Ratio für das Fallbeispiel

Die Odds-Ratio-Grafik rufen wir wie folgt auf: Menüband Grafiken | Befehlsgruppe Modellgrafiken | Befehl Modellparameter | Odds Ratio

Abbildung 3-16: Aufruf des Befehls Odds Ratios

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

16/28

Zunächst erscheint das Fenster SelectGrid, in dem wir die Einflussgröße Distanz mit einem Mausklick in der Spalte Sel aktivieren und die Auswahl mit OK bestätigen.

Abbildung 3-17: Fenster SelectGrid – hier aktivieren wir die Distanz mit einem Mausklick

Das Programm öffnet das Fenster Odds Ratio:

Abbildung 3-18: Fenster Odds-Ratio, darin der Schätzer (Punkt) mit den Grenzen des zweiseitigen 95 % Vertrauensbereiches des Odds-Ratios

In der Grafik erkennen wir, dass der Odds-Ratio-Wert als dicker Punkt und davon links und rechts die beiden Grenzen des zweiseitigen 95 %-Vertrauensbereiches dargestellt sind. Da der Vertrauensbereich den Wert 1,0 nicht enthält, ist der Odds-Ratio statistisch signifikant (dem Niveau kleiner gleich 5 %). Interpretation: Werden für die Einflussgröße Distanz x größere Werte gewählt, so wird das Chancenverhältnis für ein Tor schlechter. Hinweis: In einem anderen Fall mag das Verhältnis größer als 1 sein; wobei jedoch die gleiche Regel gilt: Die Signifikanz ist gegeben, wenn der Vertrauensbereich den Wert 1,0 nicht enthält. Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

17/28

Wir lassen uns vom Programm den numerischen Wert des Odds-Ratios zusammen mit den beiden Grenzwerten des zweiseitigen 95 %-Vertrauensbereiches ausgeben: Menüband Grafiken | Befehlsgruppe Modellgrafiken | Befehl Modellparameter | Odds Ratio

Abbildung 3-19: Fenster mit den numerischen Werten des Odds Ratios (Spalte OR), angezeigt mit den beiden Grenzwerten des zweiseitigen 95 %-Vertrauensbereiches (Spalten OR LCL und OR UCL)

In dem Fenster sind die Level L1 und L2 für die Einflussgröße Distanz dargestellt, was besagt, dass damit der Odds-Ratio errechnet wurde (x = 32 und x+1 = 33). Ausgangspunkt für die Wahl genau dieser Werte ist die Tatsache, dass x = 32 der Median aller Distanzwerte ist.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

18/28

4. Ausgewählte Kenngrößen der logistischen Regression Eine allgemeine Übersicht der Kenngrößen ist in dem Fenster Modellinformation enthalten. Um dieses Fenster aufzurufen, wählen wir: Menüband Grafiken | Befehlsgruppe Lineares Modell | Befehl Parameterliste | Model information

Abbildung 4-1: Übersichtsfenster Model Information mit Kenngrößen zur Logistischen Regression

Die „Packungsdichte“ an Informationen in diesem Fenster ist sehr hoch. Aus diesem Grund erstrecken sich die Erläuterungen zu den einzelnen Größen in diesem Fenster auf mehrere Abschnitte.

4.1

Kenngrößen der Modellanpassung

4.1.1 Kenngröße Log-Likelihood (LL oder Log L) Der Wert dieser Größe ist für sich allein nicht aussagekräftig. Im Zusammenhang mit Testverfahren und als Baustein für weitere Kenngrößen ist sie jedoch bedeutsam. 𝑁

𝐿𝐿 = ∑{𝑌𝑖 × 𝑙𝑛[𝑝(𝑥𝑖 )] + (1 − 𝑌𝑖 ) × 𝑙𝑛[1 − 𝑝(𝑥𝑖 )]} 𝑖=1

Formel 4-1: Berechnung der Log-Likelihood-Funktion

Hierin sind die Beobachtungswerte der Zielgröße als Yi angegeben und die mit dem Modell berechneten Prognosewerte (eng. Fit) als p(xi) gemäß der Formel 3-3 auf der Seite 4. Hinweis: Diese Größe kann mit destra nicht ausgeben werden. 4.1.2 Kenngröße Devianz (Deviance; -2LL oder -2 Log L) Dies ist der mit einem negativen Vorzeichen versehene zweifache Wert der Kenngröße Log-Likelihood. Wieder gilt: Der Wert an sich ist nicht aussagekräftig interpretierbar. Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

19/28

Verwenden wir diese Größe jedoch für den Vergleich von mindestens zwei unterschiedlich komplexen Modellen, so kann man diese Größe analog deuten wie etwa die Reststreuung in einem „normalen“ linearen Regressionsmodell (Residual sum of squares SSE): Allgemeine Deutung: Je kleiner die Devianz eines Modells, desto besser. 𝑁

−2𝐿𝐿 = −2 × ∑{𝑌𝑖 × 𝑙𝑛[𝑝(𝑥𝑖 )] + (1 − 𝑌𝑖 ) × 𝑙𝑛[1 − 𝑝(𝑥𝑖 )]} 𝑖=1

Formel 4-2: Berechnung der Deviance -2LL oder -2 Log L

Im Fallbeispiel erhalten wir für das Modell die Devianz: −2𝐿𝐿(𝑀𝑜𝑑𝑒𝑙𝑙) = 332,8266 Enthält der Modellansatz allein die Konstante 𝛽0 als einzigen Parameter, so sprechen wir von einem Basis- oder Nullmodell. Für das Basismodell erhalten wir die Devianz: −2𝐿𝐿(𝐵𝑎𝑠𝑖𝑠𝑚𝑜𝑑𝑒𝑙𝑙) = 446,2485 Hinweis: Die Devianz des Basismodells kann mit destra nicht angezeigt werden. 4.1.3 Kenngröße Likelihood Ratio Mit den im vorherigen Abschnitt vorgestellten Devianz-Werten berechnen wir die Kenngröße Likelihood Ratio. 2 𝜒𝑑𝑓 = {−2𝐿𝐿(𝐵𝑎𝑠𝑖𝑠𝑚𝑜𝑑𝑒𝑙𝑙) − [−2𝐿𝐿(𝑀𝑜𝑑𝑒𝑙𝑙)]}

Formel 4-3: Bestimmung der Größe Likelihood Ratio

𝑑𝑓 = 𝐴𝑛𝑧𝑎ℎ𝑙 𝑀𝑜𝑑𝑒𝑙𝑙𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟 − 1 Formel 4-4: Anzahl der Freiheitsgrade für die Größe Likelihood Ratio

Mit den Daten des Fallbeispiels erhalten wir: 2 𝜒𝑑𝑓 = {−2𝐿𝐿(𝐵𝑎𝑠𝑖𝑠𝑚𝑜𝑑𝑒𝑙𝑙) − [−2𝐿𝐿(𝑀𝑜𝑑𝑒𝑙𝑙)]} = 446,2485 − 332,8266 = 113,4219

Hinweis: Der Likelihood-Ratio kann mit destra nicht angezeigt werden. 4.1.4 Informationskriterien AIC und SC In diesem Abschnitt betrachten wir zum einen das Informationskriterium nach Akaike (Akaike Information Criterion AIC) und das Schwarz’sche Informationskriterium (Schwarz Criterion SC). Letzteres wird in der Literatur auch als Bayes‘sches Informationskriterium (Bayes Information Criterion BIC) bezeichnet wird. Die Werte dieser beiden Informationskriterien (AIC und SC) können wir für sich allein nicht sinnvoll interpretieren. Vergleichen wir mindestens zwei unterschiedlich komplexe Modelle miteinander, so lässt sich mit diesen Größen das „beste Modell“ identifizieren.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

20/28

Informationskriterium nach Akaike (Akaike Information Criterion AIC) Wie oben erwähnt, können wir den Wert an sich nicht sinnvoll deuten. 𝐴𝐼𝐶 = −2𝐿𝐿(𝑀𝑜𝑑𝑒𝑙𝑙) + 2 × 𝐴𝑛𝑧𝑎ℎ𝑙 𝑀𝑜𝑑𝑒𝑙𝑙𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟 = 332,8266 + 2 × 2 = 336,8266 Formel 4-5: Akaike Information Criterion (AIC)

Für den Vergleich mehrerer Modellansätze gilt: 

Je kleiner der AIC-Wert, desto besser ist das Modell

Schwarz’sches Informationskriterium (Schwarz Criterion SC) Wie schon erwähnt, wird diese Größe auch als Bayes’sches Informationskriterium (Bayes Information Criterion BIC) bezeichnet. Im Vergleich zum AIC wird hier die Anzahl der ModellKoeffizienten stärker bestraft. 𝑁

𝑆𝐶 = −2𝐿𝐿(𝑀𝑜𝑑𝑒𝑙𝑙) + 𝐴𝑛𝑧𝑎ℎ𝑙 𝑀𝑜𝑑𝑒𝑙𝑙𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟 × 𝑙𝑛 (∑ 𝑓𝑖 ) 𝑖=1

Formel 4-6: Schwarz Kriterium (auch Bayes Information Criterion BIC)

Hierin ist fi die Häufigkeit der i-ten Beobachtung. Wieder ist der Wert an sich nicht zu deuten, sondern nur im Zusammenhang mit dem Vergleich verschieden komplexer Modelle bedeutsam: 

4.2

Je kleiner der SC-Wert, desto besser ist das Modell.

Konkordanz- und Korrelationsmaße

Allgemein sind in diesem Abschnitt Kenngrößen beschrieben, mit denen wir die Prognosefähigkeit des angepassten Modells beurteilen können. Zur Vorbereitung werden die Beobachtungsdaten anhand der Zielgrößenwert-Kategorien in Gruppen aufgeteilt und anschließend paarweise miteinander verglichen. Beginnen wir mit dem Bilden der Zielgrößenwert-Gruppen: 1. Nein-Wert-Gruppe: Alle Beobachtungsfälle mit dem Zielgrößenwert Tor = nein 2. Ja-Wert-Gruppe: Alle Beobachtungsfälle mit dem Zielgrößenwert Tor = ja Anhand des berechneten Modells errechnen wir für jeden Beobachtungsfall den zugehörigen Prognosewert (Fit), indem wir in die Modellgleichung (siehe Formel 3-3 auf der Seite 14) den Wert der Einflussgröße Distanz x einsetzen.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

21/28

Paarbildung anhand der Zielgrößenwerte

Distanz Tor

Ja-WertGruppe (Tor = ja)

Distanz

Tor

p(xi)

15 15 ⁞ 53

ja ja ⁞ ja

0,98758654 0,98758654 ⁞ 0,26999083

Nein-Wert-Gruppe (Tor = nein) 23 23 … nein nein … 0,96251879

0,96251879

⁞

⁞

…

57 nein 0,17363897

… … ⁞ …

⁞

Tabelle 4-1: Bilden der Zielwert-Gruppen für den paarweisen Vergleich; die Aufteilung nach Gruppen richtet sich nach den Werten der beobachteten Zielgrößenwerte Tor

Anhand der Tabelle 4-1 ist ersichtlich, dass der Datensatz anhand der Zielgrößenkategorie i zwei Gruppen aufgeteilt wurde: 1. Ja-Wert-Gruppe mit nTor = ja = 358 Werten 2. Nein-Wert-Gruppe mit nTor = nein = 89 Werten Multiplizieren wir beide Gruppenhäufigkeiten miteinander, so erhalten wir die Anzahl der möglichen Paarkombinationen np: 𝑛𝑝 = 𝑛 𝑇𝑜𝑟 =𝑗𝑎 × 𝑛 𝑇𝑜𝑟=𝑛𝑒𝑖𝑛 = 358 × 89 = 31 862 Formel 4-7: Anzahl der insgesamt möglichen Kombinationen für paarweise Vergleiche

Wir können uns die Anzahl der möglichen Paarkombinationen np mit Bezug auf die Tabelle 4-1 veranschaulichen: Die Anzahl entspricht der Anzahl Zellen in dem fett umrahmten, aber leeren Zellbereich. Die Paare entstehen, indem wir jeden Spaltenwert mit jedem Zeilenwert kombinieren. Anzahl übereinstimmender Paare (konkordanter Paare) Für ein beliebiges Paar gilt: Ist der Prognosewert p(xi) aus der Nein-Wert-Gruppe kleiner als der Prognosewert p(xk) aus der Ja-Wert-Gruppe, so wird das betrachtete Paar als konkordant gezählt. In unserem Fallbeispiel sind nc = 26160 übereinstimmende (konkordante) Paare vorhanden. Anzahl ungleicher Paare (diskonkordante Paare) Für ein beliebiges Paar gilt: Ist der Prognosewert p(xi) aus der Nein-Wert-Gruppe größer als der Prognosewert p(xk) aus der Ja-Wert-Gruppe, so wird das betrachtete Paar als diskonkordant gezählt. In dem Fallbeispiel sind nd = 4994 nicht übereinstimmende (diskonkordante) Paare vorhanden.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

22/28

Anzahl gleicher Paare (Ties) Für ein beliebiges Paar gilt: Ist der Prognosewert p(xi) aus der Nein-Wert-Gruppe gleich dem Prognose-Wert p(xk) aus der Ja-Wert-Gruppe, so wird das betrachtete Paar als gleichwertig gezählt. In dem Fallbeispiel sind nt = 31862 – 26160 - 4994 = 708 gleichwertige (ties) Paare vorhanden. Hinweis: Die Absolut-Werte der Paar-Häufigkeitszählungen können mit destra nicht angezeigt werden. 4.2.1 Anteil übereinstimmender Paare (konkordanter Paare) Diese Größe erhalten wir wie folgt: % 𝑛𝑐 =

𝑛𝑐 26160 × 100 % = × 100 % ≈ 82,10 % 𝑛𝑝 31862

Formel 4-8: Prozentualer Anteil konkordanter Paare der Zielgröße

 

nc = Anzahl konkordanter Paare np = Anzahl der möglichen Paarkombinationen (siehe oben)

4.2.2 Anteil nicht übereinstimmender Paare (diskonkordanter Paare) Diesen Prozentwert erhalten wir wie folgt: % 𝑛𝑑 =

𝑛𝑑 4994 × 100 % = × 100 % ≈ 15,67 % 𝑛𝑝 31862

Formel 4-9: Prozentualer Anteil diskonkordanter Paare der Zielgröße

 

nd = Anzahl diskonkordanter (nicht übereinstimmender) Paare np = Anzahl der möglichen Paarkombinationen

4.2.3 Anteil gleicher Paare (Ties) Den Wert dieser Größe erhalten wir aus folgender Beziehung: % 𝑛𝑡 =

𝑛𝑡 708 × 100 % = × 100 % ≈ 2,22 % 𝑛𝑝 31862

Formel 4-10: Prozentualer Anteil gleicher Paare der Zielgröße

 

nt = Anzahl Paare mit gleichen Prognosewerten np = Anzahl der möglichen Paarkombinationen

4.2.4 Beziehungsmaße Anhand der zuvor betrachteten Paar-Informationen werden Kenngrößen für die Stärke der Beziehung berechnet, die wir analog dem Korrelationskoeffizienten nach Pearson deuten: Werte nahe 1 sprechen für eine stark konkordante Beziehung zwischen den beobachteten

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

23/28

und prognostizierten Zielgrößenwerten und Werte nahe -1 sind ein Indiz für eine stark diskonkordante Beziehung der beobachteten und prognostizierten Zielgrößenwerte. 4.2.4.1 Kenngröße D nach Somer Wir verwenden diesen Wert um die Stärke und Richtung der Beziehung zwischen den Paaren zu bestimmen. Der Wert variiert im Bereich von -1 (rein diskonkordante Beziehung) bis +1 (rein konkordante Beziehung). 𝐷𝑆 =

(𝑛𝑐 − 𝑛𝑑 ) (26160 − 4994) = ≈ 0,6643 𝑛𝑝 31862

Formel 4-11: Kenngröße D nach Somer

Wir freuen uns über einen Wert nahe 1, da dies für eine gute Übereinstimmung zwischen Beobachtung und Prognose spricht. 4.2.4.2 Kenngröße Gamma nach Goodman und Kruskal Dieser Wert beschreibt die Wirkrichtung und Stärke der Beziehung zwischen den Paaren. Der Wert reicht von -1 (rein diskonkordante Beziehung) bis 1 (rein konkordante Beziehung). 𝛾=

(𝑛𝑐 − 𝑛𝑑 ) (26160 − 4994) = ≈ 0,6794 (𝑛𝑐 + 𝑛𝑑 ) (26160 + 4994)

Formel 4-12: Kenngröße Gamma nach Goodman und Kruskal

4.2.4.3 Kenngröße Tau nach Kendall Die Größe Tau ist der Rang-Korrelationskoeffizient nach Kendall. Dieser wird wie folgt berechnet: 𝜏=

2 × (𝑛𝑐 − 𝑛𝑑 ) 2 × (26160 − 4994) = ≈ 0,2123 [𝑁 × (𝑁 − 1)] [447 × (447 − 1)]

Formel 4-13: Kenngröße Tau nach Kendall

Hierin ist N die Anzahl der beobachteten Fälle, in unserem Fallbeispiel haben wir N = 447 Beobachtungen. Der Wert liegt im Intervall von +1 (bei ausschließlich konkordanten Paaren) bis -1 (bei ausschließlich diskonkordanten Paaren). Im Falle einer guten Übereinstimmung zwischen Prognose- und Beobachtungswerten sollte der Wert in der Nähe von +1 liegen. 4.2.4.4 Kenngröße Concordant C Der Wert dieser Größe liegt im Bereich von 0.5 bis 1. Ein Wert nahe 0,5 spricht für zufällige Vorhersagen der Zielgröße und ein Wert nahe 1 für eine gute Prognosegenauigkeit der Zielgrößenkategorie. 𝑐=

[𝑛𝑐 + 0,5 × (𝑛𝑝 − 𝑛𝑐 − 𝑛𝑑 )] [26160 + 0,5 × (31862 − 26160 − 4994)] = ≈ 0,8322 𝑛𝑝 31862

Formel 4-14: Kenngröße Concordant c

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

4.3

24/28

(Pseudo-) Bestimmtheitsmaße

Die in diesem Abschnitt vorgestellten Kenngrößen werden in der Literatur als PseudoBestimmtheitsmaße bezeichnet. Zu deuten sind diese analog dem Bestimmtheitsmaß bei einer „normalen“ linearen Regression. Jedoch gilt für eine logistische Regression, dass oft schon bei einem Bestimmtheitsmaß größer als 0,2 durchaus eine gute Anpassung gegeben ist. Ab einem Wert größer als 0,5 gilt das Modell als sehr gut angepasst. 4.3.1 Bestimmtheitsmaß nach Cox und Snell 2 𝑅𝐶𝑆 =1−𝑒

{

−2𝐿𝐿(𝑀𝑜𝑑𝑒𝑙𝑙)−[−2𝐿𝐿(𝐵𝑎𝑠𝑖𝑠𝑚𝑜𝑑𝑒𝑙𝑙)] } 𝑁

=1−𝑒

332.8266−446.2485 { } 447

≈ 0,2241

Formel 4-15: Bestimmheitsmaß nach Cox und Snell

4.3.2 Bestimmtheitsmaß nach Nagelkerke Das Bestimmtheitsmaß nach Cox und Snell kann nicht den Maximalwert +1 erreichen. Diese „Schwäche“ wurde durch die von Nagelkerke vorgeschlagene Korrektur beseitigt. 𝑅𝑁2

2 𝑅𝐶𝑆

= 1

−2𝐿𝐿(𝐵𝑎𝑠𝑖𝑠𝑚𝑜𝑑𝑒𝑙𝑙) {−[ ]} 𝑁 −𝑒

=

0,2241 1−𝑒

[−(

446,2485 )] 447

≈ 0,3549

Formel 4-16: Bestimmtheitsmaß nach Nagelkerke

4.3.3 Bestimmtheitsmaß nach McFadden 2 𝑅𝑀𝐶 =1−

−2𝐿𝐿(𝑀𝑜𝑑𝑒𝑙𝑙) 332,8266 =1− ≈ 0,2542 −2𝐿𝐿(𝐵𝑎𝑠𝑖𝑠𝑚𝑜𝑑𝑒𝑙𝑙) 446,2485

Formel 4-17: Bestimmtheitsmaß nach McFadden

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

4.4

25/28

Testen der Anpassungsgüte des Modells

Die mit Deviance und Pearson bezeichneten Verfahren im Fenster Modellinformationen prüfen die Anpassungsgüte unseres Modells. Konkret testen wir hier:  

Nullhypothese H0: Das Modell ist konsistent mit den Daten Alternativhypothese H1: Das Modell ist nicht konsistent mit den Daten

Bei einem Anpassungstest wünschen wir uns, dass die Nullhypothese nicht verworfen wird. Anders ausgedrückt: Wir freuen uns über einen großen P-Wert. Ist der P-Wert des jeweiligen Tests größer als das gewählte Signifikanzniveau (meist α = 0,05), so behalten wir die Nullhypothese bei. 4.4.1 Kontingenztabelle Zunächst erzeugen wir uns Kontingenztabellen mit beobachteten und erwarteten Häufigkeiten. Die beobachteten Häufigkeiten Oi erfassen wir durch Auszählen: Wir zählen, wie oft für die Distanz 15 m das Ereignis kein Tor (Tor = nein) und wie oft das Ereignis Tor (Tor = ja) beobachtet wurde. Diese Zählungen führen wir für jeden Distanzwert aus und erhalten dadurch g = 43 Zeilen mit Häufigkeitszählungen, wie in der folgenden Tabelle gezeigt: Index Stufe Distanz 1 2 ⁞ 42 43

15 16 ⁞ 56 57

Beobachtete Häufigkeiten Tor = nein Tor = ja Zeilensumme 0 22 22 0 5 5 ⁞ ⁞ ⁞ 2 0 2 3 0 3

Tabelle 4-2: Tabelle der beobachteten Häufigkeiten (Auszug)

Im nächsten Schritt bestimmen wir die erwarteten Häufigkeiten Ei, indem wir die Zeilensummen pro Stufe aus der Tabelle 4-2 mit den Prognosewerten (Fit)1 miteinander multiplizieren:  

𝐸𝑖 (𝑇𝑜𝑟 = 𝑗𝑎) = 𝑛𝑖 × 𝑝(𝑥𝑖 ) 𝐸𝑖 (𝑇𝑜𝑟 = 𝑛𝑒𝑖𝑛) = 𝑛𝑖 × [1 − 𝑝(𝑥𝑖 )]

Mit ni = Zeilensumme der Stufe i aus der Tabelle 4-2 und xi = Distanzwert der Stufe i Index Stufe

Distanz

1 2 ⁞ 42 43

15 16 ⁞ 56 57

Erwartete Häufigkeit Tor = nein Tor = ja 0,281287977 21,71871202 0,073492343 4,926507657 ⁞ ⁞ 1,619577958 0,380422042 2,491842273 0,508157727

Zeilensumme 22 5 ⁞ 2 3

Tabelle 4-3: Tabelle der erwarteten Häufigkeiten (Auszug)

1 Wir berechnen für jeden Distanzwert x mit der Formel 3-3 den Wert p(x). Version: 1.12 © 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

26/28

4.4.2 Anpassungstest nach Pearson Für das Bilden der Prüfgröße berechnen wir für jeden Stufenwert der Einflussgröße Distanz mit den beobachteten Häufigkeiten Oi aus der Tabelle 4-2 und den erwarteten Häufigkeiten Ei aus der Tabelle 4-3 die folgende Größe. 2 𝜒𝑖.𝑇𝑜𝑟 = 𝑛𝑒𝑖𝑛

(𝑂𝑖.𝑇𝑜𝑟=𝑛𝑒𝑖𝑛 − 𝐸𝑖.𝑇𝑜𝑟=𝑛𝑒𝑖𝑛 )2 = 𝐸𝑖.𝑇𝑜𝑟=𝑛𝑒𝑖𝑛 2

2 𝜒𝑖.𝑇𝑜𝑟 = 𝑗𝑎

(𝑂𝑖.𝑇𝑜𝑟=𝑗𝑎 − 𝐸𝑖.𝑇𝑜𝑟=𝑗𝑎 ) = 𝐸𝑖.𝑇𝑜𝑟=𝑗𝑎

Formel 4-18: Bildung des Chi-Quadrat-Wertes für die Stufe i

Index Stufe

Distanz

1 2 ⁞ 42 43

15 16 ⁞ 56 57

Chi-Quadrat-Werte Tor = nein Tor = ja 0,281287977 0,003643076 0,073492343 0,001096339 ⁞ ⁞ 0,089357187 0,380422042 0,103627857 0,508157727

Tabelle 4-4: Tabelle der Chi-Quadrat-Werte (Auszug)

Die Prüfgröße bestimmen wir durch Addieren aller Chi-Quadrat-Werte aus der Tabelle 4-4: 𝑔=43

𝜒𝑃2

2 2 = ∑ 𝜒𝑖.𝑇𝑜𝑟=𝑛𝑒𝑖𝑛 + 𝜒𝑖.𝑇𝑜𝑟=𝑗𝑎 ≈ 43,11 𝑖=1

Formel 4-19: Prüfgröße Chi-Quadrat für den Pearson-Anpassungstest

Die Anzahl der Freiheitsgrade für unsere Prüfgröße ergibt sich aus der Anzahl der Stufenwerte g minus der Anzahl geschätzter Modellparameter k. Im Fallbeispiel haben wir g = 43 Stufenwerte der Einflussgröße Distanz und k = 2 geschätzte Modellparameter: 0 und 1. Somit erhalten wir die folgende Anzahl Freiheitsgrade: 𝑑𝑓 = 𝑔 − 𝑘 = 43 − 2 = 41 Formel 4-20: Anzahl der Freiheitsgrade für den Anpassungstest nach Pearson

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

27/28

Nun ermitteln wir mit der Verteilungsfunktion der Chi-Quadrat-Verteilung den P-Wert: 𝑃 = 1 − 𝐺(𝜒𝑃2 = 43,11; 𝑑𝑓 = 41) ≈ 1 − 0,6188 = 0,3812 Formel 4-21: P-Wert-Ermittlung für den Anpassungstest nach Pearson

Für das Deuten des P-Wertes im Sinne eines Testergebnisses verwenden wir üblicher Weise das folgende Schema: P-Wert

Aussage

Größer als 0,05

Keine Signifikanz – Die Nullhypothese konnte nicht verworfen werden.

Kleiner oder gleich 0,05

Indifferentes Prüfergebnis – Die Nullhypothese wird auf dem Signifikanzniveau kleiner gleich 5 % verworfen.

Kleiner oder gleich 0,01

Signifikantes Prüfergebnis – Die Nullhypothese wird auf dem Signifikanzniveau kleiner gleich 1 % verworfen.

Kleiner oder gleich 0,001

Hoch signifikantes Prüfergebnis – Die Nullhypothese wird auf dem Signifikanzniveau kleiner gleich 0,1 % verworfen.

Abbildung 4-2: Schema für das Deuten des Pearson-Signifikanztest

Der P-Wert ist größer als das hier gewählte Signifikanzniveau 𝛼 = 0,05. Aus diesem Grund verwerfen wir die Nullhypothese H0 nicht: unser Modell ist konsistent mit den Daten. 4.4.3 Test auf Anpassungsgüte: Deviance Ein dem Pearson-Test sehr ähnliches Verfahren ist der Deviance-Anpassungstest. Die Prüfgröße ist hier: 𝑔=43

𝑂𝑖.𝑇𝑜𝑟=𝑗𝑎 𝑂𝑖.𝑇𝑜𝑟=𝑛𝑒𝑖𝑛 𝜒𝐷2 = 2 × ∑ [𝑂𝑖.𝑇𝑜𝑟=𝑛𝑒𝑖𝑛 × ln ( ) + 𝑂𝑖.𝑇𝑜𝑟=𝑗𝑎 × ln ( )] ≈ 48,29 𝐸𝑖.𝑇𝑜𝑟=𝑛𝑒𝑖𝑛 𝐸𝑖.𝑇𝑜𝑟=𝑗𝑎 𝑖=1

Formel 4-22: Bestimmung der Deviance-Prüfgröße für den Test auf Anpassungsgüte

Für die Formel 4-22 nehmen wir die beobachteten Häufigkeiten Oi aus der Tabelle 4-2 und die erwarteten Häufigkeiten Ei wieder aus der Tabelle 4-3. Mit den Daten des Fallbeispiels erhalten wir die Prüfgröße 𝜒𝐷2 = 48,29. Hinweis: Im Programm (Fenster Modellinformationen) ist die Prüfgröße des Deviance-Tests mit G² bezeichnet und nicht wie hier in der Unterlage mit 𝜒𝐷2 . Die Anzahl der Freiheitsgrade für unsere Prüfgröße ergibt sich aus der Anzahl der Stufen g minus der Anzahl geschätzter Modellparameter k. Im Fallbeispiel haben wir g = 43 Stufenwerte der Einflussgröße Distanz und k = 2 geschätzte Modellparameter: 0 und 1. Somit erhalten wir die folgende Anzahl Freiheitsgrade: 𝑑𝑓 = 𝑔 − 𝑘 = 43 − 2 = 41 Formel 4-23: Anzahl der Freiheitsgrade für den Deviance-Anpassungstest

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82

Logistische Regression

28/28

Im nächsten Schritt ermitteln wir mit der Verteilungsfunktion der Chi-Quadrat-Verteilung den P-Wert: 𝑃 = 1 − 𝐺(𝜒𝐷2 = 48,29; 𝑑𝑓 = 41) ≈ 1 − 0,798 = 0,202 Formel 4-24: P-Wert-Ermittlung für den Deviance-Anpassungstest

Für das Deuten des P-Wertes im Sinne eines Testergebnisses verwenden wir üblicher Weise das folgende Schema: P-Wert

Aussage

Größer als 0,05

Keine Signifikanz – Die Nullhypothese konnte nicht verworfen werden.

Kleiner oder gleich 0,05

Indifferentes Prüfergebnis – Die Nullhypothese wird auf dem Signifikanzniveau kleiner gleich 5 % verworfen.

Kleiner oder gleich 0,01

Signifikantes Prüfergebnis – Die Nullhypothese wird auf dem Signifikanzniveau kleiner gleich 1 % verworfen.

Kleiner oder gleich 0,001

Hoch signifikantes Prüfergebnis – Die Nullhypothese wird auf dem Signifikanzniveau kleiner gleich 0,1 % verworfen.

Abbildung 4-3: Deutung des Deviance-Signifikanztests

Auch beim Deviance-Test wird die Nullhypothese nicht verworfen.

Version: 1.12

© 2015 Q-DAS GmbH, 69469 Weinheim

Doku-Nr.:

QDOC-572-82