Statistik & Methodenlehre Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung.

Mathematische und statistische Methoden I Dr. Malte Persike

} [email protected]  http://psymet03.sowi.uni-mainz.de/

WS 2010/2011 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

Statistik & Methodenlehre Kennwerte

Multiple Regression

Polynomische Regression

Kennwerte der multiplen Regression 1. Der multiple Korrelationskoeffizient R

Test der Gewichte gegen Null

Definition: Der multiple Korrelationskoeffizient R repräsentiert die Korrelation zwischen dem Kriterium y und allen Prädiktoren x1…xk Dabei berücksichtigt R etwaige Interkorrelationen zwischen den Prädiktoren (und entfernt sie) Der multiple Korrelationskoeffizient R ist definiert als

Ry⋅ x1x2 …xk =

k

∑β r j =1

j xj y

Er ist mathematisch äquivalent zur Korrelation zwischen den gemessenen y-Werten und den vorhergesagten ydach-Werten, also

Ry⋅ x1x2 …xk = ryyˆ

Statistik & Methodenlehre Kennwerte

Multiple Regression

Polynomische Regression

Kennwerte der multiplen Regression 2. Der multiple Determinationskoeffizient R²

Test der Gewichte gegen Null

Definition: Der multiple Determinationskoeffizient R² repräsentiert die Varianzaufklärung, die alle Prädiktoren x1…xk am Kriterium y leisten Der multiple Determinationskoeffizient R² ist definiert als

R2 =

Erklärte Streuung Fehlerstreuung = 1− Gesamt-Streuung Gesamt-Streuung

Rechnerisch:

1 n ( y − yˆ ) 2 ∑ Var ( yˆ ) Var (e) n i =1 2 R = = 1− = n Var ( y ) Var ( y ) 1 2 y y − ( ) ∑ n i =1

Statistik & Methodenlehre Kennwerte

Multiple Regression

Polynomische Regression

Kennwerte der multiplen Regression 3. Abhängigkeit

Test der Gewichte gegen Null

a) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß-Gewichte Erklärung: Bei perfekt unabhängigen Prädiktoren ist die Prädiktorinterkorrelationsmatrix Rxx gleich der Identitätsmatrix I. Damit gilt für den multiplen Korrelationskoeffizienten R Und R² ist einfach die Summe der quadrierten Kriteriumskorrelationen

β = I × rxy ⇔ β = rxy k

2 r ∑ xj y

Ry⋅ x1x2 …xk =

j =1

k

Ry2⋅ x1x2 …xk = ∑ rx2j y j =1

Statistik & Methodenlehre Kennwerte

Multiple Regression

Polynomische Regression

Kennwerte der multiplen Regression 3. Abhängigkeit

Test der Gewichte gegen Null

a) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß-Gewichte b) Sind die Prädiktoren abhängig (interkorreliert), so sind 3 Fälle zu unterscheiden: 1. Der Prädiktor klärt zumindest Teile der Varianz am Kriterium auf, die andere Prädiktoren nicht aufklären: er ist nützlich. 1. Der Prädiktor enthält Information, die bereits andere Prädiktoren enthalten: er ist redundant 2. Der Prädiktor unterdrückt irrelevante Varianz in anderen Prädiktoren: er ist ein Suppressor

Statistik & Methodenlehre Kennwerte

Multiple Regression

Polynomische Regression

Kennwerte der multiplen Regression 3a. Nützlichkeit

Test der Gewichte gegen Null

Nützlichkeit = Der Beitrag, den eine Variable zur Varianzaufklärung des Kriteriums leistet, der von den anderen Variablen nicht geleistet wird Die Nützlichkeit einer Variablen xj berechnet sich als

U j = Ry2, x1,2,...,k + j − Ry2, x1,2,...,k − j Uj ist also der Betrag, um den R² wächst, wenn die Variable xj in die multiple Regressionsgleichung aufgenommen wird.

Statistik & Methodenlehre Kennwerte

Multiple Regression

Polynomische Regression

Kennwerte der multiplen Regression 3b. Redundanz

Test der Gewichte gegen Null

Redundanz = die vielen Variablen messen Aspekte gemeinsam, so dass man prinzipiell weniger Prädiktoren benötigte → unerwünschter Aspekt Die Variable xj ist redundant zur Vorhersage von Variable y wenn gilt

β x ⋅ rx y < r j

j

2 xj y

Prädiktoren enthalten empirisch nahezu immer gemeinsame Varianzanteile und sind somit „teilweise redundant“. Echte Redundanz liegt aber erst gemäß obiger Definition vor. Multikollinearität: Die Kovarianz eines Prädiktors mit dem Kriterium ist in den anderen Prädiktoren (fast) vollständig enthalten → extremer Fall von Redundanz.

Statistik & Methodenlehre Kennwerte

Multiple Regression

Polynomische Regression

Kennwerte der multiplen Regression 3c. Suppression

rx1 y

Test der Gewichte gegen Null

rx2 y=0

rx1 x2 x1

X2

Y

x2 „bindet“ irrelevante Prädiktorinformation

x2 hängt nicht mit y zusammen, trotzdem erhöht sie R²

Statistik & Methodenlehre Kennwerte

Multiple Regression

Polynomische Regression

Kennwerte der multiplen Regression 3c. Suppression

Test der Gewichte gegen Null

Defintion: Eine Variable xj ist ein Suppressor, wenn gilt:

U x j > rx2j y Die Zunahme der erklärten Varianz durch Aufnahme der Variable ist also größer als die einzelne Varianzaufklärung. Vereinfachung: Bei nur zwei Prädiktoren x1 und x2 ist x2 ein Supressor, wenn gilt:

rx1z . x2 > rx1z ⋅

1- rx21x2 1- rx22 z

Statistik & Methodenlehre Kennwerte

Multiple Regression

Polynomische Regression

Statistischer Test der Gewichte Fragestellung

Test der Gewichte gegen Null

Neben der Aussage über die Nützlichkeit eines Prädiktors ist man oft daran interessiert, ob er überhaupt mit dem Kriterium zusammenhängt Grundgedanke: Ein Prädiktor, der in keiner Verbindung zum Kriterium steht, sollte den Wert βj = 0 haben. Ein Prädiktor, der an der Veränderung des Kriteriums beteiligt ist, sollte einen Wert βj ≠ 0 haben. Problem: Allein aufgrund der zufälligen Auswahl der Merkmalsträger für die Stichprobe wird ein β-Gewicht niemals perfekt Null sein („Stichprobenfehler“).

Statistik & Methodenlehre Kennwerte

Multiple Regression

Polynomische Regression

Statistischer Test der Gewichte Fragestellung

Test der Gewichte gegen Null

Frage: Wie unterschiedlich zu Null muss ein β-Gewicht sein, damit wir begründet annehmen können, dass diese Abweichung nicht zufällig ist? Es existieren einfache statistische Verfahren zur (probabilistischen) Beantwortung dieser Fragestellung Ebenso kann geprüft werden, ob der multiple Korrelationskoeffizient zufällig zustande gekommen ist oder auf tatsächlichen systematischen Zusammenhängen zwischen Kriterium und Prädiktoren beruht

Statistik & Methodenlehre

Multiple Regression

Grundlagen

Nichtlineare Regression

Polynomische Regression

Grundlagen

Linearisierbare Formen

Polynome

Bei einer Reihe psychologischer Fragestellungen ergeben sich nichtlineare Zusammenhänge zwischen UV & AV. Beispiele: Reaktionszeit, Blutalkohol und psychomotorische Leistungen, Fehlerraten in Leistungstests bei verschiedenen Aufgabenschwierigkeiten Solche nichtlinearen Zusammenhänge lassen sich in zwei Klassen einteilen: 1. Zusammenhänge, die sich durch eine einfache (nichtlineare) Transformationen in lineare Zusammenhänge überführen lassen 2. Zusammenhänge, für die eine nichtlineare Regressionsgleichung gelöst werden muss.

Statistik & Methodenlehre

Multiple Regression

Grundlagen

Nichtlineare Regression

Polynomische Regression

Linearisierbare und polynomische Formen

Linearisierbare Formen

Fall 1: Linearisierende Transformation, z.B.

yˆ = b0 ⋅ x ⎯⎯⎯ → ln ( yˆ ) = ln ( b0 ) + b1 ⋅ ln ( x ) b1

ln ( • )

Polynome

(hier nicht behandelt)

Fall 2: Nicht (einfach) linearisierbar

yˆ = b0 + b1 ⋅ x + b2 ⋅ x 2

Statistik & Methodenlehre

Multiple Regression

Grundlagen

Nichtlineare Regression

Polynomische Regression

Beispiel: Logistische Regression

1 0.8 0.6

Linearisierbare Formen

Polynome

Gemessene Daten verlaufen ogivenförmig und variieren zwischen 0 und 1

0.4 0.2 0 0

Umformung der y-Werte durch Logarithmieren bewirkt eine Linearisierung der Daten

10

20

30

40

0

20

40

60

6 4

Mithilfe dieser neuen y-Werte kann eine lineare Regression bestimmt werden, um die Parameter b0 und b1 zu errechnen

2 0 -2 -4 -6 -8

-20

Statistik & Methodenlehre

Multiple Regression

Grundlagen

Polynomische Regression

Polynomische Regression

Grundlagen und Durchführung

Linearisierbare Formen

Häufig können Merkmalszusammenhänge durch Polynome 2. oder 3. Ordnung gut beschrieben werden, d.h.

yˆ = b0 + b1 ⋅ x + b2 ⋅ x 2

Polynome oder

yˆ = b0 + b1 ⋅ x + b2 ⋅ x 2 + b3 ⋅ x3 Dies ist formal eine lineare multiple Regression, allerdings nicht mit mehreren Prädiktoren, sondern mit einem Prädiktor sowie Transformationen seiner selbst.

Statistik & Methodenlehre

Multiple Regression

Grundlagen

Polynomische Regression

Polynomische Regression

Grundlagen und Durchführung

Linearisierbare Formen

Polynome

Eine solche polynomische Regression wird berechnet, indem die transformierten Prädiktorterme bestimmt werden Dann wird eine übliche lineare multiple Regression durchgeführt Die Einträge der Korrelationsmatrix sind dabei dann die Korrelationen des Prädiktors mit sich selbst in den transformierten Formen Es können alle von Kennwerte und Gütemaße der multiplen Regression bestimmt werden. Die polyn. Regression ist auch über die KQ-Methode (inkl. Normalgleichungen) herzuleiten. Dies führt auf dasselbe Ergebnis wie der hier verfolgte Ansatz.