Multiple Regression Mais-NP Zweidimensionale lineare Regression Data Display Dreidimensionale lineare Regression Multiple Regression

Mais-NP Multiple Regression ! Zweidimensionale lineare Regression • • • • • • • • • Modell Bestimmung der Regressionsebene Multiples Bestimmtheitsma...

Author: Sabine Fuchs

0 downloads 1 Views 99KB Size

Report

Download PDF

Recommend Documents

Multiple lineare Regression

Multiple Regression. SPSS output. Multiple Regression Multiple Regression Model:

Die multiple lineare Regression mit Individualdaten

Lineare Regression I

3. Lineare Regression

Lineare Regression. Y = b 0

Multiple Regression Analysis

Nichtlineare Regression: flexibler aber auch anspruchsvoller als die lineare Regression

Multiple Regression Analysis

Collinearity and Multiple Regression

Multiple Regression Analysis

Practice Questions: Multiple Regression

Section 4: Multiple Linear Regression

Inference in the Multiple-Regression

Lecture 18: Multiple Logistic Regression

Linear Regression with Multiple Regressors

The Classical Multiple Regression Model

14 Regression, lineare Korrelation und Hypothesen-Testverfahren

2013. Partial least Squares. Multivariate Regression. Multivariate Regression. MLR: Multiple Linear Regression

09. Regression line. Regression. Slope intercept form review. Regression line. Regression line. Regression. y = mx + b

Section D. Handling Multiple Categorical Predictors in Multiple Linear Regression: ANOVA as a Regression Model

Models ANOVA. Comparing the Two Procedures. Dummy Coding. Multiple Regression ANOVA. Multiple Regression with Qualitative Variables

Mais-NP

Multiple Regression ! Zweidimensionale lineare Regression • • • • • • • • •

Modell Bestimmung der Regressionsebene Multiples Bestimmtheitsmaß Test des Bestimmtheitsmaßes Vertrauensintervalle für die Koeffizienten Test des Achsenabschnitts Test der partiellen Regressionskoeffizienten Residuenanalyse Quadratische Regression

! Dreidimensionale lineare Regression • •

Modell Kubische Regression

! Multiple Regression • • •

Modell Eindimensionale Regression in Matrizenschreibweise Multiple Regression in Matrizenschreibweise

! Multikollinearität ! Spezielle Methoden der multiplen Regression • • •

Standardisierte partielle Regressionskoeffizienten Sequentielle SQ-Werte und partielle Tests Tests bei der multiplen Regression

MTB > Print 'Ertrag' 'N' 'P' 'Fits' 'St.Res.'. Data Display Row

Ertrag

N

P

Fits

St.Res.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

30.2 39.6 40.7 16.7 33.1 53.0 42.0 34.6 36.7 34.9 27.7 41.9 36.8 59.6 41.3 54.3 40.8 56.3 51.9 54.2 44.7 54.9 49.4 78.4 77.4 58.7 62.8

0 0 0 0 0 0 0 0 0 50 50 50 50 50 50 50 50 50 100 100 100 100 100 100 100 100 100

0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150

29.5259 29.5259 29.5259 34.9593 34.9593 34.9593 40.3926 40.3926 40.3926 40.9593 40.9593 40.9593 46.3926 46.3926 46.3926 51.8259 51.8259 51.8259 52.3926 52.3926 52.3926 57.8259 57.8259 57.8259 63.2593 63.2593 63.2593

0.07336 1.09633 1.21604 -1.92531 -0.19605 1.90226 0.17493 -0.63039 -0.40185 -0.63890 -1.39809 0.09919 -0.98186 1.35186 -0.52126 0.26087 -1.16260 0.47176 -0.05361 0.19669 -0.83716 -0.30852 -0.88845 2.16939 1.53889 -0.49617 -0.04998

Mais-NP - Graphik

Mais-NP - Regressionsanalyse MTB > Name c9 = 'Fits' c10 = 'St.Res.' MTB > Regress 'Ertrag' 2 'N' 'P' SUBC> Fits 'Fits'; SUBC> SResiduals 'St.Res.'; SUBC> Constant; SUBC> DW.

62.9750 Ertrag 32.1250

75

Regression Analysis

N 25

The regression equation is Ertrag = 29.5 + 0.229 N + 0.0724 P

112.5 P 37.5

0 125 32.

25

0 975 62.

75

.5 37

2. 5 11

Predictor Constant N P

Coef 29.526 0.22867 0.07244

StDev 3.832 0.04693 0.03129

S = 9.956

R-Sq = 54.8%

T 7.71 4.87 2.32

P 0.000 0.000 0.029

R-Sq(adj) = 51.0%

Analysis of Variance

80 70 60 50

Ertrag

40 30

Source Regression Error Total

DF 2 24 26

SS 2884.4 2378.9 5263.3

Source N P

DF 1 1

Seq SS 2353.0 531.4

MS 1442.2 99.1

20 0 0

50

P

50

100 150

N 100

Durbin-Watson statistic = 2.13

F 14.55

P 0.000

Multiples Bestimmtheitsmaß

Test des Bestimmtheitsmaßes

j (yˆi & y¯ )

2

j (yi & y¯ )

2

H0: $1 = $2 = 0 bzw. B = 0 H1: $1 … 0 oder $2 … 0 bzw. B > 0

n

B '

SQRegression erklärte Variation ' ' Gesamtvariation SQ y

i'1

i'1

'

b1 SPyx % b2 SPyx 1

2

SQ y

'

n

MQRegression

Testgröße: F0 '

'

MQRest

SQRegression / 2 SQRest / (n !3)

2

' ryyˆ

Ablehnung von H0, wenn F0 > F2,n!3;1!" Analysis of Variance

MTB > Correlation 'Ertrag' 'Fits'.

Correlation of Ertrag and Fits = 0.740

Source Regression Error Total

MTB > Name k1 'B' MTB > Let 'B' = 0.74**2 MTB > Print 'B'.

MQRegression '

Correlations (Pearson)

Data Display B

MQRest '

0.547600 F0 '

DF 2 24 26

SS 2884.4 2378.9 5263.3

SQRegression FGRegression

SQRest

MQRest

F 14.55

P 0.000

2884.4 ' 1442.2 2

'

2378.9 ' 99.1 24

'

1442.2 ' 14.55 > 3.40 ' F2,24;0.95 99.1

FGRest

MQRegression

'

MS 1442.2 99.1

Bestimmtheitsmaß auf " = 5% signifikant größer als 0 siehe auch p-Wert

Test des Achsenabschnitts H0: $0 = $*

H0(1): $1 = $1* | x2 ist in der Gleichung H0(2): $2 = $2* | x1 ist in der Gleichung

Testgröße: t0 '

b0 ! $( sb

(

Testgröße: t0 '

0

H1: $0 < $*, falls t0 < !tn!3;1!" H1: $0 > $*, falls t0 > tn!3;1!" H1: $0 … $*, falls |t0| > tn!3;1!"/2 Predictor Constant N P t0 '

b0 sb0

'

Test der partiellen Regressionskoeffizienten

Coef 29.526 0.22867 0.07244

StDev 3.832 0.04693 0.03129

bi ! $i sb

i

H1: $i < $i*, falls t0 < !tn!3;1!" H1: $i > $i*, falls t0 > tn!3;1!" H1: $i … $i*, falls |t0| > tn!3;1!"/2 T 7.71 4.87 2.32

P 0.000 0.000 0.029

29.526 ' 7.71 > 2.06 ' t24;0.975 3.832

Achsenabschnitt auf " = 5% signifikant verschieden von 0 siehe auch p-Wert

Predictor Constant N P (1)

t0

(2)

t0

'

b1 b2 sb2

StDev 3.832 0.04693 0.03129

T 7.71 4.87 2.32

P 0.000 0.000 0.029

'

0.22867 ' 4.87 > 2.06 ' t24;0.975 0.04693

'

0.07244 ' 2.32 > 2.06 ' t24;0.975 0.03129

sb1 '

Coef 29.526 0.22867 0.07244

Beide partiellen Regressionskoeffizienten auf " = 5% signifikant verschieden von 0 siehe auch p-Wert

Mais-NP - Graphische Residuenanalyse Mais - NP: Residuenplot I Chart of Residuals

Normal Plot of Residuals 2

Residual

Residual

1 0 -1

4 3 2 1 0 -1 -2

3.0SL=3.233 4 4

X=0.002273

-3 -4

-2 -2

-1

0

1

2

-3.0SL=-3.228

0

10

Normal Score

20

30

Observation Number

Histogram of Residuals

Residuals vs. Fits

7

2 1

5

Residual

Frequency

6 4 3 2

0 -1

1 0

-2 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0

30

40

Residual

50

60

Fit

Mais-NP: Shapiro-Wilk-Test auf Normalverteilung Mais - NP: Shapiro-Wilk-Test

.999 .99

Probability

.95 .80 .50 .20 .05 .01 .001 -2

-1

0

1

2

St.Res. Average: 0.0022732 StDev: 1.01276 N: 27

W-test for Normality R: 0.9837 P-Value (approx): > 0.1000

Mais-NP: Durbin-Watson-Test auf Autokorrelation

Ertrag-Stickstoff MTB > Print 'Ertrag' 'N'.

dwo = 1.47 < 2.13 < 2.68 = 4 ! dwu

Mais-NP: Runs-Test auf Zufälligkeit MTB > Runs 0 'St.Res.'. Runs Test St.Res. K =

0.0000

The observed number of runs = 16 The expected number of runs = 14.3333 12 Observations above K 15 below The test is significant at 0.5077 Cannot reject at alpha = 0.05

Data Display Row

Ertrag

N

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

30.5 44.5 53.5 61.0 73.0 79.5 82.5 88.0 94.0 96.5 98.5 94.5 95.0 88.5 85.0 78.5

50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200

100 90 80

Ertrag

dw = 2.13 . 2, also keine Autokorrelation

70 60 50 40 30 50

100

150

N

200

Mais-NPK

Ertrag-Stickstoff - Quadratische Regression MTB > Print

MTB > Name c3 'N^2' MTB > Let 'N^2' = N**2 MTB > Regress 'Ertrag' 2 'N' 'N^2'; SUBC> Constant.

'Ertrag' 'N' 'P' 'K'.

Data Display Row

Ertrag

N

P

K

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

30.2 39.6 40.7 16.7 33.1 53.0 42.0 34.6 36.7 34.9 27.7 41.9 36.8 59.6 41.3 54.3 40.8 56.3 51.9 54.2 44.7 54.9 49.4 78.4 77.4 58.7 62.8

0 0 0 0 0 0 0 0 0 50 50 50 50 50 50 50 50 50 100 100 100 100 100 100 100 100 100

0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150

0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100

Regression Analysis The regression equation is Ertrag = - 51.8 + 1.97 N - 0.00655 N^2 Predictor Coef Constant -51.811 N 1.96674 N^2 -0.0065546 S = 1.733

StDev 3.340 0.05811 0.0002294

R-Sq = 99.4%

T -15.51 33.85 -28.58

P 0.000 0.000 0.000

R-Sq(adj) = 99.3%

Analysis of Variance Source Regression Error Total

DF 2 13 15

SS MS F 6113.9 3056.9 1017.34 39.1 3.0 6152.9 Regression Plot Y = -51.8109 + 1.96674X - 6.55E-03X**2 R-Sq = 0.994

100

90

Ertrag

80

70

60

50

40

30 50

100

150

N

200

P 0.000

Mais-NPK - Graphik

62.9750 Ertrag 32.1250 75 N 25 112.5 P 37.5 75 K 25

25

50 50 .12 .97 32 62

75

.5 37

2.5 11

25

Mais-NPK - Lineare Regression MTB > Regress 'Ertrag' 3 'N' 'P' 'K' Regression Analysis The regression equation is Ertrag = 26.4 + 0.229 N + 0.0724 P + 0.0630 K Predictor Constant N P K

Coef 26.376 0.22867 0.07244 0.06300

StDev 4.414 0.04611 0.03074 0.04611

S = 9.781

R-Sq = 58.2%

T 5.97 4.96 2.36 1.37

P 0.000 0.000 0.027 0.185

R-Sq(adj) = 52.7%

Analysis of Variance Source Regression Error Total

DF 3 23 26

SS 3063.0 2200.3 5263.3

MS 1021.0 95.7

F 10.67

P 0.000

75

Multikollinearität

Multikollinearität 2 MTB > Regress 'y' 1 'x_1'; SUBC> Constant.

Data Display Row

y

x_1

x_2

1 2 3 4 5 6 7 8 9 10

302 338 362 361 422 380 408 447 495 480

14 15 26 23 30 33 33 38 42 46

32 33 35 36 40 41 44 44 47 48

Regression Analysis The regression equation is y = 234 + 5.53 x_1

x_1 x_2

Coef 233.65 5.5282

StDev 20.88 0.6594

S = 21.14

R-Sq = 89.8%

T 11.19 8.38

P 0.000 0.000

R-Sq(adj) = 88.5%

Analysis of Variance Source Regression Error Total

Correlations (Pearson) y 0.948 0.947

Predictor Constant x_1

DF 1 8 9

SS 31417 3576 34993

MS 31417 447

F 70.29

P 0.000

MTB > Regress 'y' 1 'x_2'; SUBC> Constant.

x_1 0.972

Regression Analysis The regression equation is y = - 9.7 + 10.2 x_2

446.75 y 350.25

38

Predictor Constant x_2

Coef -9.70 10.230

StDev 49.42 1.224

S = 21.20

R-Sq = 89.7%

T -0.20 8.36

P 0.849 0.000

R-Sq(adj) = 88.4%

x_1 22

Analysis of Variance

44 x_2 36

.25 350

. 75 446

22

38

36

44

Source Regression Error Total

DF 1 8 9

SS 31396 3597 34993

MS 31396 450

F 69.83

P 0.000

Betriebseinkommen

Multikollinearität 3

MTB > Describe 'BE'-'GV'.

MTB > Regress 'y' 2 'x_1' 'x_2'; SUBC> Constant.

Descriptive Statistics Regression Analysis Variable BE LN AK GV

The regression equation is y = 109 + 2.84 x_1 + 5.13 x_2 Predictor Constant x_1 x_2

Coef 109.4 2.836 5.126

StDev 128.8 2.833 5.244

S = 21.20

R-Sq = 91.0%

T 0.85 1.00 0.98

P 0.424 0.350 0.361

N 80 80 80 80

Mean Median TrMean 65915 68391 66126 52.81 54.00 53.03 3.069 3.000 3.097 40.36 40.50 40.69

StDev SEMean 18277 2043 15.93 1.78 1.058 0.118 10.01 1.12

MTB > Regress 'BE' 3 'LN' 'AK' 'GV'; SUBC> Constant.

R-Sq(adj) = 88.4% Regression Analysis

Analysis of Variance Source Regression Error Total

DF 2 7 9

SS 31846 3146 34993

Source x_1 x_2

DF 1 1

Seq SS 31417 429

MS 15923 449

F 35.43

P 0.000

The regression equation is BE = - 2171 + 484 LN + 5156 AK + 661 GV Predictor Constant LN AK GV S = 5590

Coef -2171 484.48 5156 661.0

StDev 2728 51.44 1066 123.4

R-Sq = 91.0%

T -0.80 9.42 4.83 5.36

P 0.429 0.000 0.000 0.000

R-Sq(adj) = 90.6%

Multiple Standard-Regressionsgleichung

Standardisierte Regressionskoeffizienten Standardisierte partielle Regressionskoeffizienten )

bk 'bk @

sx

k

sy

(k '1,2,ÿ,m)

MTB MTB MTB MTB

> > > >

Name Name Name Name

c5 c6 c7 c8

'BE_s' 'LN_s' 'AK_s' 'GV_s'

MTB > Center 'BE'-'GV' 'BE_s'-'GV_s'. Multiple Standard-Regressionsgleichung ¯ ¯ ¯ y& ˆ y¯ ) x &x ) x &x ) x &x ' b1 @ 1 1 %b2 @ 2 2 % ÿ% bm @ m m sx sx sx sy 1 1 m

MTB > Regress 'BE_s' 3 'LN_s' 'AK_s' 'GV_s'; SUBC> Constant. Regression Analysis The regression equation is BE_s = 0.00 + 0.42 LN_s + 0.30 AK_s + 0.36 GV_s

Betriebseinkommen: DM DM DM y' ˆ &2171 DM% 484 @ x1 %5156 @ x2 % 661 @ x3 ha AK GV

Standardisiertes Betriebseinkommen: x &52.81 x & 3.069 x &40.36 y& ˆ 65915 ' 0.42@ 1 %0.30 @ 2 % 0.36@ 3 18277 15.93 1.058 10.01

Predictor Constant LN_st AK_st GV_st S = 0.3058

Coef 0.00000 0.42221 0.29835 0.36214

StDev 0.03419 0.04483 0.06171 0.06759

R-Sq = 91.0%

T 0.00 9.42 4.83 5.36

P 1.000 0.000 0.000 0.000

R-Sq(adj) = 90.6%

Analysis of Variance Source Regression Error Total

DF 3 76 79

SS 71.891 7.109 79.000

Source LN_s AK_s GV_s

DF 1 1 1

Seq SS 52.558 16.648 2.685

MS 23.964 0.094

F 256.19

P 0.000

Sequentielle SQ-Werte

Partielles Bestimmtheitsmaß

SQ-Anteil an SQRegression, der zusätzlich von einer einzelnen Variablen erklärt wird

Anteil der durch Einflußgröße erklärten Gesamtvariation, wenn Einfluß der anderen Größen eliminiert ist Quadrat des partiellen Korrelationskoeffizienten

seq

SQb 'SQb |b ,b ,ÿ,b k

k

0

1

k&1

seq

(k' 1,2,ÿ,m) seq

zweidimensional:

seq m|b0,b1,ÿ,bm&1

SQRegression|b 'SQb |b %SQb |b ,b %ÿ %SQb 1 0 2

0

0

1

Source LN_s AK_s GV_s

DF Seq SS Reihenfolge LN, AK, GV 1 52.558 1 16.648 1 2.685 -------3 71.891

Regression

1

1 2

2

2

1

Analysis of Variance

DF 3 76 79

Source GV_s AK_s LN_s

2

1 2

Source Regression Error Total

Regression

2

ryx &ryx @ rx x

(1& rx x )@ (1& ryx )

Analysis of Variance SS 71.891 7.109 79.000

part 2 Byx2.x1 'ryx2.x1 '

MS 23.964 0.094

F 256.19

P 0.000

DF Seq SS Reihenfolge GV, AK, LN 1 61.218 1 2.375 1 8.298 -------71.891

Source Regression Error Total

DF 3 76 79

SS 71.891 7.109 79.000

MS 23.964 0.094

F 256.19

Source LN_s AK_s GV_s

DF Seq SS 1 52.558 1 16.648 1 2.685

Reihenfolge LN, AK, GV

Source GV_s AK_s LN_s

DF Seq SS 1 61.218 1 2.375 1 8.298

Reihenfolge GV, AK, LN

BBE,LN BBE,AK|LN BBE,GV|LN,AK

= 52.558 / 79.000 = 0.665 = 66.5% = 16.648 / 79.000 = 0.211 = 21.1% = 02.685 / 79.000 = 0.034 = 03.4%

BBE,GV BBE,AK|GV BBE,LN|GV,AK

= 61.218 / 79.000 = 0.775 = 77.5% = 02.375 / 79.000 = 0.030 = 03.0% = 08.298 / 79.000 = 0.105 = 10.5%

P 0.000

3 91.0%

Globaltest H0: $k = 0 œ k = 1, 2,..., m bzw. B = 0 H1: › k 0 {1, 2,..., m} $k … 0 bzw. B > 0 Testgröße: F0 '

MQRegression MQRest

'

SQRegression / m SQRest / (n !m &1)

Globaltest und Partialtests MTB > Regress 'BE_s' 3 'LN_s' 'AK_s' 'GV_s'; SUBC> Constant. Regression Analysis The regression equation is BE_s = 0.00 + 0.42 LN_s + 0.30 AK_s + 0.36 GV_s

Ablehnung von H0, wenn F0 > Fm,n-m-1;1!"

Partialtests

Predictor Constant LN_st AK_st GV_st S = 0.3058

H0 : $k = $k (k)

*

(k = 1, 2,..., m)

Testgröße: t0(k) '

Coef 0.00000 0.42221 0.29835 0.36214

StDev 0.03419 0.04483 0.06171 0.06759

R-Sq = 91.0%

Partialtests T P 0.00 1.000 9.42 0.000 4.83 0.000 5.36 0.000

R-Sq(adj) = 90.6%

Analysis of Variance

( bk !$k

sb k

H1(k): $k < $k*, falls t0(k) < !tn!m!1;1!" H1(k): $k > $k*, falls t0(k) > tn!m!1;1!" H1(k): $k … $k*, falls |t0(k)| > tn!m!1;1!"/2 Faustregel: H0 ablehnen, wenn |t0| > 2

! bei Multikollinearität sind die Tests abhängig

Source Regression Error Total

DF 3 76 79

SS 71.891 7.109 79.000

Source LN_s AK_s GV_s

DF 1 1 1

Seq SS 52.558 16.648 2.685

MS 23.964 0.094

Globaltest F P 256.19 0.000

Verallgemeinerter partieller F-Test

Partieller F-Test Fragestellung:

Welchen zusätzlichen Anteil an der Abweichungsquadratsumme erklärt ein Regressor, unter der Voraussetzung, daß alle anderen Regressoren bereits in der Regressionsgleichung sind?

Fragestellung:

Verbessert die Aufnahme der letzten r Regressoren das Bestimmtheitsmaß wesentlich?

Verbessert die Aufnahme eines Regressors xk zu den übrigen bereits vorhandenen Regressoren x1, x2,..., xk-1 das Bestimmtheitsmaß wesentlich?

H0: $k&r%1 'ÿ '$k '0 | y' ˆ b0 % b1x1 % ÿ% bkxk

H0: $k '0 | y' ˆ b0 % b1x1 % b2x2 % ÿ% bkxk (r)

(k) F0

durch letzten Regressor erklärte zusätzl. Var. / 1 ' ' unerklärte Variation / (n&m&1) seq SQb k|b0,b1,ÿ,bk&1

'

/ 1

'

SQRest / (n& m& 1) (B &Bk&1) / 1

'

(1 &B) / (n& m& 1)

seq SQb k|b0,b1,ÿ,bk&1

'

)B (1& B) / (n &m &1)

partieller F-Test identisch mit partiellem t-Test des letzten Regressors, da (k)

t0 '

bk sb k

(k)

' F0

und

F0

'

tn&m&1;1&"/2 ' F1,n&m&1;1&"

durch letzte r Regressoren erkl. zusätzl. Var. / r ' unerklärte Variation / (n&m&1) j SQletzte r Regressoren / r

j SQletzte r Regressoren / r

seq

'

r

'

seq

' SQRest / (n& m& 1)

MQRest '

Welchen zusätzlichen Anteil an der Abweichungsquadratsumme erklären die letzten r Regressoren, unter der Voraussetzung, daß alle anderen Regressoren bereits in der Regressionsgleichung sind?

(B &Bk&r) / r (1 &B) / (n& m& 1)

'

r

' MQRest

)B (1& B) / (n &m &1)

Partielle F-Tests Analysis of Variance Source Regression Error Total

DF 3 76 79

SS 71.891 7.109 79.000

Source LN_s AK_s GV_s

DF 1 1 1

Seq SS 52.558 16.648 2.685

MS 23.964 0.094

F 256.19

P 0.000

LN und AK in der Regressionsgleichung: 2.685 '28.6 0.094 also signifikante Verbesserung (p klein) durch Aufnahme von GV F0 '

Nur LN in der Regressionsgleichung: (16.648% 2.685)/2 9.667 ' '102.8 0.094 0.094 also signifikante Verbesserung (p klein) durch Aufnahme von AK und GV F0 '