Mais-NP
Multiple Regression ! Zweidimensionale lineare Regression • • • • • • • • •
Modell Bestimmung der Regressionsebene Multiples Bestimmtheitsmaß Test des Bestimmtheitsmaßes Vertrauensintervalle für die Koeffizienten Test des Achsenabschnitts Test der partiellen Regressionskoeffizienten Residuenanalyse Quadratische Regression
! Dreidimensionale lineare Regression • •
Modell Kubische Regression
! Multiple Regression • • •
Modell Eindimensionale Regression in Matrizenschreibweise Multiple Regression in Matrizenschreibweise
! Multikollinearität ! Spezielle Methoden der multiplen Regression • • •
Standardisierte partielle Regressionskoeffizienten Sequentielle SQ-Werte und partielle Tests Tests bei der multiplen Regression
MTB > Print 'Ertrag' 'N' 'P' 'Fits' 'St.Res.'. Data Display Row
Ertrag
N
P
Fits
St.Res.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
30.2 39.6 40.7 16.7 33.1 53.0 42.0 34.6 36.7 34.9 27.7 41.9 36.8 59.6 41.3 54.3 40.8 56.3 51.9 54.2 44.7 54.9 49.4 78.4 77.4 58.7 62.8
0 0 0 0 0 0 0 0 0 50 50 50 50 50 50 50 50 50 100 100 100 100 100 100 100 100 100
0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150
29.5259 29.5259 29.5259 34.9593 34.9593 34.9593 40.3926 40.3926 40.3926 40.9593 40.9593 40.9593 46.3926 46.3926 46.3926 51.8259 51.8259 51.8259 52.3926 52.3926 52.3926 57.8259 57.8259 57.8259 63.2593 63.2593 63.2593
0.07336 1.09633 1.21604 -1.92531 -0.19605 1.90226 0.17493 -0.63039 -0.40185 -0.63890 -1.39809 0.09919 -0.98186 1.35186 -0.52126 0.26087 -1.16260 0.47176 -0.05361 0.19669 -0.83716 -0.30852 -0.88845 2.16939 1.53889 -0.49617 -0.04998
Mais-NP - Graphik
Mais-NP - Regressionsanalyse MTB > Name c9 = 'Fits' c10 = 'St.Res.' MTB > Regress 'Ertrag' 2 'N' 'P' SUBC> Fits 'Fits'; SUBC> SResiduals 'St.Res.'; SUBC> Constant; SUBC> DW.
62.9750 Ertrag 32.1250
75
Regression Analysis
N 25
The regression equation is Ertrag = 29.5 + 0.229 N + 0.0724 P
112.5 P 37.5
0 125 32.
25
0 975 62.
75
.5 37
2. 5 11
Predictor Constant N P
Coef 29.526 0.22867 0.07244
StDev 3.832 0.04693 0.03129
S = 9.956
R-Sq = 54.8%
T 7.71 4.87 2.32
P 0.000 0.000 0.029
R-Sq(adj) = 51.0%
Analysis of Variance
80 70 60 50
Ertrag
40 30
Source Regression Error Total
DF 2 24 26
SS 2884.4 2378.9 5263.3
Source N P
DF 1 1
Seq SS 2353.0 531.4
MS 1442.2 99.1
20 0 0
50
P
50
100 150
N 100
Durbin-Watson statistic = 2.13
F 14.55
P 0.000
Multiples Bestimmtheitsmaß
Test des Bestimmtheitsmaßes
j (yˆi & y¯ )
2
j (yi & y¯ )
2
H0: $1 = $2 = 0 bzw. B = 0 H1: $1 … 0 oder $2 … 0 bzw. B > 0
n
B '
SQRegression erklärte Variation ' ' Gesamtvariation SQ y
i'1
i'1
'
b1 SPyx % b2 SPyx 1
2
SQ y
'
n
MQRegression
Testgröße: F0 '
'
MQRest
SQRegression / 2 SQRest / (n !3)
2
' ryyˆ
Ablehnung von H0, wenn F0 > F2,n!3;1!" Analysis of Variance
MTB > Correlation 'Ertrag' 'Fits'.
Correlation of Ertrag and Fits = 0.740
Source Regression Error Total
MTB > Name k1 'B' MTB > Let 'B' = 0.74**2 MTB > Print 'B'.
MQRegression '
Correlations (Pearson)
Data Display B
MQRest '
0.547600 F0 '
DF 2 24 26
SS 2884.4 2378.9 5263.3
SQRegression FGRegression
SQRest
MQRest
F 14.55
P 0.000
2884.4 ' 1442.2 2
'
2378.9 ' 99.1 24
'
1442.2 ' 14.55 > 3.40 ' F2,24;0.95 99.1
FGRest
MQRegression
'
MS 1442.2 99.1
Bestimmtheitsmaß auf " = 5% signifikant größer als 0 siehe auch p-Wert
Test des Achsenabschnitts H0: $0 = $*
H0(1): $1 = $1* | x2 ist in der Gleichung H0(2): $2 = $2* | x1 ist in der Gleichung
Testgröße: t0 '
b0 ! $( sb
(
Testgröße: t0 '
0
H1: $0 < $*, falls t0 < !tn!3;1!" H1: $0 > $*, falls t0 > tn!3;1!" H1: $0 … $*, falls |t0| > tn!3;1!"/2 Predictor Constant N P t0 '
b0 sb0
'
Test der partiellen Regressionskoeffizienten
Coef 29.526 0.22867 0.07244
StDev 3.832 0.04693 0.03129
bi ! $i sb
i
H1: $i < $i*, falls t0 < !tn!3;1!" H1: $i > $i*, falls t0 > tn!3;1!" H1: $i … $i*, falls |t0| > tn!3;1!"/2 T 7.71 4.87 2.32
P 0.000 0.000 0.029
29.526 ' 7.71 > 2.06 ' t24;0.975 3.832
Achsenabschnitt auf " = 5% signifikant verschieden von 0 siehe auch p-Wert
Predictor Constant N P (1)
t0
(2)
t0
'
b1 b2 sb2
StDev 3.832 0.04693 0.03129
T 7.71 4.87 2.32
P 0.000 0.000 0.029
'
0.22867 ' 4.87 > 2.06 ' t24;0.975 0.04693
'
0.07244 ' 2.32 > 2.06 ' t24;0.975 0.03129
sb1 '
Coef 29.526 0.22867 0.07244
Beide partiellen Regressionskoeffizienten auf " = 5% signifikant verschieden von 0 siehe auch p-Wert
Mais-NP - Graphische Residuenanalyse Mais - NP: Residuenplot I Chart of Residuals
Normal Plot of Residuals 2
Residual
Residual
1 0 -1
4 3 2 1 0 -1 -2
3.0SL=3.233 4 4
X=0.002273
-3 -4
-2 -2
-1
0
1
2
-3.0SL=-3.228
0
10
Normal Score
20
30
Observation Number
Histogram of Residuals
Residuals vs. Fits
7
2 1
5
Residual
Frequency
6 4 3 2
0 -1
1 0
-2 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0
30
40
Residual
50
60
Fit
Mais-NP: Shapiro-Wilk-Test auf Normalverteilung Mais - NP: Shapiro-Wilk-Test
.999 .99
Probability
.95 .80 .50 .20 .05 .01 .001 -2
-1
0
1
2
St.Res. Average: 0.0022732 StDev: 1.01276 N: 27
W-test for Normality R: 0.9837 P-Value (approx): > 0.1000
Mais-NP: Durbin-Watson-Test auf Autokorrelation
Ertrag-Stickstoff MTB > Print 'Ertrag' 'N'.
dwo = 1.47 < 2.13 < 2.68 = 4 ! dwu
Mais-NP: Runs-Test auf Zufälligkeit MTB > Runs 0 'St.Res.'. Runs Test St.Res. K =
0.0000
The observed number of runs = 16 The expected number of runs = 14.3333 12 Observations above K 15 below The test is significant at 0.5077 Cannot reject at alpha = 0.05
Data Display Row
Ertrag
N
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
30.5 44.5 53.5 61.0 73.0 79.5 82.5 88.0 94.0 96.5 98.5 94.5 95.0 88.5 85.0 78.5
50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200
100 90 80
Ertrag
dw = 2.13 . 2, also keine Autokorrelation
70 60 50 40 30 50
100
150
N
200
Mais-NPK
Ertrag-Stickstoff - Quadratische Regression MTB > Print
MTB > Name c3 'N^2' MTB > Let 'N^2' = N**2 MTB > Regress 'Ertrag' 2 'N' 'N^2'; SUBC> Constant.
'Ertrag' 'N' 'P' 'K'.
Data Display Row
Ertrag
N
P
K
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
30.2 39.6 40.7 16.7 33.1 53.0 42.0 34.6 36.7 34.9 27.7 41.9 36.8 59.6 41.3 54.3 40.8 56.3 51.9 54.2 44.7 54.9 49.4 78.4 77.4 58.7 62.8
0 0 0 0 0 0 0 0 0 50 50 50 50 50 50 50 50 50 100 100 100 100 100 100 100 100 100
0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150 0 0 0 75 75 75 150 150 150
0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100 0 50 100
Regression Analysis The regression equation is Ertrag = - 51.8 + 1.97 N - 0.00655 N^2 Predictor Coef Constant -51.811 N 1.96674 N^2 -0.0065546 S = 1.733
StDev 3.340 0.05811 0.0002294
R-Sq = 99.4%
T -15.51 33.85 -28.58
P 0.000 0.000 0.000
R-Sq(adj) = 99.3%
Analysis of Variance Source Regression Error Total
DF 2 13 15
SS MS F 6113.9 3056.9 1017.34 39.1 3.0 6152.9 Regression Plot Y = -51.8109 + 1.96674X - 6.55E-03X**2 R-Sq = 0.994
100
90
Ertrag
80
70
60
50
40
30 50
100
150
N
200
P 0.000
Mais-NPK - Graphik
62.9750 Ertrag 32.1250 75 N 25 112.5 P 37.5 75 K 25
25
50 50 .12 .97 32 62
75
.5 37
2.5 11
25
Mais-NPK - Lineare Regression MTB > Regress 'Ertrag' 3 'N' 'P' 'K' Regression Analysis The regression equation is Ertrag = 26.4 + 0.229 N + 0.0724 P + 0.0630 K Predictor Constant N P K
Coef 26.376 0.22867 0.07244 0.06300
StDev 4.414 0.04611 0.03074 0.04611
S = 9.781
R-Sq = 58.2%
T 5.97 4.96 2.36 1.37
P 0.000 0.000 0.027 0.185
R-Sq(adj) = 52.7%
Analysis of Variance Source Regression Error Total
DF 3 23 26
SS 3063.0 2200.3 5263.3
MS 1021.0 95.7
F 10.67
P 0.000
75
Multikollinearität
Multikollinearität 2 MTB > Regress 'y' 1 'x_1'; SUBC> Constant.
Data Display Row
y
x_1
x_2
1 2 3 4 5 6 7 8 9 10
302 338 362 361 422 380 408 447 495 480
14 15 26 23 30 33 33 38 42 46
32 33 35 36 40 41 44 44 47 48
Regression Analysis The regression equation is y = 234 + 5.53 x_1
x_1 x_2
Coef 233.65 5.5282
StDev 20.88 0.6594
S = 21.14
R-Sq = 89.8%
T 11.19 8.38
P 0.000 0.000
R-Sq(adj) = 88.5%
Analysis of Variance Source Regression Error Total
Correlations (Pearson) y 0.948 0.947
Predictor Constant x_1
DF 1 8 9
SS 31417 3576 34993
MS 31417 447
F 70.29
P 0.000
MTB > Regress 'y' 1 'x_2'; SUBC> Constant.
x_1 0.972
Regression Analysis The regression equation is y = - 9.7 + 10.2 x_2
446.75 y 350.25
38
Predictor Constant x_2
Coef -9.70 10.230
StDev 49.42 1.224
S = 21.20
R-Sq = 89.7%
T -0.20 8.36
P 0.849 0.000
R-Sq(adj) = 88.4%
x_1 22
Analysis of Variance
44 x_2 36
.25 350
. 75 446
22
38
36
44
Source Regression Error Total
DF 1 8 9
SS 31396 3597 34993
MS 31396 450
F 69.83
P 0.000
Betriebseinkommen
Multikollinearität 3
MTB > Describe 'BE'-'GV'.
MTB > Regress 'y' 2 'x_1' 'x_2'; SUBC> Constant.
Descriptive Statistics Regression Analysis Variable BE LN AK GV
The regression equation is y = 109 + 2.84 x_1 + 5.13 x_2 Predictor Constant x_1 x_2
Coef 109.4 2.836 5.126
StDev 128.8 2.833 5.244
S = 21.20
R-Sq = 91.0%
T 0.85 1.00 0.98
P 0.424 0.350 0.361
N 80 80 80 80
Mean Median TrMean 65915 68391 66126 52.81 54.00 53.03 3.069 3.000 3.097 40.36 40.50 40.69
StDev SEMean 18277 2043 15.93 1.78 1.058 0.118 10.01 1.12
MTB > Regress 'BE' 3 'LN' 'AK' 'GV'; SUBC> Constant.
R-Sq(adj) = 88.4% Regression Analysis
Analysis of Variance Source Regression Error Total
DF 2 7 9
SS 31846 3146 34993
Source x_1 x_2
DF 1 1
Seq SS 31417 429
MS 15923 449
F 35.43
P 0.000
The regression equation is BE = - 2171 + 484 LN + 5156 AK + 661 GV Predictor Constant LN AK GV S = 5590
Coef -2171 484.48 5156 661.0
StDev 2728 51.44 1066 123.4
R-Sq = 91.0%
T -0.80 9.42 4.83 5.36
P 0.429 0.000 0.000 0.000
R-Sq(adj) = 90.6%
Multiple Standard-Regressionsgleichung
Standardisierte Regressionskoeffizienten Standardisierte partielle Regressionskoeffizienten )
bk 'bk @
sx
k
sy
(k '1,2,ÿ,m)
MTB MTB MTB MTB
> > > >
Name Name Name Name
c5 c6 c7 c8
'BE_s' 'LN_s' 'AK_s' 'GV_s'
MTB > Center 'BE'-'GV' 'BE_s'-'GV_s'. Multiple Standard-Regressionsgleichung ¯ ¯ ¯ y& ˆ y¯ ) x &x ) x &x ) x &x ' b1 @ 1 1 %b2 @ 2 2 % ÿ% bm @ m m sx sx sx sy 1 1 m
MTB > Regress 'BE_s' 3 'LN_s' 'AK_s' 'GV_s'; SUBC> Constant. Regression Analysis The regression equation is BE_s = 0.00 + 0.42 LN_s + 0.30 AK_s + 0.36 GV_s
Betriebseinkommen: DM DM DM y' ˆ &2171 DM% 484 @ x1 %5156 @ x2 % 661 @ x3 ha AK GV
Standardisiertes Betriebseinkommen: x &52.81 x & 3.069 x &40.36 y& ˆ 65915 ' 0.42@ 1 %0.30 @ 2 % 0.36@ 3 18277 15.93 1.058 10.01
Predictor Constant LN_st AK_st GV_st S = 0.3058
Coef 0.00000 0.42221 0.29835 0.36214
StDev 0.03419 0.04483 0.06171 0.06759
R-Sq = 91.0%
T 0.00 9.42 4.83 5.36
P 1.000 0.000 0.000 0.000
R-Sq(adj) = 90.6%
Analysis of Variance Source Regression Error Total
DF 3 76 79
SS 71.891 7.109 79.000
Source LN_s AK_s GV_s
DF 1 1 1
Seq SS 52.558 16.648 2.685
MS 23.964 0.094
F 256.19
P 0.000
Sequentielle SQ-Werte
Partielles Bestimmtheitsmaß
SQ-Anteil an SQRegression, der zusätzlich von einer einzelnen Variablen erklärt wird
Anteil der durch Einflußgröße erklärten Gesamtvariation, wenn Einfluß der anderen Größen eliminiert ist Quadrat des partiellen Korrelationskoeffizienten
seq
SQb 'SQb |b ,b ,ÿ,b k
k
0
1
k&1
seq
(k' 1,2,ÿ,m) seq
zweidimensional:
seq m|b0,b1,ÿ,bm&1
SQRegression|b 'SQb |b %SQb |b ,b %ÿ %SQb 1 0 2
0
0
1
Source LN_s AK_s GV_s
DF Seq SS Reihenfolge LN, AK, GV 1 52.558 1 16.648 1 2.685 -------3 71.891
Regression
1
1 2
2
2
1
Analysis of Variance
DF 3 76 79
Source GV_s AK_s LN_s
2
1 2
Source Regression Error Total
Regression
2
ryx &ryx @ rx x
(1& rx x )@ (1& ryx )
Analysis of Variance SS 71.891 7.109 79.000
part 2 Byx2.x1 'ryx2.x1 '
MS 23.964 0.094
F 256.19
P 0.000
DF Seq SS Reihenfolge GV, AK, LN 1 61.218 1 2.375 1 8.298 -------71.891
Source Regression Error Total
DF 3 76 79
SS 71.891 7.109 79.000
MS 23.964 0.094
F 256.19
Source LN_s AK_s GV_s
DF Seq SS 1 52.558 1 16.648 1 2.685
Reihenfolge LN, AK, GV
Source GV_s AK_s LN_s
DF Seq SS 1 61.218 1 2.375 1 8.298
Reihenfolge GV, AK, LN
BBE,LN BBE,AK|LN BBE,GV|LN,AK
= 52.558 / 79.000 = 0.665 = 66.5% = 16.648 / 79.000 = 0.211 = 21.1% = 02.685 / 79.000 = 0.034 = 03.4%
BBE,GV BBE,AK|GV BBE,LN|GV,AK
= 61.218 / 79.000 = 0.775 = 77.5% = 02.375 / 79.000 = 0.030 = 03.0% = 08.298 / 79.000 = 0.105 = 10.5%
P 0.000
3 91.0%
Globaltest H0: $k = 0 œ k = 1, 2,..., m bzw. B = 0 H1: › k 0 {1, 2,..., m} $k … 0 bzw. B > 0 Testgröße: F0 '
MQRegression MQRest
'
SQRegression / m SQRest / (n !m &1)
Globaltest und Partialtests MTB > Regress 'BE_s' 3 'LN_s' 'AK_s' 'GV_s'; SUBC> Constant. Regression Analysis The regression equation is BE_s = 0.00 + 0.42 LN_s + 0.30 AK_s + 0.36 GV_s
Ablehnung von H0, wenn F0 > Fm,n-m-1;1!"
Partialtests
Predictor Constant LN_st AK_st GV_st S = 0.3058
H0 : $k = $k (k)
*
(k = 1, 2,..., m)
Testgröße: t0(k) '
Coef 0.00000 0.42221 0.29835 0.36214
StDev 0.03419 0.04483 0.06171 0.06759
R-Sq = 91.0%
Partialtests T P 0.00 1.000 9.42 0.000 4.83 0.000 5.36 0.000
R-Sq(adj) = 90.6%
Analysis of Variance
( bk !$k
sb k
H1(k): $k < $k*, falls t0(k) < !tn!m!1;1!" H1(k): $k > $k*, falls t0(k) > tn!m!1;1!" H1(k): $k … $k*, falls |t0(k)| > tn!m!1;1!"/2 Faustregel: H0 ablehnen, wenn |t0| > 2
! bei Multikollinearität sind die Tests abhängig
Source Regression Error Total
DF 3 76 79
SS 71.891 7.109 79.000
Source LN_s AK_s GV_s
DF 1 1 1
Seq SS 52.558 16.648 2.685
MS 23.964 0.094
Globaltest F P 256.19 0.000
Verallgemeinerter partieller F-Test
Partieller F-Test Fragestellung:
Welchen zusätzlichen Anteil an der Abweichungsquadratsumme erklärt ein Regressor, unter der Voraussetzung, daß alle anderen Regressoren bereits in der Regressionsgleichung sind?
Fragestellung:
Verbessert die Aufnahme der letzten r Regressoren das Bestimmtheitsmaß wesentlich?
Verbessert die Aufnahme eines Regressors xk zu den übrigen bereits vorhandenen Regressoren x1, x2,..., xk-1 das Bestimmtheitsmaß wesentlich?
H0: $k&r%1 'ÿ '$k '0 | y' ˆ b0 % b1x1 % ÿ% bkxk
H0: $k '0 | y' ˆ b0 % b1x1 % b2x2 % ÿ% bkxk (r)
(k) F0
durch letzten Regressor erklärte zusätzl. Var. / 1 ' ' unerklärte Variation / (n&m&1) seq SQb k|b0,b1,ÿ,bk&1
'
/ 1
'
SQRest / (n& m& 1) (B &Bk&1) / 1
'
(1 &B) / (n& m& 1)
seq SQb k|b0,b1,ÿ,bk&1
'
)B (1& B) / (n &m &1)
partieller F-Test identisch mit partiellem t-Test des letzten Regressors, da (k)
t0 '
bk sb k
(k)
' F0
und
F0
'
tn&m&1;1&"/2 ' F1,n&m&1;1&"
durch letzte r Regressoren erkl. zusätzl. Var. / r ' unerklärte Variation / (n&m&1) j SQletzte r Regressoren / r
j SQletzte r Regressoren / r
seq
'
r
'
seq
' SQRest / (n& m& 1)
MQRest '
Welchen zusätzlichen Anteil an der Abweichungsquadratsumme erklären die letzten r Regressoren, unter der Voraussetzung, daß alle anderen Regressoren bereits in der Regressionsgleichung sind?
(B &Bk&r) / r (1 &B) / (n& m& 1)
'
r
' MQRest
)B (1& B) / (n &m &1)
Partielle F-Tests Analysis of Variance Source Regression Error Total
DF 3 76 79
SS 71.891 7.109 79.000
Source LN_s AK_s GV_s
DF 1 1 1
Seq SS 52.558 16.648 2.685
MS 23.964 0.094
F 256.19
P 0.000
LN und AK in der Regressionsgleichung: 2.685 '28.6 0.094 also signifikante Verbesserung (p klein) durch Aufnahme von GV F0 '
Nur LN in der Regressionsgleichung: (16.648% 2.685)/2 9.667 ' '102.8 0.094 0.094 also signifikante Verbesserung (p klein) durch Aufnahme von AK und GV F0 '