您的当前位置:首页正文

实验四 回归分析SAS过程(1)

2022-01-30 来源:易榕旅网
课 时 授 课 计 划

课次序号: 10

一、课 题:实验四 回归分析SAS过程(1)

———统计推断与预测

二、课 型:上机实验

三、目的要求:1. 掌握利用SAS建立多元回归方程的方法;

2. 能检验所建立回归方程的显著性与方程系数的显著性,能

根据实际问题作预测与控制.

四、教学重点:会对实际数据建立有效的多元回归模型;能对回归模型进行运用,

对实际问题进行预测或控制.

教学难点:多元回归模型的建立.

五、教学方法及手段:传统教学与上机实验相结合.

六、参考资料:

《应用多元统计分析》,高惠璇编,北京大学出版社,2005; 《使用统计方法与SAS系统》,高惠璇编,北京大学出版社,2001; 《多元统计分析》(二版),何晓群编,中国人民大学出版社,2008; 《应用回归分析》(二版),何晓群编,中国人民大学出版社,2007; 《统计建模与R软件》,薛毅编著,清华大学出版社,2007. 七、作业:2.3(单) 2.4 八、授课记录:

授课日期 班 次 九、授课效果分析:

实验四 回归分析SAS过程(1)2学时

一、实验目的和要求

掌握利用SAS建立多元回归方程的方法,掌握PROC REG过程,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制.

二、实验内容

1. PROC REG过程 一般格式:

PROC REG ; MODEL 因变量=回归变量/ <选项部分> ; 其它选择语句 ;

OUTPUT OUT=SAS数据集名 关键字名=输出数据集中的变量名;

RUN;

(1)PROC REG语句

此语句是PROC REG过程的必需语句,指出要进行分析的数据集.省略此项,SAS系统对最新建立的数据集进行分析.

(2)MODEL语句中的选项部分

该语句定义建模用的因变量、回归变量(自变量)、模型的选择及拟合结果输出的选择. 在关键词“Model”之后,应指明因变量,等号后依次列出回归变量,每个变量间用空格分开.此语句的选项部分提供了最优模型的选择方法和其他拟合结果的输出选项,其中包括:

1) 选择合适的建立模型方法:SELECTION=name

其中“name”可以是FORWARD(或F)、BACKWARD(或B)、STEPWISE、 RSQUARE、ADJRSQ、CP等之一.

 SELECTION=FORWARD SLENTRY=显著性水平

向前选择最优模型法(FORWARD):从仅含常数项的回归模型开始,逐个加入自变

量,对每一个尚不在方程内的自变量按一定显著性水平,根据其一旦进入模型后对模型的贡献大小逐步引入方程,直至再没有对模型有显著贡献的自变量.“SLENTRY=显著性水平”为自变量进入模型的控制水平,写在选择方法语句之后.若省去此句,则SAS系统默认的水平为SLENTRY=0.05.

 SELECTION=BACKWARD SLSTAY=显著性水平

向后删除法(BACKWARD):先建立包含全部自变量的线性回归模型,然后按一定

的显著性水平从模型中逐步剔除变量.缺省SLSTAY =0.1

 SELECTION=STEPWISE SLENTRY =入选水平 SLSTAY=剔除水平 逐步回归法(STEPWISE):按向前选择法(前进法)进入变量,再对模型内所有

变量检验,看是否有因新变量引入而对模型的贡献变得不显著,若有就剔除,若无则保留, 直至方程内所有变量均显著.逐步法有两个控制水平,即选入水平(SLENTRY=入选水平)和剔除水平(SLSTAY=剔除水平),而且剔除水平应低于选入水平.

缺省SLENTRY =0.15 SLSTAY =0.15

 SELECTION=RSQUARE

2在所有可能的回归方程中用Rp 准则选择最优模型的方法.在每一个给定的自变量

个数的水平上,打印出使Rp达到最大的那个回归模型的拟合结果.

2 SELECTION=ADJRSQ:修订的Rp准则选择最优模型法.

2 SELECTION=CP:Cp准则选择最优模型法. 注意:以上方法只可在选项部分写出其中一种,不可并用.

2)对模型选取细节的选项

 DETAILS:对模型选取方法FORWARD、BACKWARD、STEPWISE,若打印出每一步引入和删除自变量及相关信息选用此项.如一个自变量选入模型时的偏F值、模型的R值和一个自变量被剔除时模型R值及有关参数估计的信息.

 NOINT:取消回归模型的常数项,即拟合过原点的回归方程.

223)对估计细节内容的选择:

在选项部分,还可以选择一个或多个(中间用空格分开)参数估计和拟合残差等相关内容,常用的有:

 CORRB:输出参数估计的相关系数矩阵,第i行第j列为i与j相关系数估计.

 COVB:输出估计参数的协方差矩阵,即MSE(XTX)-1.

 P:输出因变量拟合值、观测值、拟合残差.若已选CLI、CLM、R,无需该选项.  R:输出有关残差及用于影响性分析的各量,包括拟合值的标准差、残差、学生化残差(残差除以标准差)及Cook距离(度量了当删除某观测值后,参数估计的总变化量).

T1(XX)β  I:输出矩阵(XX).输出形式为βTSSE注意:以上选择内容可以和最优模型选择方法并用于Model语句的“选项部分”.对BACKWARD、FORWARD、STEPWISE的模型选择方法,以上估计细节内容只是最终选择模型的相应结果;对RSQUARE准则,只给出全模型的相应结果;对于ADJRSQ和CP方

T12法,给出具有最大Ra和Cp值的模型的相应结果.

(3)OUTPUT语句——建立SAS的输出结果数据集

此语句建立一个与估计内容有关的SAS数据集.语句格式为: OUTPUT OUT=SAS数据集名 关键字名=输出数据集中的变量名;  关键字名为需要的统计量名,它们有

PREDICTED(或P)=name:因变量拟合值,指定名称为name; RESIDUAL(或R)=name:残差及指定的名称; STUDENT=name:标准化(或学生化)残差;

L95M=name:因变量期望值的95%的置信区间的置信下限; U95M=name:因变量期望值的95%的置信上限; L95=name:因变量值的95%置信区间的置信下限; U95=name:因变量值的95%的置信区间的置信上限;

COOKD (COOK氏D值)=name:Cooki距离,用于影响性分析的统计量; H=name:杠杆量,即xi(XTX)1xiT,i1,2,,n,xi是设计矩阵X的第i行; PRESS=name:di(p)值,用以估计第i组观测值对拟合值的影响; DFFITS=name:用以估计第i组观测值对参数估计的影响; STDP=name:期望值的标准误差 STDR=name:残差的标准误差; STDI=name:预测值的标准误差;

其中等号前的部分为输出语句的关键词,后面的name飞等号前的变量指定一名称.

以上介绍了一些常用的选项.无论选项如何,PROC REG过程总是自动输出相应模型

的参数估计值及其标准差,检验参数是否为零的t统计量值及相应的p值.方差分析表、检验回归关系显著性的F统计量和p值,复相关系数及其平方值等.

2.示例

例1(书上例2.3)某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额Y与他们研究成果(论文、著作等)的质量指标X1、从事研究工作时间X2、能获得资助的指标X3.为此按一定设计方案调查了24位此类型的数学家,得数据如书上表2.3所示.

(1)假设误差服从N(0,2)分布,建立Y与X1,X2,X3之间的线性回归方程并研究相应的统计推断问题;

(2)假设某位数学家的关于X1,X2,X3的值为(x01,x02,x03),试预测他(5.1,20,7.2)的年工资额并给出置信度为95%的置信区间.

解:(1)建立回归模型进行统计推断

设Y与X1,X2,X3回归模型Y01X12X23X3, 观测值满足yi01xi12xi23xi3i,i1,2,,24 其中i(i1,2,,24)相互独立,且i~N(0,2). 即 YXβε, ε~N(0,2I)

1)SAS系统回归分析的proc reg 过程进行统计推断

程序:

data examp2_3; input y x1-x3; cards;

33.2 3.5 9 6.1 40.3 5.3 20 6.4 38.7 5.1 18 7.4 46.8 5.8 33 6.7 41.4 4.2 31 7.5 37.5 6.0 13 5.9 39.0 6.8 25 6.0 40.7 5.5 30 4.0 30.1 3.1 5 5.8 52.9 7.2 47 8.3 38.2 4.5 25 5.0 31.8 4.9 11 6.4 43.3 8.0 23 7.6 44.1 6.5 35 7.0 42.8 6.6 39 5.0 33.6 3.7 21 4.4 34.2 6.2 7 5.5 48.0 7.0 40 7.0 38.0 4.0 35 6.0 35.9 4.5 23 3.5 40.4 5.9 33 4.9 36.8 5.6 27 4.3 45.2 4.8 34 8.0 35.1 3.9 15 5.0 ; run;

proc reg data=examp2_3; /* 调用回归分析的reg过程 */

model y=x1-x3/i; /* 模型因变量y,自变量x1、x2、x3,输出Hessian矩阵*/

run;

2)由方差分析表进行统计推断

Analysis of Variance 方差分析表

Sum of Mean

Source DF Squares Square F Value Pr > F 方差来源 自由度 平方和(SS) 均方(MS) F0=MSR/MSE 检验p值p0 Model p-1=3 SSR=627.81700 MSR=SSR/3=209.27233 F0=68.12 <.0001 Error n-p=24-4=20 SSE=61.44300 MSE=SSE/20=3.07215 Corrected Total 23 SST=689.26000

Root MSE 1.75276 R-Square 0.9109 Dependent Mean 39.50000 Adj R-Sq 0.8975 Coeff Var 4.43735 从方差分析表得出MSE3.0722;

线性回归关系显著性检验: H0:1230

2MSRH0真统计量F~F(3,20),其观测值F068.119

MSE拒绝H0,认为Y与X1,X2,X3的线性回归关系是高度显著的. pPH0(FF0)0.0001,另外,由方差分析表给出R2SSR627.817 也表明线性回归关系高度显著. 0.9109,

SST689.263) 回归参数的统计推断的SAS输出结果 Parameter Estimates

参数估计表

Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

 参数 参数估计值k 标准差估计值s( t值t0k pPH(|tk||t0k|) k)0Intercept 1 17.84693 2.00188 8.92 <.0001 x1 1 1.10313 0.32957 3.35 0.0032 x2 1 0.32152 0.03711 8.66 <.0001 x3 1 1.28894 0.29848 4.32 0.0003

由程序结果给出参数估计值k,检验假设H0k:k0,k1,2,3

tkkkckkH0真kckk~t(20)

对给出显著性水平0.05,由参数估计表最后一列检验p0k值看出,

p0kPH0k(|tk||tk0|)0.05,拒绝H0k,认为Xk(k1,2,3)对Y均有显著影响.

4)回归参数的区间估计

进一步,取置信水平0.05,由于t12(np)t0.975(20)2.086,利用表中的参数

估计值和相应的标准差估计式kt0.975(20)s(k),求得0,1,2,4的置信度95%的置信区间分别为

0:0t0.975(20)s(0)17.84692.0862.0019(13.6709,22.0229) 1:1.10312.0860.3296(0.4156,1.7906)

2:0.32152.0860.0371(0.2441,0.3989)

3:1.28892.0860.2985(0.6662,1.9116)

(2)关于Y的预测

The REG Procedure

Model: MODEL1

Dependent Variable: y

X'X Inverse, Parameter Estimates, and SSE

(XTX)1 参数估计 SSE

Variable Intercept x1 x2 x3 y回归参数值 Intercept 1.3044630488 -0.101873528 0.0004420084 -0.121579266 17.846930636 x1 -0.101873528 0.035355881 -0.001674335 -0.007647007 1.1031303951 x2 0.0004420084 -0.001674335 0.0004482371 -0.000443861 0.3215196814 x3 -0.121579266 -0.007647007 -0.000443861 0.0289991653 1.2889408958 y 17.846930636 1.1031303951 0.3215196814 1.2889408958 SSE=61.443003635

由上表1-4行,2-5列构成的矩阵为

1.304460.101870.000440.121580.101870.035360.001670.00765T1 (XX)0.000440.001670.000450.000440.121580.007650.000440.02900SSE61.4430,β(XX)1XTY(17.8469,1.1031,0.3215,1.2889)T,代入得

Y17.84691.1031X10.3215X21.2889X3--------经验回归方程

对于给定X1,X2,X3的值(x01,x02,x03)(5.1,20,7.2),由经验回归方程可得y0预测值

y017.84691.10315.10.3215201.28897.239.1828

令x0(1,x01,x02,x03)T(1,5.1,20,7.2)T,由MSE3.0722直接计算可得

y0的置信度为95%的置信区间

T1y0t0.975(20)MSE[1xT,43.0236) 0(XX)x0]39.18282.0861.8412(35.3420此置信区间的长度较小,因而对实际有较好的参考价值. 求因变量均值和因变量均值的置信区间:

OUTPUT OUT=b L95M=u1 U95M=u2 L95=v1 U95=v2; Proc print data=b; run;

结果:

The SAS System 08:32 Wednesday, September 22, 2012 3

y置信下限 置信上限 y置信下限 上限

T1yit0.975(20)MSE[1xTi(XX)xi]  Obs y x1 x2 x3 u1 u2 v1 v2 1 33.2 3.5 9 6.1 30.8968 34.0314 28.4861 36.4421 2 40.3 5.3 20 6.4 37.4854 39.2609 34.6107 42.1356 3 38.7 5.1 18 7.4 37.4707 40.1261 34.9086 42.6882 4 46.8 5.8 33 6.7 42.5205 44.4618 39.7083 47.2740 5 41.4 4.2 31 7.5 40.4232 43.8053 38.0859 46.1426 6 37.5 6.0 13 5.9 34.8524 37.6481 32.3359 40.1645 7 39.0 6.8 25 6.0 39.8817 42.3580 37.2597 44.9800 8 40.7 5.5 30 4.0 37.1681 40.2629 34.7453 42.6857 9 30.1 3.1 5 5.8 28.5559 32.1443 26.2774 34.4228 10 52.9 7.2 47 8.3 49.6366 53.5616 47.4495 55.7487 11 38.2 4.5 25 5.0 36.2392 38.3482 33.4885 41.0989 12 31.8 4.9 11 6.4 33.7304 36.3460 31.1552 38.9212 13 43.3 8.0 23 7.6 41.7930 45.9327 39.6615 48.0643 14 44.1 6.5 35 7.0 44.1509 46.4352 41.4626 49.1235 15 42.8 6.6 39 5.0 42.5368 45.6863 40.1307 48.0925 16 33.6 3.7 21 4.4 32.9302 35.7734 30.4289 38.2746 17 34.2 6.2 7 5.5 32.1359 35.9164 29.9103 38.1420

18 48.0 7.0 40 7.0 46.0530 48.8515 43.5374 51.3670 19 38.0 4.0 35 6.0 39.6197 42.8729 37.2446 45.2480 20 35.9 4.5 23 3.5 33.0568 36.3778 30.7017 38.7328 21 40.4 5.9 33 4.9 40.0280 42.5347 37.4163 45.1464 22 36.8 5.6 27 4.3 36.9005 39.5954 34.3514 42.1445 23 45.2 4.8 34 8.0 42.6520 46.1184 40.3390 48.4313 24 35.1 3.9 15 5.0 32.2029 34.6304 29.5643 37.2690

说明:10程序窗口直接调入Txt数据文件做回归分析

Example2_3数据存在桌面ex2-3.txt文件里,无变量名,调用Txt文件做回归分析,程序:

DATA examp2_3;

INFILE 'C:\\Users\\Administrator\\Desktop\\ex2-3.txt';

INPUT Y X1 X2 X3;

PROC PRINT; RUN;

proc reg data=examp2_3; /* 调用回归分析的reg过程 */

model Y=X1-X3/i; /* 模型因变量y,自变量x1、x2、x3,输出Hessian矩阵*/ run; 输出结果同上。

20 菜单操作调入Excel文件,进行回归分析

1) 建立SAS数据集

File—Import Data—选Excel 97,找examp2_3.xls文件点OK—Option选项选第一行为变量名,点next—在逻辑库文件选Work(临时库,也可事先建立一个永久数据库),取个文件名a点击finish, 则在Work库里就出现a文件(如想将结果保存,可点Next,选择存放地址,建立一个SAS文件,如a.sas)。 2)导入SAS数据集

点击solutists—Analysis—Analyst—File下打开Open by sas data---在Select Liberty work找到a文件,双击; 3)统计分析

Statises-regress—linear –Y导入到dependent,X1,X2,X3导入到explanatory解释变量(全部自变量拟合),点OK得步骤(1)结果; 4)进一步的选择 一些选项:

model选项下多种选则,可选,默认full moden(完整的),Forward(向后), Backward(向前选取变量),stepwise(逐步回归), R-square(r2准则)如,Adiusted R –square(修正R2准则)等默认,全模型。

Tests检验:可以选择显著性水平 ,默认0.05. Predictions预测:

Predict original sample(原始数据预测),List predictions(列出预测),Add residuals(残差预测),Add residuals limits(残差预测区间)。

Predictions 11:45 Thursday, September 23, 2013 1

Lower Upper

Predicted prediction prediction Residual

Obs Y X1 X2 X3 Y limit of Y limit of Y of Y

原始数据 Y的预测值 Y的置信区间下限 置信上线 Y的残差

1 33.2 3.5 9 6.1 32.4641 30.8968 34.0314 0.73590

2 40.3 5.3 20 6.4 38.3731 37.4854 39.2609 1.92686

3 38.7 5.1 18 7.4 38.7984 37.4707 40.1261 -0.09841

4 46.8 5.8 33 6.7 43.4911 42.5205 44.4618 3.30886

5 41.4 4.2 31 7.5 42.1142 40.4232 43.8053 -0.71425

6 37.5 6.0 13 5.9 36.2502 34.8524 37.6481 1.24978

7 39.0 6.8 25 6.0 41.1199 39.8817 42.3580 -2.11985

8 40.7 5.5 30 4.0 38.7155 37.1681 40.2629 1.98450

9 30.1 3.1 5 5.8 30.3501 28.5559 32.1443 -0.25009

10 52.9 7.2 47 8.3 51.5991 49.6366 53.5616 1.30090

11 38.2 4.5 25 5.0 37.2937 36.2392 38.3482 0.90629

12 31.8 4.9 11 6.4 35.0382 33.7304 36.3460 -3.23821

13 43.3 8.0 23 7.6 43.8629 41.7930 45.9327 -0.56288

14 44.1 6.5 35 7.0 45.2931 44.1509 46.4352 -1.19305

15 42.8 6.6 39 5.0 44.1116 42.5368 45.6863 -1.31156

16 33.6 3.7 21 4.4 34.3518 32.9302 35.7734 -0.75177

17 34.2 6.2 7 5.5 34.0262 32.1359 35.9164 0.17385

18 48.0 7.0 40 7.0 47.4522 46.0530 48.8515 0.54778

19 38.0 4.0 35 6.0 41.2463 39.6197 42.8729 -3.24629

20 35.9 4.5 23 3.5 34.7173 33.0568 36.3778 1.18274

21 40.4 5.9 33 4.9 41.2814 40.0280 42.5347 -0.88136

22 36.8 5.6 27 4.3 38.2479 36.9005 39.5954 -1.44794 24 35.1 3.9 15 5.0 33.4166 32.2029 34.6304 1.68336

23 45.2 4.8 34 8.0 44.3852 42.6520 46.1184 0.81485

Plot 选项:

Plot observed vs predicted, Plot observed vs independent, Confidence limits;

Y和Yˆ散点图,接近直线,说明二者高度相关。

X1和Y回归关系散点图,

X2和Y回归关系散点图

X3和Y回归关系散点图.

Residual:残差部分,选项如下图:

残差图

ˆ,)散点图 (Y

ˆ,r)学生化残差散点图 (Y

(X3,)散点图

累积正态残差QQ图

残差正态QQ图

残差和标准化残差散点图(,r)

自变量X1残差图(X1,)

自变量X1标准化残差图(X1,r)

自变量X2残差图(X2,)

自变量X3残差图(X3,)

ˆ,) 预测值和标准化残差散点图(Y

30 MATLAB 编程运行

>> X1=[3.5 5.3 5.1 5.8 4.2 6 6.8 5.5 3.1 7.2 4.5 4.9 8 6.5 6.6 3.7 6.2 7 4 4.5 5.9 5.6 4.8 3.9]'; >> X2=[9 20 18 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 33 27 34 15]'; >> X3=[6.1 6.4 7.4 6.7 7.5 5.9 6 4 5.8 8.3 5 6.4 7.6 7 5 4.4 5.5 7 6 3.5 4.9 4.3 8 5]';

>> Y=[33.2 40.3 38.7 46.8 41.4 37.5 39 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42.8 33.6 34.2 48 38 35.9 40.4 36.8 45.2 35.1]';

>> X=[ones(24,1),X1,X2,X3];

>> [b,bint,r,rint,stats]=regress(Y,X); >> b,bint,stats ,rcoplot(r,rint); b =

17.8469 1.1031 0.3215 1.2889

bint =

13.6711 22.0228 0.4157 1.7906 0.2441 0.3989 0.6663 1.9116

置信区间均不包含0,回归参数检验显著。 stats =

2ˆ2s2 R F0 p  0.9109 68.1192 0.0000 3.0722

Residual Case Order Plot642Residuals0-2-4-651015Case Number20

由残差图看,除第3、12、19个数据外,其余残差的置信区间均包含0点,第3、12、19个点视为异常点.

例2(书上例2.4) 利用上例2.3关于数学家年工资额Y以及研究成果质量指标X1、从事研究工作时间X2、获得资助指标X3的观测数据进一步检验:

(1)对线性回归模型Y01X12X23X3,检验是否有13; (2)检验X1,X2,X3的交叉乘积项对Y的综合影响是否显著. 解:(1)约简模型Y0c(X1X3)2X2假设检验

proc reg过程检验程序:

data examp2_4; input y x1-x3; cards;

33.2 3.5 9 6.1 40.3 5.3 20 6.4 38.7 5.1 18 7.4 46.8 5.8 33 6.7 41.4 4.2 31 7.5 37.5 6.0 13 5.9 39.0 6.8 25 6.0 40.7 5.5 30 4.0 30.1 3.1 5 5.8 52.9 7.2 47 8.3

38.2 4.5 25 5.0 31.8 4.9 11 6.4 43.3 8.0 23 7.6 44.1 6.5 35 7.0 42.8 6.6 39 5.0 33.6 3.7 21 4.4 34.2 6.2 7 5.5 48.0 7.0 40 7.0 38.0 4.0 35 6.0 35.9 4.5 23 3.5 40.4 5.9 33 4.9 36.8 5.6 27 4.3 45.2 4.8 34 8.0 35.1 3.9 15 5.0 ; run;

data aa; set examp2_4;

z=x1+x3; /* 约简模型的新自变量z*/ run;

proc reg data=aa;

model y=z x2; /* 建立因变量Y,自变量Z、x2的约简回归模型 */ run;

约简模型的方差分析

The REG Procedure Model: MODEL1 Dependent Variable: y Analysis of Variance Sum of Mean

Source DF Squares Square F Value Pr > F Model 3-1=2 627.38353 313.691 F0=106.46 p0<.0001 Error fR=24-3=21 SSE(R)=61.87647 MSE=2.94650 Corrected Total 23 689.26000

Root MSE 1.71654 R-Square R=0.9102 Dependent Mean 39.50000 Adj R-Sq 0.9017 Coeff Var 4.34566

检验假设H0:c20,

检验p值pPH0(FF0)0.00010.05,拒绝假设,认为Z,X2对Y有显著影影响.

约简模型的回归系数的统计诊断

2 Parameter Estimates (参数估计) Parameter Standard

Variable DF Estimate Error t Value Pr > |t| 参数 参数估计值k 标准差估计值s() t值t0k pPH0(|tk||tk0|)

kIntercept 1 17.89290 1.95684 9.14 <.0001 z 1 1.20345 0.18912 6.36 <.0001 x2 1 0.31865 0.03556 8.96 <.0001

回归参数检验结果:p0kPH(|tk||tk0|)0.05,说明Z,X2均对对Y有显著影响.

0Y17.89291.2035Z0.3186X217.89291.2035X10.3186X21.2035X3

(2)约简模型与全模型比较选择 全模型:

Y01X12X23X3,由例2.3知

残差平方和SSE(F)SSE61.443,回归参数个数p4,自由度

2检验p0.0001,回归显著.且R0.9109,参数估计均显著.经fF24420,

验回归方程为

Y17.84691.1031X10.3215X21.2889X3

约简模型:相应于假设H0:13约简模型为

Y0c(X1X3)2X2

残差平方和SSE(R)61.876,回归参数个数q3,自由度fR24321.

F0106.46,检验p值p0.0001,R20.9102,参数估计均显著。经验回归方程

Y17.89291.2035Z0.3186X217.89291.2035X10.3186X21.2035X3

构造两模型比较的检验统计量

[SSE(R)SSE(F)]/(fRfF)[SSE(R)SSE(F)]/1H0真F~F(1,20) SSE(F)/fFSSE(F)/20观测值 F061.87661.4430.141 61.443/20检验p值 p0PH0(FF0)P(F(1,20)0.141)0.71120.05 由此认为H0:13成立,回归模型可用约简模型描述. 此时回归方程为Y17.89291.2035X10.3186X21.2035X3

说明:和例2.3建立的全模型相比,对应的回归系数估计值相差不大,且两回归方程对所给

数据有几乎相同的拟合优度.但上述方程可使我们对Y与X1,X2,X3的相互关系有更进一步的了解.

(3)检验X1,X2,X3的交叉乘积项对Y的综合影响

全模型:Y01X12X23X34X1X25X1X36X2X3 引入交叉乘积项全模型拟合检验程序 data bb;

set examp2_4;

z1=x1*x2; /* 加交叉乘积项的全模型的新变量*/ z2=x1*x3; z3=x2*x3; run;

proc reg data=bb;

model y=x1-x3 z1-z3; /* 建立因变量Y,自变量x1-x3、z1-z3的回归模型 */ run;

结果输出:

引入交叉乘积项全模型方差分析

SAS 系统 22:21 Sunday, September 21, 2008 3

The REG Procedure Model: MODEL1

Dependent Variable: y

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F Model p-1=6 634.85098 105.80850 33.06不大 <.0001 Error n-p=24-7=17 SSE(F)=54.40902 MSE=3.20053 Corrected Total 23 689.26000

Root MSE 1.78900 R-Square 0.9211

Dependent Mean 39.50000 Adj R-Sq 0.8932 Coeff Var 4.52912

得回归参数个数p7,残差平方和SSE(F)54.409,自由度fF24717,由

F033.06,R20.9211及p0.0001,知X1,X2,X3,Z1,Z2,Z3对Y综合影响显著.

引入交叉乘积项全模型的回归系数的统计推断

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

参数 参数估计值k 标准差估计值s( t值t0k pPH(|tk||tk0|) k)0 Intercept 1 26.52476 8.90047 2.98 0.0084 x1 1 1.20393 2.01244 0.60 0.5576 x2 1 -0.02324 0.28629 -0.08 0.9362 x3 1 -0.09519 1.53836 -0.06 0.9514

z1 1 0.00437 0.02703 0.16 0.8735>0.05 z2 1 -0.02044 0.31423 -0.07 0.9489>0.05 z3 1 0.05051 0.04269 1.18 0.2530>0.05

p04,p05,p060.05, 说明X1,X2,X3,Z1,Z2,Z3每个参数对Y的影响不显著,添加交叉乘

积项后,自变量对Y影响反而不如未添加显著.

约简模型:不要交叉项

检验X1,X2,X3的交互作用的综合影响是否显著即

全模型:Y01X12X23X34X1X25X1X36X2X3 检验假设H0:4560,如果成立,认为交互作用显著拒绝全模型. 约简模型:Y01X12X23X3

由(1)知,回归参数个数q4,残差平方和SSE(R)61.443,自由度fR24420 观测值F068.119,pPH0(FF0)0.0001,R2数估计均显著,Y与X1,X2,X3线性回归关系显著.

SSR627.8170.9109,且参SST689.26两模型比较统计量

[SSE(R)SSE(F)]/(fRfF)[SSE(R)SSE(F)]/3H0真F~F(3,17) SSE(F)/fFSSE(F)/17观测值 F0(61.44354.409)/30.7328 54.409/17检验p值 p0PH0(FF0)P(F(3,17)0.7328)0.54660.05

由此认为H0:4560被接受,认为X1,X2,X3的交叉乘积项对Y的综合影响是不显著的,模型中没有必要有引入交叉乘积项.

作业:

1.写出多元线性回归模型,给出经验回归方程,回归系数向量、误差方差的估计 公式;

2.写出平方和分解公式,线性回归方程、回归参数的显著性检验步骤(假设、统计量及分布、检验p值),说明何时线性关系显著? 给出因变量预测值及置信区间? 3.书上作业 2.3(单) 2.4

因篇幅问题不能全部显示,请点此查看更多更全内容