SAS实验报告实验报告

时间:2021-08-28 08:23:33 手机站 来源:网友投稿

实验目的:探讨农产量、农村人口、播种面积、受灾面积、农村机械总动力的关联性。

数据来源:国家统计数据库 8/reportYearBrowse.do

导入数据:

农产量(万吨)

农村人口(万人)

播种面积(千公顷)

受灾面积(千公顷)

农业机械总动力(万千瓦)

北京市

124.77

263

226.29

14.6

271.54

天津市

156.29

270

306.64

58.533333

595

河北省

2910.17

4009

6216.5

2627.5

9861.12

山西省

942

1851

3146.67

1786.5

2655.0425

内蒙古自治区

1981.7

1129

5424

4770.363333

2891.64

辽宁省

1591

1712

3124.1

2171.786667

2142.93

吉林省

2460

1279

4427.7

2670.63

2001.13

黑龙江省

4353.01

1703

11391.03

7393.7

3401.27

上海市

121.68

219

193.27

16.3

99.2258

江苏省

3230.1

3430

5272.04

1202.6

3810.57

浙江省

789.15

2181

1290.09

463.313333

2384.03

安徽省

3069.872484

3550

6605.568384

2101.32

5108.85

福建省

666.861112

1763

1231.012133

265.693333

1175.0092

江西省

2002.56

2518

3604.6

1351.676667

3358.93

山东省

4316.3

4894

7030.09

2341.87

11080.66

河南省

5389

5910

9683.61

2987.353333

9817.843

湖北省

2309.1

3089

4012.53

1827.1

3057.24

湖南省

2902.7

3639

4799.1

1824.87

4352.39

广东省

1314.5

3528

2538.5

643.3

2190.177

广西壮族自治区

1463.2

2952

3067.5

1109.61

2550.9337

海南省

187.604049

440

430.433876

119.9

396.07

重庆市

1137.2

1384

2229.49

495.1

967.41

四川省

3194.6

5017

6419.4

1598.763333

2952.66

贵州省

1168.27

2663

2984.73

779.866667

1606.4196

云南省

1576.92

3017

4200.13

1667.523333

2159.402

西藏自治区

90.53

221

169.43

53.04

358.44

陕西省

1131.4

2131

3133.973333

1220.666667

1832.9785

甘肃省

906.2

1775

2740.03

1880.796667

1822.65

青海省

102.69

324

275.72

159.58

388.68

宁夏回族自治区

340.7

337

826.88

365.533333

702.55

新疆维吾尔自治区

1152

1299

1984.7

1244.3

1503.31

全国

53082.077645

68497

108985.7577

47213.689999

87496.1013

实验过程:

①生成数据集

(以下均为2009年数据,number为各个省、直辖市、自治区代号,y为农产量(单位:万吨),x1为农村人口(单位:万人),x2为播种面积(单位:千公顷),x3为受灾面积(单位:千公顷),x4为农业机械总动力(单位:万千瓦)):

data experiment;

input number y x1 x2 x3 x4 @@;

cards;

1 124.77 263 226.29 14.6 271.54

2 156.29 270 306.64 58.53 595

3 2910.17 4009 6216.5 2627.5 9861.12

4 942 1851 3146.67 1786.5 2655.04

5 1981.7 1129 5424 4770.36 2891.64

6 1591 1712 3124.1 2171.79 2142.93

7 2460 1279 4427.7 2670.63 2001.13

8 4353.01 1703 11391.03 7393.7 3401.27

9 121.68 219 193.27 16.3 99.23

10 3230.1 3430 5272.04 1202.6 3810.57

11 789.15 2181 1290.09 463.31 2384.03

12 3069.87 3550 6605.57 2101.32 5108.85

13 666.86 1763 1231.01 265.69 1175.01

14 2002.56 2518 3604.6 1351.68 3358.93

15 4316.3 4894 7030.09 2341.87 11080.66

16 5389 5910 9683.61 2987.35 9817.84

17 2309.1 3089 4012.53 1827.1 3057.24

18 2902.7 3639 4799.1 1824.87 4352.39

19 1314.5 3528 2538.5 643.3 2190.18

20 1463.2 2952 3067.5 1109.61 2550.93

21 187.6 440 430.43 119.9 396.07

22 1137.2 1384 2229.49 495.1 967.41

23 3194.6 5017 6419.4 1598.76 2952.66

24 1168.27 2663 2984.73 779.87 1606.42

25 1576.92 3017 4200.13 1667.52 2159.40

26 90.53 221 169.43 53.04 358.44

27 1131.4 2131 3133.97 1220.67 1832.98

28 906.2 1775 2740.03 1880.79 1822.65

29 102.69 324 275.72 159.58 388.68

30 340.7 337 826.88 365.53 702.55

31 1152 1299 1984.7 1244.3 1503.31

;

run;

②基本统计量分析:

proc univariate data=experiment;

var y x1 x2 x3 x4;

run;

结果:

各地区农产量均值为1712.32万吨,标准差为1404.26;

各地区农村人口均值为2209.58万人,标准差为1544.86;

各地区播种面积均值为3515.67千公顷,标准差为2797.99;

各地区受灾面积均值为1523.02千公顷,标准差为1539.50;

各地区农业机械总动力均值为2822.46万千瓦,标准差为2773.71。

结果分析:

从各个变量的标准差来看,各地区的各项数据波动很大(标准差很大)。

③由于前面生成的数据集仅有2009年一年各地区的农产量,对于显著性差别分析数据不充分,所以添加2007年和2008年各地区的农产量数据进行分析:

data abc;

do i=1 to 3;

do number=1 to 31;

input y @@;output;

end;end;

cards;

102.07 147.15 2841.55 1007.05 1810.69 1835 2453.7761 3462.94 109.2 3132.24 728.64

2901.4 635.060937 1904 4148.76 5245.22 2185.44 2692.2 1284.7 1396.600383 177.5 1088

3027.0049 1100.86026 1460.71 93.86 1067.91048 824 106.18415 323.52 867.04 125.45

148.93 2905.81 1028 2131.3 1860.3 2840 4225 115.67 3175.49 775.55 3023.3 652.328336

1958.1 4260.5 5365.48 2227.23 2805 1243.44 1394.7 183.4774 1153.2 3140 1158 1518.59

95.03 1111 888.5 101.8 329.24 930.5 124.77 156.29 2910.17 942 1981.7 1591 2460

4353.01 121.68 3230.1 789.15 3069.872484 666.861112 2002.56 4316.3 5389 2309.1

2902.7 1314.5 1463.2 187.604049 1137.2 3194.6 1168.27 1576.92 90.53 1131.4 906.2

102.69 340.7 1152

;

proc npar1way data=abc Wilcoxon;

class number;

var y;

run;

结果:

结果分析:

由结果得到Pr > Chi-Square的值小于0.0001,远小于临界概率值0.05,所以结论为在5%显著性水平下全国各地区的年农产量有显著性差异。

思考:为什么全国各地区的年农产量会有显著性差异呢?是否与农村人口数、播种面积、受灾面积、农业机械总动力等因素有关呢?

④回归分析:

proc reg data=experiment;

model y = x1 x2 x3 x4;

run;

结果:

结果分析:

从结果看出Pr >F的值小于0.0001,所以回归方程是显著的,而各自变量的Pr > | t |值中X1的为0.9454>0.05,X2、X3、X4的均小于0.05,所以变量X1对农产量y影响不显著,变量X2、X3、X4对农产量y影响显著。

然而选择哪些变量进行回归分析才能建立“最优”回归方程呢?实验选用逐步回归的方法继续进行分析:

proc reg data=experiment;

model y = x1 x2 x3 x4 / selection=stepwise;

run;

结果:

结果分析:

从输出结果来看,变量X2、X3、X4对农产量y影响显著,用其能建立“最优”回归方程。

建立“最优”回归方程:

proc reg data=experiment;

model y = x2 x3 x4;

run;

结果:

结果分析:由于结果中常数项Pr>|t|的值为0.7948,大于0.05,所以不显著,故消去常数项。

程序为:

proc reg data=experiment;

model y = x2 x3 x4 / noint;

run;

结果输出:

回归方程:y= 0.53197*x2 – 0.25023*x3 + 0.08213*x4

思考:一次线性回归已达“最优”,但回归中是否可能含二次项呢?画残差图分析。

proc reg data=experiment;

model y = x2 x3 x4 /p;

plot residual.*x2="*";

run;

结果:

结果分析:

残差图接近正常的残差图,可认为回归方程不含二次项。

⑤聚类判别:

proc cluster data=experiment method=ward std pesudo ccc outtree=aaa;

var x2 x3 x4;

id number;

proc tree data=aaa horizontal graphics n=4 out=bbb;

copy x2-x4;

run;

proc sort data=bbb;

by cluster;

proc means data=bbb;

by cluster;

var x2 x3 x4;

run;

结果输出:

R2准则支持分为两类、三类和四类;伪F统计量支持分为六类、五类和四类;伪t2统计量支持分为三类、两类和四类。综合分析,认为用离差平方和法分为四类比较合适。

分类结果为:G1={北京市,西藏自治区,上海市,天津市,海南省,青海省,浙江省,福建省,宁夏回族自治区},G2={山西省,湖北省,江西省,云南省,辽宁省,甘肃省,吉林省,广东省,贵州省,重庆市,广西壮族自治区,陕西省,新疆维吾尔自治区,内蒙古自治区,江苏省,湖南省,四川省,安徽省},G3={河北省,山东省,河南省},G4={黑龙江省}。

由此看出,根据播种面积、受灾面积和农业机械总动力三个条件进行分类的结果与根据农产量分类的结果基本一致。

实验结论:2009年各地区农产量均与播种面积、受灾面积和农业机械总动力有密切的关联性,与农村人口无关。另外,全国31个省市自治区可根据农产量分为4类。

推荐访问:实验报告 实验 报告 SAS SAS实验报告实验报告

版权声明 :以上文章中选用的图片文字均来源于网络或用户投稿 ,如果有侵权请立即联系我们 , 我们立即删除 。