R软件在多元统计分析教学中的应用研究_聚类分析

时间：2012-03-08 作者：秩名

论文导读:：多元统计方法已被广泛应用于自然科学和社会科学的各个领域，而在现实处理多元数据分析中，离不开统计软件的支持；R软件由于其免费、开源、强大的统计分析、及其完美的做图功能已得到越来越多人的关注与应用；本文结合实例介绍了R软件在多元统计分析中的应用，具体内容包括R软件在聚类分析、主成分分析、典型相关分析等方面的应用。
论文关键词：R软件，聚类分析，主成分分析，典型相关分析

引言：多元统计分析是统计学的一个重要分支，也称多变量统计分析；在现实生活中，受多种指标共同作用和影响的现象大量存在，多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科，由于多元统计分析方法一般涉及复杂的数学理论，一般无法用手工计算，必须有计算机和统计软件的支持。

在统计软件方面，常用的统计软件有SPSS、SAS、STAT、R、S-PLUS等。R软件是一个自由、免费、开源的软件，是一个具有强大统计分析功能和优秀统计制图功能的统计软件，现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍了R软件在多元统计分析中的应用，具体内容包括R软件在聚类分析、主成分分析、对应分析等方面的应用。

一在聚类分析教学中的应用

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种多元统计方法，所谓类，通俗地说，就是指相似元素的集合。在社会经济领域中存在着大量分类问题，比如若对某些大城市的物价指数进行考察聚类分析，而物价指数很多，有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多，通常先对这些物价指数进行分类。总之，需要分类的问题很多，因此聚类分析这个有用的工具越来越受到人们的重视，它在许多领域中都得到了广泛的应用。

聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等，具体详见参考文献[3]。

R软件及其相关包提供了各种聚类方法，主要是系统聚类方法、快速聚类方法、模糊聚类方法，常用的是系统聚类方法。

R软件实现系统聚类的程序如下：

Hclust(d,method=“complete”)

其中d是由“dist”构成的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等，默认为欧氏距离；method包括类平均法、重心法、中间距离法最长距离法最短距离法、离差平方和法等，默认是最长距离法。

例1 下表是山东省2008年各市居民家庭平均每人全年消费性支出，利用所给数据对各市进行系统聚类。

山东各市居民家庭平均每人全年消费性支出元/人
地区	食品	衣着	居住	设备用品	交通通讯	文化教育	医疗保健	其它
济南	1628.16	252.86	790.11	285.64	634.83	355.54	394.37	43.9
青岛	1999.61	523.76	901.56	297.76	595.34	618.12	260.17	106.42
淄博	1691.6	372.21	844.44	300.46	494.67	580.6	370.84	102.16
枣庄	1370.59	272.95	614.3	227.52	454.73	245.93	220.88	84.2
东营	1580.86	234.17	813.58	253.12	532.19	432.05	275.3	39.1
烟台	1673.19	337.92	719.28	201.3	414.08	497.57	286.03	77.11
潍坊	1516.36	299.67	1327.72	243.72	583.04	494.65	269.82	92.95
济宁	1375.4	287.17	722.05	282.16	380.68	412.42	218.11	56.94
泰安	1412.44	225.66	567.66	257.96	411.98	450.57	177.02	70.07
威海	1684.64	517.59	759.36	227.12	424.41	565.75	444.31	77.48
日照	1451.12	351.21	562.91	208.81	457.2	332.16	182.2	37.69
莱芜	1516.22	198.94	624.72	207.03	464.06	469.35	256.53	36.33
临沂	1339.69	212.36	625.26	191.34	409.39	314.9	156.01	63.31
德州	1114.47	173.88	553.14	169.23	319.41	220.45	137.97	42.2
聊城	1146.53	182.53	566.92	186.05	317.48	332.64	155.94	54.31
滨州	1177.49	179.96	979.01	206.88	451.85	407.49	298.7	47.51
菏泽	1265.03	170.85	550.68	143.11	329.99	349.41	193.59	82.31

数据来源：《2009年山东统计年鉴》

R语言程序如下：

>X<-read.delim("clipboard",header=T)

>row.names(X)<-c("济南","青岛","淄博","枣庄","东营","烟台","潍坊","济宁","泰安","威海","日照","莱芜","临沂","德州","聊城","滨州","菏泽")

> d<-dist(scale(X))

>hc1<-hclust(d,"single")#最短距离法

>hc2<-hclust(d,"complete")#最长距离法

>hc3<-hclust(d,"median")#中间距离法

>hc4<-hclust(d,"ward")#Ward法

>opar<-par(mfrow=c(2,2))

> plot(hc1,hang=-1);plot(hc2,hang=-1)

>plot(hc3,hang=-1);plot(hc4,hang=-1)

R软件

由上图可以看出，不同方法的分类不完全一样，结合实际情况，最长距离法分类效果较好。

二在主成分分析教学中的应用

在实际经济生活中，有时需要处理的是多变量（多指标）问题。由于变量较多，增加了分析问题的复杂性；但在实际问题中，变量之间可能存在一定的相关性，因此，多变量中可能存在信息的重叠核心期刊目录。人们自然希望通过克服相关性、重叠性，用较少的变量来代替原来较多的变量，而这种代替可以反映原来多个变量的大部分信息，这实际上是一种“降维”的思想，具体理论部分详见文献[3][4].

R软件实现主成分分析的程序如下：

Princomp(x,cor=FALSE,scores=TRUE,…)

X为数据矩阵或数据框，cor为是否用相关阵，默认为协差阵，scores为是否输出成分得分。

例2对例1中的数据进行主成分分析。

R语言程序如下：

>X<-read.delim("clipboard",header=T)

>cs.pr<-princomp(X,cor=TRUE)

>summary(cs.pr,loadings=TRUE)

Importance ofcomponents:

Comp.1 Comp.2Comp.3 Comp.4 Comp.5

Standarddeviation 2.1781277 1.0415718 0.87216013 0.751881270.56230008

Proportion ofVariance 0.5930301 0.1356090 0.09508291 0.07066568 0.03952267

CumulativeProportion 0.5930301 0.7286390 0.82372195 0.89438763 0.93391030

Comp.6 Comp.7 Comp.8

Standarddeviation 0.54497439 0.45711204 0.150894344

Proportion ofVariance 0.03712464 0.02611893 0.002846138

CumulativeProportion 0.97103494 0.99715386 1.000000000

Loadings:

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8

食品 -0.4170.123 0.304 0.142 0.276 -0.258 0.337 0.665

衣着 -0.3690.391 0.2500.331 -0.704 -0.203

居住 -0.303 -0.366-0.689 -0.173 -0.195 -0.3550.323

设备用品 -0.359 -0.217 0.187 0.526-0.611 0.293 -0.211

交通通讯 -0.355-0.501 0.2860.453 0.259 -0.518

文化教育 -0.3920.214 -0.259 -0.479 -0.5680.229 -0.359

医疗保健 -0.344 -0.185 0.216-0.695 0.5460.130

其它 -0.266 0.566-0.537 0.201 0.4340.288

说明：

1）Standard deviation：表示主成分的标准差，即主成分的方差平方根，即相应特征值的开方；

2）Proportion of Variance：表示方差的贡献率；

3）Cumulative Proportion ：表示方差的累计贡献率。

4）函数summary（）中loadings=TRUE选项列出了主成分对应原始变量的系数。

由于前3个主成分的累计贡献率已经达到82.4%，所以取前3个主成分来降维。

碎石图是一种可以帮助我们确定主成分合适个数的有用的视觉工具，将特征值从大到小排列。

> biplot(cs.pr)

R软件

>screeplot(cs.pr,type=c("barplot"))

R软件

? screeplot(cs.pr,type=c("lines"))

由上面的图形可以看出聚类分析，取前3个主成分来降维是比较合理的。

三在对应分析教学中的应用

对应分析(Correspondenceanalysis)也称关联分析、R-Q型因子分析，是近年新发展起来的一种多元相依变量统计分析技术，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。主要应用在市场细分、产品定位、地质研究以及计算机工程等领域中。原因在于，它是一种视觉化的数据分析方法，它能够将几组看不出任何联系的数据，通过视觉上可以接受的定位图展现出来，详见参考文献[4]。

R软件实现对应分析的程序如下：

Corresp(x,nf=1,…)

X为表示进行对应分析的数据矩阵，nf为计算因子的个数。

例3利用例1的数据，进行相关对应分析。

R语言程序如下：

>X<-read.table("clipboard",header=T)

>row.names(X)<-c("济南","青岛","淄博","枣庄","东营","烟台","潍坊","济宁","泰安","威海","日照","莱芜","临沂","德州","聊城","滨州","菏泽")

>library(MASS)

>cal<-corresp(X,nf=3)

> cal

First canonicalcorrelation(s): 0.09498307 0.06957904 0.05853940

Row scores:

[,1][,2] [,3]

济南 -0.47699756 -0.6885595 -2.6382557

青岛 0.96741848 0.31366371.2941896

淄博 0.37264061 1.0081191-0.2128972

枣庄 0.24558092 -0.9824387 -0.2181011

东营 -0.54396185 -0.6537340 -0.7755235

烟台 0.76059679 0.48114040.2145390

潍坊 -2.16920121 0.90766921.3126103

济宁 0.05826518 0.10803750.5281096

泰安 0.58733529 -0.93058620.6652785

威海 1.35365553 2.3737554-0.8793518

日照 1.10047866 -0.77323670.1127328

莱芜 0.17560188 -0.7192844 -0.9243774

临沂 -0.08622247 -1.2358252 0.7273149

德州 -0.37580027 -1.2772223 0.4300355

聊城 -0.11688207 -0.4977757 0.7740150

滨州 -2.20651738 1.0594580 -0.5584333

菏泽 0.16551451 -0.44520240.5084064

Column scores:

[,1] [,2][,3]

食品 0.52523641-0.7675569 0.02054803

衣着1.90845510 1.6578721 0.76764420

居住 -1.748100050.5786733 0.65009264

设备用品 0.03597405 -0.8938313 -0.21425105

交通通讯 -0.52356069 -1.0863547 -0.77153434

文化教育 0.42806363 1.04009770.62909600

医疗保健 -0.02051876 1.8098398 -3.09255548

其它0.51837527 0.5603683 2.92565707

>biplot(cal);abline(v=0,h=0,lty=3)

由对应分析图可以看出2008年山东省各市居民消费实际情况，并可直观的划分类与层次。

本文结合实例，介绍了R软件在多元统计分析教学中的具体应用，通过R软件的具体操作来实现多元数据分析，一方面可以加深学生对多元统计方法的理解，更好的掌握多元统计理论方法，同时还可以使学生摆脱繁琐的计算，使学生能处理实际的多元数据分析。

参考文献
[1]王斌会.多元统计分析及R语言建模[M].广州：暨南大学出版社，2010.
[2]汤银才.R语言与统计分析[M].北京：高等教育出版社，2005.
[3]高惠璇.应用多元统计分析[M].北京：北京大学出版社，2005.
[4]李卫东.应用多元统计分析[M].北京：北京大学出版社，2008.

查看相关论文专题：

	加入收藏打印本文
上一篇论文：PPP项目风险因素的网络分析模型_风险分析
下一篇论文：返回列表

毕业论文分类

行政管理毕业论文	工商管理毕业论文
护理毕业论文	会计毕业论文
会计专业毕业论文	英语专业毕业论文
大学毕业论文	硕士毕业论文
计算机毕业论文	市场营销毕业论文
物流管理毕业论文	法学毕业论文

相关硕士毕业论文

最新硕士毕业论文

读者推荐的硕士毕业论文