论文导读:判别分析是判别样本所属类型的一种统计方法,距离判别和费希尔(Fisher)判别以其思路直观、计算简单易行受到人们的青睐,但其与各总体出现的概率大小(先验概率)及误判造成的损失有关,贝叶斯判别克服了这一弊端。文中将贝叶斯判别与逐步分类判别有机结合在一起,既保留了各总体出现的概率大小(先验概率)的信息,又有效剔除多余变量,形成最有力的判别工具。在判别分析过程中,有时会涉及到较多变量,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别,逐步判别采用有进有出的算法,对每一步都进行检验,把一个判别能力最强的变量引入判别式,同时对先进入判别式的某些变量,如果其原有的判别能力随其后变量的引入而改变(被某些变量的作用所替代),则及时将其从判别式中剔除,使最终的判别式保留判别能力最强的变量。第一步:利用逐步分类判别剔除变量。
关键词:判别分析,贝叶斯判别,逐步判别,剔除变量
引言
判别分析是判别样本所属类型的一种统计方法,距离判别和费希尔(Fisher)判别以其思路直观、计算简单易行受到人们的青睐,但其与各总体出现的概率大小(先验概率)及误判造成的损失有关,贝叶斯判别克服了这一弊端;另外在判别分析中,如果自变量过多,建立判别函数需要大量的计算时间,且由于有关矩阵的阶数太高,使解的精度下降,甚至由于变量的不独立引起计算上的困难;另一方面,由于不太重要的变量的引入,产生干扰而影响判别效果,甚至产生错判,逐步分类判别可以有效剔除多余变量,使最终判别仅仅保留了最强有力的变量。文中将贝叶斯判别与逐步分类判别有机结合在一起,既保留了各总体出现的概率大小(先验概率)的信息,又有效剔除多余变量,形成最有力的判别工具。
1. 贝叶斯(Bayes)判别分析
设有 个总体 ,其 维分布密度函数为 ,各总体出现的先验概率分别是 ,对于样本 ,需要判定归属哪一个总体,把 看成是 维欧氏空间 的一个点,那么贝叶斯判别准则期望对样本空间实现一个划分: ,这个划分就形成了一个判别准则,即若 落入
,则 ,其中

当 ~ 时有
(1)
取对数化简为
(2)
其中, 。
若判别函数为
,则 (3)
当总体参数未知时,可用总体的典型样本来估计,设 的典型样本容量为 ,均值为 ,离差阵为 。
由式(2)取 ,判别函数为

(4)
其中, ,判别规则仍为式(3)。
贝叶斯判别考虑了各总体出现概率的大小(先验概率),但对于变量的质量没有约束。当判别中变量的质量不高时,建立判别函数需要大量的计算时间,且由于有关矩阵的阶数太高,使解的精度下降。论文发表。
2.逐步判别分析
在判别分析过程中,有时会涉及到较多变量,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别,逐步判别采用有进有出的算法,对每一步都进行检验,把一个判别能力最强的变量引入判别式,同时对先进入判别式的某些变量,如果其原有的判别能力随其后变量的引入而改变(被某些变量的作用所替代),则及时将其从判别式中剔除,使最终的判别式保留判别能力最强的变量。论文发表。
实现逐步判别分三步:
第一步:挑选变量
1)数据准备
设观测数据为 为分类数( 个总体), 为指标(变量)个数, 为第 类观测样本数。计算各类样本均值 、总均值 、组内离差矩阵 和离差矩阵 。
1/3 1 2 3 下一页 尾页 |