论文导读:2000年,TibshiraniR等提出了Gap统计量,并用它来估计最佳聚类数。
关键词:FCM,Gap,聚类有效性
一 引言
聚类分析是数理统计中研究“物以类聚”的一种方法。聚类分析是一种无监督分类工具,其目的是在没有先验知识的前提下基于某个相似性度量找出属于同一属性集的数据,继而将数据对象集合分成不同的类,因此它是挖掘数据未知的、具有潜在应用价值的信息的一种很好的方法。介于其在海量数据处理中显现出的优势,使得它在数据挖掘、模式识别、图像处理、经济学(尤其是市场研究方面)等领域得到了广泛的应用。免费论文。然而,正是由于聚类分析的无监督特性,导致了数据最佳的聚类数很难确定,这就是聚类分析面临的最主要的问题。免费论文。
二 FCM方法
经典分类学是从单个因素或有限几个因素出发,凭经验和专业知识对事物分类,这种分类具有非此即彼的特性,分出的类别界限很清晰。免费论文。随着认识的深入,发现这种分类不适用于具有模糊性的分类问题,如图像中的区域之间的边界就往往是模糊不清的。1965年,Zadeh提出了著名的模糊集理论,创建了一个新的学科—模糊数学。
用普通数学方法进行分类的聚类法称为普通聚类分析,而把应用模糊数学方法进行分析的聚类分析称为模糊聚类分析。论文发表。论文发表。在实际中应用最为广泛的是模糊C一均值算法(FCM:Fuzzy C-Means)。论文发表。FCM算法首先是由为Ruspini提出的,但真正有效的方法是由Dunn给出的。1974年Dunn将硬C--均值聚类算法推广到模糊情形,同年Bezdek将Dunn的方法一般化,给出了基于目标函数模糊聚类的一般描述:
其中, 表示 隶属第 类 的隶属度函数, 表示 与 的距离, 为平滑指数.聚类准则为取 为极小值 .
1980年Bezdek证明了模糊C-均值聚类算法的收敛性并讨论了模糊C一均值聚类算法与硬C一均值聚类算法的关系。从此,基于目标函数的模糊聚类方法蓬勃发展起来。
三 模糊聚类有效性函数
不少学者为估计数据集存在的最佳聚类数进行了大量地研究,基于模糊聚类分析的最佳聚类数的研究,也取得了丰富的成果。1974年,Dunn给出了如下的有效性判别函数:

其中,

1974年,Bezdek给出了如下有效性判别函数:

1991年,X.L.Xie和G.Beni定义了如下有效性判别函数,在实际应用中取得很好的效果。

四 一种新的聚类有效性函数
2000年, Tibshirani R等提出了Gap统计量,并用它来估计最佳聚类数。方法通过引入一个参考分布,用gap统计量刻画样本观察值与它们在这个参考分布下的期望值之间的差异,最后通过这个统计量得到最佳聚类数的估计。

其中 , 表示在某参考分布下的期望,一维情况下通常取均匀分布为参考分布,最佳聚类数即出现在 取最大值时。
实验证明应用Gap统计量确定最佳分类数取得比较好的效果,但同时我们注意到Gap统计量方法只考虑了数据的几何特征,没有考虑到数据分类的模糊性,所以我们对Gap统计量的方法加以改进,引入数据的模糊特性,从而使分类数的确定更加合理准确。具体方法如下:
令 ,其中 是 隶属第i类的隶属度函数, 是第i类的质心(均值)。从而定义函数:

表示在某参考分布下的期望,一维情况下通常取均匀分布为参考分布。这样最佳聚类数出现在 取最大值时。
参考文献:
1. 黄陈蓉 张正军 吴慧中. 图像分割的Gap统计模型[J]. 计算机科学.2005.
2. 张正军 李建军 刘力维. 标准化水平的Gap统计量的零件图像分割数估计[J]. 中国制造业信息化.2007
3. 李娜 刘力维 张正军. 基于GS方法的图像最佳分割的研究. 南京理工大学硕士学位论文.2006
4. 张爱华 余胜生. 基于模糊聚类分析的图像分割技术研究. 华中科技大学博士学位论文.2004
|