除了上述重要定义外,本文还利用了一些其它相关的云理论及定义,如云变换分类算法,云的普适性说明,云概念提升等,限于篇幅,我们就不再逐一说明,具体知识请参考文[2]。
2分析过程及算法描述
2.1分析过程
在多条件单规则发生器中,规则前件的多个条件和规则后件的单个规则可以用形如表1的决策表所描述,其中任意 。表1中表示仅描述了规则集中一条规则的数据分布信息,这条规则为If 、 、…、 ,Then 。
表1多条件单规则决策表
样本ID
|
条件属性
|
决策属性
|

|

|
|

|

|
1
|

|

|
…
|

|

|
2
|

|

|
…
|

|

|

|

|

|

|

|

|
n
|

|

|
…
|

|

|
决策表中所有样本满足同一规则推理,即If 、 、…、 ,Then ,按规则推理可知,应该把这些样本都归为同一类,即归为概念 集合中。然而根据粗糙集相关原理可知,在属性决策表中,若所有样本的条件属性值和它对应决策属性值都各不相同,则说明这些样本之间存在一定的差异,应该对它实现进一步的分类,从而让更相似的数据样本归为同一类。事实上,如果所有样本的条件属性值激活每个条件概念属性的隶属度都为1,那么可以推出所有样本决策属性值对应于概念 的隶属程度也为1,即对于表1中任意一个样本 ,若 、 、…、 ,一定可以推出 。根据逆向云发生器原理可知,若隶属度 为1,则说明 为概念 云模型的期望值,因此,所有样本就成了同一个样本的复写。但在工程实践中,决策表是不可以是同一数据的复写,其条件属性与决策属性都不相同,因此,对于可以推出同一规则且具有相同的激活概念的样本,由于条件隶属度的不同,导致每个样本隶属于同一规则(决策属性)的程度存在差异,即隶属于同一决策概念的样本之间可能存在较大的差异,故需对它们实现进一步的分类。
从粗糙集的角度出发分类算法,如果决策属性为连续型数据,那么要对数据样本进行分类,首先将连续型数据转化为离散型数据。若利用边界划分或人工划分等方法对连续型数据进行离散化,但通常会导致临界数据的划分不合理性,即对数据实现了硬划分。然而,利用云模型中的云变换,对连续型数据进行软划分,不仅对数据进行了有效的离散化,而且充分考虑到数据客观分布的特性。
、 、…、 能够推出 ,说明 之间存在一定的相互关系,这样才能共同作用推出规则 ,这种关系就是“软与”关系,其相关程度的值为“软与”操作的结果 。极端地说,如果 激活其相应概念的隶属度都为1,则可以推出 ,此时 值为决策概念 的期望值,它最能代表决策概念 的特征,说明 具有超强关系或稳定关系。因此, 的相互关系是通过对同一决策属性的共同作用来反映它们之间的关系,展示这种关系的过程就是“软与”操作。相应地,为了方便进一步讨论基于云规则推理的分类思想,需要把表1的决策表变成以隶属度为数据值的决策表,如表2所示。
表2多条件单规则中隶属度的决策表
样本ID
|
条件属性
|
决策属性
|
概念
|
概念
|
…
|
概念
|
概念
|
1
|

|

|
…
|

|

|
2
|

|

|
…
|

|

|

|

|

|

|

|

|
n
|

|

|
…
|

|

|
通过上述分析,表2所有的样本不能简单地把其归为概念 类。那么,这些样本到底可以归为哪些类?哪些样本能够比较合适地被概念 所描述呢?
根据知识的不确定性,概念与概念之间的关系存在着一定的模糊区域,因此,在模式识别或概念识别过程中,对特定概念所描述的区域(或称管辖范围)可以允许存在一定的弹性,使得这个概念随着条件的变化更能够体现其描述的力度。把这种能够增强概念描述力度的弹性对象称为弹性系数 ,其值是根据决策表2中所有决策属性值的分布情况来决定的。通常情况下,弹性系数取值为 ,其中 、 分别为概念 云模型 左右相邻的云模型 、 与之相交的隶属度值,如图3所示。

图3 概念 及相邻概念的云模型
图3中,两个红点u1与u2的纵坐标的值就对应于 、 的值,此时弹性系数 的值就为 论文参考文献格式。
2.2 算法描述
有了上述的分析理论做准备分类算法,则基于云规则推理的分类模型的核心思想如下:
(1)对于决策表2,若第 个样本在规则前件的隶属度通过“软与”后得到的相关程度为 ,若 ,则把该样本归入概念 类中;
(2)若 ,则利用 条件云发生器计算出云模型 在激活强度为 的 值(两个值 ),即 ;再利用 条件云发生器计算 分别在云模型 的确定度,即 , ;
2/3 首页 上一页 1 2 3 下一页 尾页 |