| 论文导读:用追踪法进行模糊聚类分析主要可以分为:数据标准化、标定(建立模糊矩阵)、模糊聚类三个部分。其余的23个行业污染程度居中。模糊聚类,追踪法在行业污染分类中的应用。关键词:模糊聚类,追踪法,行业污染
 
 1 引言 传统的聚类分析是一种硬划分,每个对象都只能归于一类,而现实的分类问题往往伴随着模糊性,即每个对象属于某一类是程度问题。这时候单纯的严密的理论推导和数学计算往往达不到很好的效果,相反,模糊逻辑在这方面具有极大的优势【1】,随着模糊数学的不断发展,聚类的算法也在不断的更新和发展.新产生的聚类算法更加适用于生产生活,并且和计算机技术的结合也更加紧密,追踪法就是这样的一种算法。和传统的聚类方法相比较,追踪法在建立模糊矩阵后,不需要计算等价闭包,也不需要画图或者编程求解模糊矩阵的最大生成树和编网,只需要对模糊矩阵进行算法复杂度为O(n2)的数据分析,就可以得出聚类结果。 2 模糊聚类新算法---追踪法的计算步骤 用追踪法进行模糊聚类分析主要可以分为:数据标准化、标定(建立模糊矩阵)、模糊聚类三个部分。 2.1 数据标准化 这里所说的数据标准化,就是根据模糊数学相关理论,去掉数据中的量纲,并将数据压缩到区间[0,1]上。 设论域 为被分类的对象,每个对象可以使用m个指标表示其性状:  于是得到原始数据为: 
 在实际问题中,不同的数据由于其量纲不同,无法进行比较。为了使有不同量纲的量也能进行比较,通常需要对数据作适当的变换。一般采用平移标准差变化法来解决这个问题,计算公式如下:  = 
 
 经过变换后,变量的均值为0,标准差为1,且消除了量纲的影响。 2.2 标定(建立模糊矩阵) 设论域 依照传统聚类方法确定相似系数,建立模糊相似矩阵,  与  的相似程度  ,确定  的方法主要借用传统聚类的数量积法、夹角余旋法、相关系数法、指数相似系数法、绝对值倒数法、绝对值指数法、闵可夫斯基距离法、马氏距离法和兰氏距离法等方法。具体采用哪些方法进行聚类分析,主要依据实际情况决定。 2.3 使用追踪法进行模糊聚类 在建立了模糊相似矩阵后,就可以用追踪法进行数据分析。主要步骤如下: 1 模糊相似矩阵R出发,求得其 截矩阵  ; 2 于对称性,先得到截矩阵 下三角部分(不包括主对角线元素),再记录该部分的非零元素下标,并存在二元数组A[t][2]中; 3 令g=1,且将g存入数组b[n]中; 4 行搜索数组A[t][2],若数组a中有元素A[i][j](1≤i≤n,1≤j≤2)与g相等,且同一行的另一元素(A[i][j±1])在数组b中不存在,则将A[i][j±1]存入数组b[n]中; 5 令g遍取数组b中元素,重复步骤4,直到没有新的元素加入数组b; 6 将数组b中元素按行存入二元数组C[n][n]中; 7 令g取1~n中任一个数组C[n][n]中不存在的元素,重复步骤4~6;直到数组C[n][n]中的元素总数等于待分类对象的个数n为止【2】。 3 追踪法在行业排污情况中的应用 下面,以从国家统计局网站找到2005年工业按行业分废气排放及处理情况的统计数据为例,说明模糊聚类新算法在行业排污聚类中的应用,数据如表1所示: 表1 行业排污数据统计表   
    
        
            | 行业 | 二氧化硫排放量(万吨) | 二氧化硫去除量(万吨) | 工业烟尘排放量(万吨) | 工业烟尘去除量(万吨) | 工业粉尘排放量(万吨) | 工业粉尘去除量(万吨) |  
            | 煤炭开采和洗选业 | 21 | 5.7 | 10.9 | 141.8 | 24.6 | 9.7 |  
            | 石油和天然气开采业 | 3.2 | 11.6 | 1.4 | 9.9 | 0.1 | 0.1 |  
            | 黑色金属矿采选业 | 4.3 | 1.9 | 1.7 | 19.2 | 3.9 | 31.7 |  
            | 有色金属矿采选业 | 6.7 | 6.3 | 2.7 | 22.4 | 2.8 | 31.0 |  
            | 非金属矿采选业 | 5.7 | 10.9 | 6.8 | 30.7 | 8.8 | 22.1 |  
            | 农副食品加工业 | 15.6 | 6.4 | 20.4 | 97.2 | 2.1 | 4.7 |  
            | 食品制造业 | 9.4 | 3.5 | 5.1 | 41.7 | 0.6 | 1.2 |  
            | 饮料制造业 | 10.7 | 3.1 | 9.0 | 38.1 | 0.2 | 0.6 |  
            | 烟草制品业 | 1.3 | 1.2 | 0.6 | 6.4 | 0.2 | 1.7 |  
            | 纺织业 | 29.6 | 8.7 | 12.8 | 120.4 | 0.3 | 1.0 |  
            | 纺织服装鞋帽制造业 | 1.5 | 0.6 | 0.7 | 6.3 | 1.3 | 5.1 |  
            | 木材加工及木竹滕棕草制品业 | 4.8 | 0.7 | 5.5 | 20.7 | 1.6 | 10.5 |  
            | 家具制造业 | 0.4 | 0.5 | 0.2 | 6.8 | 0.2 | 5.6 |  
            | 文教体育用品制造业 | 0.3 | 0.1 | 0.2 | 2.6 | 0.4 | 15.1 |  
            | 医药制造业 | 6.4 | 2.5 | 4.2 | 32.5 | 0.1 | 0.2 |  
            | 化学纤维制造业 | 11.5 | 5.8 | 4.6 | 117.8 | 0.1 | 1.8 |  
            | 金属制品业 | 2.6 | 0.6 | 1.7 | 6.3 | 1.0 | 3.1 |  
            | 通用设备制造业 | 5.5 | 1.4 | 3.8 | 33.1 | 2.3 | 10.3 |  
            | 专用设备制造业 | 3.3 | 2.3 | 21 | 10.5 | 1.7 | 4.7 |  
            | 交通运输设备制造业 | 4.1 | 1.5 | 3.0 | 39.6 | 3.2 | 14.1 |  
            | 电气机械及器材制造业 | 2.7 | 0.9 | 1.5 | 5.0 | 0.3 | 0.1 |  
            | 通信计算机及其他电子设备制造业 | 1.7 | 0.7 | 0.8 | 6.1 | 0.4 | 5.8 |  
            | 工艺品及其他制造业 | 0.5 | 0.1 | 0.5 | 0.9 | 0.2 | 0.5 |  
            | 燃气生产和供应业 | 1.9 | 0.8 | 1.4 | 25.5 | 0.1 | 2.2 |  从表一的数据中不难看出,各行业由于行业发展水平不同,所以各行业排污的情况也不相同,传统的硬性分类方法,很显然不适合对表一的数据进行分类。这里采用模糊聚类新方法——追踪法来处理以上数据。详细计算步骤如下: 3.1 数据标准化 根据表一中的数据,可得到数据的原始矩阵为: 
 运用标准差法,可消除数据中的量纲, 其Matlab程序如下: %计算平均值 for k=1:1:m sum=0; fori=1:1:n; sum=sum+x(i,k); end mean(k)=sum/n; end %计算s(k) for k=1:1:m sum=0; fori=1:1:n; temp=(x(i,k)-mean(k))^2; sum=sum+temp; end s(k)=sqrt(sum/n); end %消除量纲 fori=1:1:n for k=1:1:m x(i,k)=(x(i,k)-mean(k))/s(k); end end 3.2 建立模糊矩阵 本文应用闵可夫斯基距离法建立模糊相似矩阵,其计算方法如下: 
 式中,C和 是两个适当选择的参数。  
 取C=0. 1(保证 的取值在0与1之间) m=3 q=2  =1可得计算方法为: 
 其Matlab程序如下: for i=1:1:n for j=1:1:n sum=0; for k=1:1:m temp=x(i,k)-x(j,k); temp=temp*temp; sum=sum+temp; end r(i,j)=1-0.1*sqrt(sum); end end 3.3 使用追踪法进行模糊聚类 本次聚类选取α=0.71,从模糊相似矩阵R出发,求得其 截矩阵  ;先得到截矩阵  下三角部分(不包括主对角线元素),再记录该部分的非零元素下标,并存在二元数组A[t][2]中(本次分类中t=136),再按照本文2.3中描述的方法,对数据进行追踪分类。论文写作,模糊聚类。最后,可将行业污染数据分成三类:1 煤炭开采和洗选业;2农副食品加工业和纺织业;3 其余23个行业为一类。 通过分类发现:煤炭开采和洗选业属于重度污染行业,其对环境的影响,远远大于其他行业;农副食品加工业和纺织业属于污染较小的行业,相对而言对环境的影响较小;其余的23个行业污染程度居中。论文写作,模糊聚类。论文写作,模糊聚类。 4 结论 使用模糊聚类的新方法—追踪法,可以较为准确的对行业污染进行分析。论文写作,模糊聚类。论文写作,模糊聚类。和传统的聚类分析方法相比较,追踪法的运算复杂度只有O(n2),具有运算速度快,分类准确等特点。论文写作,模糊聚类。比较适合于处理大量数据分类的问题,具有一定的应用前景。 参考文献
 [1]方宏斌.模糊聚类及其实际应用[J].广东通信技术,2005,05:9-13
 [2]张兴华.模糊聚类分析的新算法[J].数学认知与实践,2005,35(3):138-141
 
   |