藏文文本分类器的设计与实现

时间：2011-04-24 作者：秩名

论文导读：面对目前这个迫切形势，对于藏文文本分类，我们提出采用基于类别特征向量的分类算法生成不同的类别标签，然后再利用Boosting算法建立藏文文本分类器。
关键词：向量的分类算法，Boosting算法

0.引言

随着信息技术的飞速发展，藏族信息化的发展以不可阻挡的态势渗入到藏族的每个角落，各种藏文电子文本数据急剧增加，如何快速有效地获取、管理和使用这些藏文文本数据，已经成为一项重要而紧迫的研究课题。面对目前这个迫切形势，对于藏文文本分类，我们提出采用基于类别特征向量的分类算法生成不同的类别标签，然后再利用Boosting算法建立藏文文本分类器。

1. 用基于类别特征向量的分类算法生成类标签

1.1藏文文本分类的定义

藏文文本分类（Tibetan Text Classification ，TTC）是根据给定的藏文文本的内容，将其判别为事先确定的若干藏文文本的某一类或几类的过程。藏文文本分类和其他文本分类一样，也关注的是文本的种类。

1.2藏文文本的向量表示

根据藏文字丁和藏文语法，藏文文本向量表示的空间模型是将藏文文档D看做是由一组特征项和相应的权重构成，即用藏文向量()表示藏文文档D，并且规定互不相同，藏文向量被称为藏文文档D的向量表示。把这个分类过程简化为藏文空间向量运算，这样问题复杂度将降低。

在对藏文文本进行向量空间表示时首先需要对藏文文本进行预处理，预处理过程：1）选用单垂符和双垂符作为句子分界的标志，对藏文文本进行句子边界识别；2）删除藏文文本中的功能词、数字和英文符号串等词汇；3）采用bi－gram语法模型直接对藏文文本进行切分[1]，得到二元藏文字串构成的文本特征项。下面是bi－gram切分的实例：

这个句子中：B表示句子的开始，E表示句子的结束。按照这样切分，藏文文本在高维空间被表示。其中藏文文本空间中的每一维都表示文档中一个藏文单词，即：藏文特征项。

藏文特征项权值是指藏文特征项代表文档D的能力大小。这里的计算方法主要采用TF*IDF思想，TF（termfrequency）代表某藏文单词在文档中出现的频度，DF(document frequency)代表某藏文单词在多少个文档中出现，出现越多越不重要。计算权值公式（1）：

其中，为藏文单词t在藏文类别中的权重；为藏文单词t在藏文类别中的词频；N为训练藏文文本的总数；为训练藏文文本集中出现t的藏文文本数，分母为归一化因子。这样经过预处理后，藏文文本被表示为：以藏文单词为特征项权值的空间向量。

1.3 藏文文本的评价函数

用bi-gram方法切分藏文文本会产生大量无意义的特征项，如果直接采用TF*IDF值作为评价函数，这些无意义的特征项在这个藏文训练集中通常仅出现一次。因此，还要采用如公式(2)的评价函数，以过滤无区分能力的特征项：

其中，为公式（1）求得的藏文单词特征项权值，然后再按照对藏文单词的特征项权值进行排序，排序后选取前n维作为类别向量[2]。

1.4 算法描述

根据藏文字丁和藏文语法本文采用基于类别特征词向量的方法对藏文文本进行分类，构建类标签。在这种藏文文本分类方法中，训练过程分别为每个藏文文本类建立起一个藏文类别向量，对于测试的藏文文本，通过计算新的藏文文本向量与各藏文类别向量之间的距离来判断它所属的类别。分类算法模型如图1：

、

图1 分类算法模型

1.4.1 训练过程

a)提取bi-gram项和藏文文本向量化。对藏文文本进行边界识别和功能词剔除后，采用bi-gram切分文本，得到所有二元藏文单词作为藏文文本特征项，以特征向量形式表示藏文文档。

b)提取藏文类别特征词。计算藏文文本特征项在各藏文类别中i的权值，按照评价函数排序后提取前n维得到藏文文本中的各类别特征词向量。

c)构造藏文文本类别特征词权向量。以藏文文本特征词相应权值为分量替代藏文文本特征词作为藏文文本类别的向量。

1.4.2测试过程

a)对新藏文文本进行预处理。与训练阶段相同，提取bi-gram项。论文检测。

b)藏文文本特征向量表示。将新藏文文本表示成以bi-gram项为分量的向量，与训练阶段得到的各藏文文本类别特征词向量进行比较。若分量匹配，以藏文文本类别特征词相应权值替换对应的新藏文文本向量分量；若无匹配，以0替换。构成新藏文文本向量后，如维数大于n按权值排序后取前n维；若维数小于n设分量为0. 001补足n维。

c)分类结果输出。计算新藏文文本特征向量与各藏文文本类别向量间的相似度，将新藏文文本分类到相似度值最大的藏文类别中。相似度计算采用向量夹角余弦计算式。[2]

2. 用Boosting算法构造分类器

2.1算法描述

把上面用基于类别特征词向量得到的藏文文本类标签集合设为，藏文文本训练集设为，其中，包含C是每个藏文文本归入类集合，这里允许每个藏文文本可以归入藏文文本的多个类，其中的公共部分组成一个新藏文单词为。论文检测。

算法描述如下[3]：

（1）初始化；

（2）计算。其中，时，，否则为表示假设函数的特征（即如π为真返回1，否则返回0），表示藏文文本单词在藏文文本中出现，表示藏文文本单词在文本中不出现。

（3）在所有中，取定一个藏文文本单词，k=1，……，r，计算。对所有的S，。对所有的S，弱假设弱藏文文本分类器取为：

计算，当在藏文文本中出现时，为C1i，否则为C0i；

（4）对中，所有的藏文文本单词都执行了第三步操作，取出Z最小的，最终得到一个弱假设为：

成为藏文文本中心词，第一个弱假设完全有藏文文本中心词确定。论文检测。

（5）由公式得到，j=1，……，g，i=1，……，m；

（6）重复2－4操作得到第二个弱假设，此过程一直进行下去，最终得到第二个弱假设，l=1,……，s；

（7）组合s个弱藏文文本分类器，得到最终的藏文文本分类器为：。

2.2 构建分类器

用上述Boosting算法构建藏文文本分类器，实际上是找到s个藏文文本中心词，每个藏文文本中心词确定一个弱假设即弱藏文文本分类器，然后组合s个弱藏文文本分类器，得到最终的藏文文本分类器。构建完毕后对于任何一个新输入的藏文文本，分类器首先计算新藏文文本在每个藏文文本类上的得分,并将藏文文本归到得分最高的藏文类。对于一个藏文文本可能属于多个藏文文本类的情况，只需取一个阈值，当这个藏文文本在类上的得分大于这个阈值时，就将这个藏文文本归到这个藏文文本类中【4】。

3.结束语

以上构建的分类器在实际中还存在一些藏文文本类标签无法归属那个具体的藏文文本类的问题，今后我们将会继续研究藏文构词特点和藏文语法，尽快找到一个能把藏文文本分类器中的藏文文本类标签精确归属那个藏文文本类的算法，以使藏文文本能够精确分类。

【参考文献】
[1]袁向阳,殷建平.基于二元语法的全链接模块化B*树设计[J].计算机工程与应用，2005,(41):27.
[2]何建英,陈蓉,徐森,刘佳,于中华.基于类别特征向量表示的中文文本分类算法[J].计算机应用研究,2008,2.
[3]HATONEN K, KLEM ETT INEN M, MANN ILA H, etal TASA: telecommunication alarm sequence analyzer or how to enjoy faultsin your network [c] //proc of IEEE Network Operations and Management Symposium.Kyoto [s n], 1996,520-529
[4]陆建江,张文献.中文文本分类器的设计[J].计算机工程与应用,2002:50-51.

查看相关论文专题：

	加入收藏打印本文
上一篇论文：采用数据挖掘技术中ID3决策树算法分析学生成绩
下一篇论文：城市客运管理IVR系统的设计与实现

科技论文分类

相关计算机论文

无相关信息

最新计算机论文

读者推荐的计算机论文