3.4 分类器的个性化反馈式学习
不法分子在制造垃圾短信时,会有意避开分类系统的拦截,时常变换垃圾短信的内容,垃圾短信在不同时间段内会有不同的特征,不同用户也会收到不同类型的垃圾短信,且用户对垃圾短信的认定也是各不相同的。一个优良的分类器除了能够达到较高的分类准确率之外,还要能够适应分类标准的动态变化,而反馈学习能有效降低分类标准改变后对分类的影响。在改进的贝叶斯分类中会添加增量式的反馈学习以适应短信分类标准的改变。
在贝叶斯增量式学习过程中,需要对相关的统计量进行更新,重新计算先验概率和特征的类条件概率。用户可以选择一定的短信集合进行反馈训练,增量式的反馈学习会改变部分特征项的权重,这样就可以训练出满足动态信息变化和用户个性化需求的分类器。
4. 实验结果与分析
4.1 实验数据介绍
由于短信涉及到隐私问题,很难找到较权威的短信语料集,而实验又离不开大量数据的验证,于是,我从网络和个人手机中收集了3082条有代表性的短信样本,先对短信集进行人工的分类,3082条短信样本被人工的分类为508条垃圾短信和2574条正常短信。
实验时把这508条垃圾短信和2574条正常短信分为2组,第一组垃圾短信300条,正常短信1500条作为训练集;第二组垃圾短信208条和正常短信1074条作为测试集。
4.2 评价标准
实验后需要对分类器进行评价,这里我们借鉴文本分类的评价指标―准确率和查全率作为垃圾短信分类的评估指标。
准确率是指所有待判断的短信中与人工分类结果吻合的短信所占的比率,查全率是指人工分类结果应有的短信数与分类结果相同的文本所占的比率,为了综合考虑两者的影响,我们采用另一种常见的评价指标F-Score [5],即:
F?Score = 准确率×查全率×2÷(准确率+查全率)。
4.3 实验结果与分析
采用改进的贝叶斯分类方法,选择DF特征提取方式,使用训练集中的数据对分类器进行训练;分类器训练结束后就是利用测试数据来测试分类器的分类效果,在测试实验中,我先用训练集中的数据来对分类器进行测试特征提取,然后再用测试集中的数据对分类器进行测试。
训练分类器时各项参数如表4-1所示:
表4-1 分类器训练时的各项参数
分类器
|
改进的贝叶斯分类器
|
特征选取
|
文档频度(DF)
|
正常短信
|
1500条
|
垃圾短信
|
300条
|
词频比率
|
2
|
4.3.1 测试集的测试结果及分析
使用测试集中的数据进行测试时,其识别率如图4-1所示:

图4-1 DF分类器贝叶斯概率-短信识别率分布图
各项评价指标如表4-2所示:
表4-2 DF分类器的评价结果
贝叶斯概率
|
垃圾短信
|
正常短信
|
查准率
|
查全率
|
F-Score
|
查准率
|
查全率
|
F-Score
|
0.1
|
36.6%
|
92.3%
|
52.5%
|
97.8%
|
68.1%
|
80.3%
|
0.2
|
38.8%
|
92.3%
|
54.6%
|
97.9%
|
70.9%
|
82.2%
|
0.3
|
41.8%
|
92.3%
|
57.6%
|
98.0%
|
74.3%
|
84.5%
|
0.4
|
44.5%
|
92.3%
|
60.0%
|
98.0%
|
76.9%
|
86.2%
|
0.5
|
46.8%
|
92.3%
|
62.1%
|
98.1%
|
79.0%
|
87.5%
|
0.6
|
90.2%
|
91.7%
|
90.9%
|
98.3%
|
98.0%
|
98.2%
|
0.7
|
89.0%
|
91.3%
|
90.1%
|
98.3%
|
97.7%
|
98.0%
|
0.8
|
88.1%
|
91.3%
|
89.7%
|
98.3%
|
97.5%
|
97.9%
|
0.9
|
86.9%
|
88.7%
|
87.8%
|
97.7%
|
97.3%
|
97.5%
|
1
|
85.2%
|
86.3%
|
85.8%
|
97.3%
|
97.0%
|
97.1%
|
从图4-1和表4-2中可以看出,当贝叶斯概率为0.6时,垃圾短信和正常短信的F-Score取值均达到最大值,因此分类器的贝叶斯概率为0.6时可以保证较高的短信分类效果中国论文网。
4.3.2 分类器的个性化训练和测试
根据3.4节的描述,实验模型具备动态调整过滤规则的能力,即可以进行反馈训练,训练出个性化的分类器,反馈训练分为正反馈和负反馈,正反馈是对正常短信的个性化训练,负反馈是用户对垃圾短信的个性化训练。
对于个性化分类器的训练和测试,我挑选了200条内容类似的近期收到的垃圾短信,并分成了两组,每组100条,先用一组作为负反馈的训练集,对分类器进行个性化训练;然后用另外一组作为负反馈的测试集,测试结果如图4-2和图4-3所示:

图4-2 贝叶斯概率-短信条数分布图

图4-3 贝叶斯概率-短信识别率分布图
从短信条数和识别率的分布图上可以看出,经过反馈后的分类器,在分类此类短信时取得了很明显的效果。对于正反馈,没有借助实验验证,相信同样可以用反馈集的训练得到个性化的分类器。
4.3.2 结合黑白名单过滤机制
对于垃圾短信认定有一定的主观因素,虽然分类器已经调整了正常短信的通过率,但其识别率仍没有达到100%,对于我设计的分类器来说,如果贝叶斯分类器改变概率模式,有时会使得同一条短信被分到不同的类别中,基于此,我把分类器与黑白名单机制结合起来,以提高正常短信的通过率,系统流程图如图4-24所示:
 
从流程图可以很明显的看出,分类器经过和黑白名单过滤机制结合以后,可以有效地提高正常短信的通过率特征提取,但同时也提高了垃圾短信的误判率。由于在收集短信时,没有收集短信的发送号码和收信号码,因此没有进行大量的实验验证。我用50条带有虚拟发送号码的短信进行了测试,其中有25条正常短信和25条垃圾短信,实验证明确实提高了短信的通过率,但通过的一部分短信中,有部分短信本来是垃圾短信,但经过改变概率模式后,变成了正常短信且发送号码在白名单中,就被分到正常短信类中而通过了。具体结果如表4-3所示:
表4-3 贝叶斯分类器结合黑白名单机制结果
贝叶斯概率
|
垃圾短信
|
A
|
正常短信
|
B
|
0.1
|
23
|
5
|
18
|
3
|
0.2
|
23
|
7
|
19
|
3
|
0.3
|
24
|
7
|
19
|
2
|
0.4
|
24
|
6
|
21
|
2
|
0.5
|
24
|
8
|
22
|
1
|
0.6
|
24
|
4
|
25
|
0
|
0.7
|
23
|
4
|
25
|
0
|
0.8
|
23
|
4
|
25
|
0
|
0.9
|
23
|
3
|
25
|
0
|
1
|
22
|
3
|
23
|
1
|
注:A表示垃圾短信中被正确判断,通过改变概率模式后的正常短信数(黑白名单过滤前的数量),B表示正常短信中被错误判断为垃圾短信,通过改变概率模式后的正常短信数(黑白名单过滤前的数量)。
5. 结束语
改进的贝叶斯分类器在的短信分类时取得很好的效果,实验表明,对垃圾短信和正常短信的识别率可以达到90.9%和98.2%,可以看出对正常短信的误判率要小于垃圾短信的。但由于实验时仅仅借助计算机来演示,没有应用到智能手机上,我想这也是我下一步工作的重点;随着彩信的出现,短信不再单纯的以文本形式为主,图片、声音等多媒体信息将会成为主要的载体,如何有效地对彩信进行分类也将是我下一步工作的重点。
参考文献
[1]http://baike.baidu.com/view/23359.htm.
[2]陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J]. 计算机研究与发展, 2002年10期.
[3]罗三定,陆文彦,王浩,贾维嘉.基于概念的文本类别特征提取与文本模糊匹配[J]. 计算机工程与应用,2002年16期.
[4]李旭升,郭耀煌.一种新颖混合贝叶斯分类模型研究[J]. 计算机科学, 2006年09期
[5]F.Sebastiani.Machine learning in automated text categorization [J].ACM ComputingSurveys.2002, 34(1):1-47.
2/2 首页 上一页 1 2 |