3.2 相似度计算相似度是通过Jaccard系数[2]来度量的。经Shingle算法处理过的文档一和文档二获得的Shingle集合为A和B,那么定义文档一和文档二的Jaccard系数J为:

表示A交B的模, 表示A并B的模。根据获得的Jaccard系数与阀值的比较,便可得知这两篇文档是否重复。

表二藏语词汇按音节分布情况
|
数量(个) |
占比(%) |
单音节 |
5306 |
6 |
双音节 |
43718 |
48 |
三音节 |
20396 |
22 |
四音节 |
16191 |
18 |
五音节 |
2895 |
3 |
六音节 |
1433 |
2 |
七音节 |
603 |
1 |
其它多音节 |
628 |
1 |
合计 |
91170 |
100 |
3.3 消除重复一直以来,对于重复的定义都非常模糊,没有一个清晰的定义。本文采用的是Pugh(Work for Google)对于重复的定义。
定义 重复文档:如果两篇文章之间有超过r个特征相同,则它们就是相似的[2]。
Jaccard系数就表示其相同特征的相对数目。有经验证实,在汉语当中规定当J >0.2时表示这两个文档为重复文档。但是藏语仍没有人作出类似的统计或实验结论,实验曾证明0.2对藏文页面不是很合适。论文参考。
其中一个实验如下:
(1)米卢率领中国足球队首次杀入世界杯决赛阶段
(2)中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格
这两则材料的汉语表述获得的Jaccard系数为:J=0.0833,表明这两则内容重复的可能性很小,根据阀值0.2可判断为不重复。论文参考。但是藏语表述获得的Jaccard系数为:J=0.7143,表明这两则内容重复的可能性很高。究竟使用Shingle方法实现消除重复藏语文档,应当取是否重复的阀值为多少合适,这不是本文讨论的重点可参考其它文献。规定该阀值为多少,不会影响消重的功能,但是可能对系统的效率和检索质量影响较大。
4 解决方案在藏文编码不统一情况下,无论采用哪一种消除重复页面的方法都是不可能实现的,所以在处理过程中必须首先统一编码即将其它的藏文编码转换为一种编码。本文所述的方案在实现时采用的是将其它非同元编码的藏文编码都转化为同元编码[4-8]。
在实现编码统一的基础上本方案采用了Shingle算法来实现消除重复藏文网页,具体的实现流程见图三。

5 结论经过研究试验证明,本文所述的针对不同编码的藏文网页的消重解决方案,能够较好的解决国内国际编码不同一的问题,并且能够解决其它未出现的编码,为藏文搜索引擎的开发打下基础。但是由于一些因素,该解决方案在实现上尚不能包容当前所有的藏文编码。虽然消除重复藏文网页算法采用了经典的Shingle算法,能够实现消除重复网页的目的,但是在效果和性能上尚不能满足各方面、各层次的需求。
参考文献:
[1] 桑热嘉措.藏文文法简编[M].西宁:青海省新华书店,1955.
[2] 梁斌.走进搜索引擎[M].北京:电子工业出版社,2007.
[3] 寇煜,张昀,于洪志.藏文编码、术语与信息技术[J].术语标准化与信息技术,1999,03:36-39.
[4] 高定国,欧珠.藏文编码字符集的优化研究[J].中文信息学报,2008,Vol.22No.4,119-122.
[5] GB 16959-1997 信息技术 信息交换用藏文编码字符集 基本集[S].1997.
[6] GB/T 20542-2006 信息技术 藏文编码字符集 扩充集A[S].2006.
[7] GB/T22238-2008信息技术 藏文编码字符集 扩充集B[S].2008.
[8] Julie D.Allen, Joe Becker, Richard Cook and so on.The UnicodeStandard 5.0[M].5th Edition, Boston,Addison-Wesley,2006.
2/2 首页 上一页 1 2 |