欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 科技论文 > 计算机论文

消除重复藏文网页的完整解决方案(图文)

时间:2011-04-24  作者:秩名
3.2 相似度计算相似度是通过Jaccard系数[2]来度量的。经Shingle算法处理过的文档一和文档二获得的Shingle集合为A和B,那么定义文档一和文档二的Jaccard系数J为:

表示A交B的模,表示A并B的模。根据获得的Jaccard系数与阀值的比较,便可得知这两篇文档是否重复。

表二藏语词汇按音节分布情况

 

 

数量(个) 占比(%)
单音节 5306 6
双音节 43718 48
三音节 20396 22
四音节 16191 18
五音节 2895 3
六音节 1433 2
七音节 603 1
其它多音节 628 1
合计 91170 100

 

3.3 消除重复一直以来,对于重复的定义都非常模糊,没有一个清晰的定义。本文采用的是Pugh(Work for Google)对于重复的定义。

定义 重复文档:如果两篇文章之间有超过r个特征相同,则它们就是相似的[2]。

Jaccard系数就表示其相同特征的相对数目。有经验证实,在汉语当中规定当J >0.2时表示这两个文档为重复文档。但是藏语仍没有人作出类似的统计或实验结论,实验曾证明0.2对藏文页面不是很合适。论文参考。

其中一个实验如下:

(1)米卢率领中国足球队首次杀入世界杯决赛阶段

(2)中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格

这两则材料的汉语表述获得的Jaccard系数为:J=0.0833,表明这两则内容重复的可能性很小,根据阀值0.2可判断为不重复。论文参考。但是藏语表述获得的Jaccard系数为:J=0.7143,表明这两则内容重复的可能性很高。究竟使用Shingle方法实现消除重复藏语文档,应当取是否重复的阀值为多少合适,这不是本文讨论的重点可参考其它文献。规定该阀值为多少,不会影响消重的功能,但是可能对系统的效率和检索质量影响较大。

4 解决方案在藏文编码不统一情况下,无论采用哪一种消除重复页面的方法都是不可能实现的,所以在处理过程中必须首先统一编码即将其它的藏文编码转换为一种编码。本文所述的方案在实现时采用的是将其它非同元编码的藏文编码都转化为同元编码[4-8]。

在实现编码统一的基础上本方案采用了Shingle算法来实现消除重复藏文网页,具体的实现流程见图三。

5 结论经过研究试验证明,本文所述的针对不同编码的藏文网页的消重解决方案,能够较好的解决国内国际编码不同一的问题,并且能够解决其它未出现的编码,为藏文搜索引擎的开发打下基础。但是由于一些因素,该解决方案在实现上尚不能包容当前所有的藏文编码。虽然消除重复藏文网页算法采用了经典的Shingle算法,能够实现消除重复网页的目的,但是在效果和性能上尚不能满足各方面、各层次的需求。


参考文献:
[1] 桑热嘉措.藏文文法简编[M].西宁:青海省新华书店,1955.
[2] 梁斌.走进搜索引擎[M].北京:电子工业出版社,2007.
[3] 寇煜,张昀,于洪志.藏文编码、术语与信息技术[J].术语标准化与信息技术,1999,03:36-39.
[4] 高定国,欧珠.藏文编码字符集的优化研究[J].中文信息学报,2008,Vol.22No.4,119-122.
[5] GB 16959-1997 信息技术 信息交换用藏文编码字符集 基本集[S].1997.
[6] GB/T 20542-2006 信息技术 藏文编码字符集 扩充集A[S].2006.
[7] GB/T22238-2008信息技术 藏文编码字符集 扩充集B[S].2008.
[8] Julie D.Allen, Joe Becker, Richard Cook and so on.The UnicodeStandard 5.0[M].5th Edition, Boston,Addison-Wesley,2006.
 

 

查看相关论文专题
加入收藏  打印本文
上一篇论文:现代信息技术在“统计与概率”课堂教学中的应用
下一篇论文:新形势下如何加强我校学生公安情报信息工作能力的培养
科技论文分类
科技小论文 数学建模论文
数学论文 节能减排论文
数学小论文 低碳生活论文
物理论文 建筑工程论文
网站设计论文 农业论文
图书情报 环境保护论文
计算机论文 化学论文
机电一体化论文 生物论文
网络安全论文 机械论文
水利论文 地质论文
交通论文
相关计算机论文
    无相关信息
最新计算机论文
读者推荐的计算机论文