欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 毕业论文 > 计算机毕业论文

中文网页自动分类综述_网页分类-论文网

时间:2015-01-18  作者:盛魁,赵鹏
决策树方法是数据挖掘中非常有效的分类方法,它具有较强的噪音排除能力及学习反义表达能力。可以使用几种流行的归纳技术如C4.5,CART,CHAID来建立决策树。

神经网络(NN)是一组连接的输入/输出单元,输入单元代表词条,输出单元表示文本的类别,单元之间的连接都有相应的权值。训练阶段,通过某种算法,如后向传播算法,调整权值,使得测试文本能够根据调整后的权值正确地学习。王煜等提出了基于RBF和决策树结合的分类法。

4.中文网页分类的评价指标

对于网页分类的效率评价标准,目前还没有真正权威和绝对理想的标准,通用的性能评价指标:召回率R(Recall)、准确率P(Precision)和F1评价。

召回率为分类的正确网页数和应有的网页数的百分比,即该类样本被分类器正确识别的概率。准确率也称为分类的精度,它是指自动分类和人工分类结果一致的网页所占的比率。召回率和准确率不是独立的,通常为了获得比较高的召回率通常要牺牲准确率;同样,为了获得比较高的准确率通常要牺牲召回率。因此需要有一种综合考虑召回率和准确率的方法来对分类器进行评价。F度量是常用的组合方式:F=2RP/(R+P)。

其实,网页数量极其巨大,单纯的查全率已经没有实际价值,查准率的意义也要作相应的变通;数据库规模,索引方法,用户界面,响应时间应该纳入评价体系,作为评价指标。

5.中文网页分类系统简介

TRS网络信息雷达系统(TRSInfoRadar)是北京托尔思信息技术股份有限公司开发,该系统实时监控和采集Internet网站内容,对采集到的信息自动进行过滤、分类和排重等智能化处理,最终将最新内容及时发布出来,实现统一的信息导航。同时提供包括全文、日期等在内的全方位信息查询。TRSInfoRadar集信息采集监控、网络舆情、竞争情报等多种功能于一体,被广泛地应用于政府、媒体、科研、企业等各个行业中。TRSInfoRadar在内容运营的垂直搜索应用、内容监管的网络舆情应用以及决策支持的竞争情报等方面的应用,将极大的提高组织对外部信息的获取效率,极大降低信息采集成本,全方位掌控环境脉动,并提高各个组织的快捷反应效能。

百度电子政务信息共享解决方案以百度先进的信息整合处理技术为核心,为政府内网和政府信息门户建设高性能信息共享平台,能够将相关地区、机构、组织等多种信息源的信息集中共享,让用户在一个地方即可获取到所需要的各种相关信息,使电子政务由'形象工程'变成'效益工程',有效提高政府工作效率,大幅提升政府威信和公众形象。其具有强大的信息采集能力、安全的信息浏览、准确的自动分类、全面的检索功能、丰富的检索结果展示和基于Web的系统管理平台的特点。

清华同方KSpider网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再利用的信息服务系统。KSpider能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。KSpider能够快速及时地捕获用户所需的热点新闻、市场情报、行业信息、政策法规、学术文献等网络信息内容,可广泛用于垂直搜索引擎、网络敏感信息监控、情报收集、舆情分析、行情跟踪等方面。

6结束语

随着因特网的迅速发展,中文网页自动分类成为搜索引擎实现分类查询的关键。这就要求中文网页自动分类技术在网页的处理方法、网页效果识别、分类精度和评价指标等方面有进一步的提高,所以中文网页自动分类技术是一个长期而艰巨的研究课题。

参考文献
1 陈安,陈宁,周龙骤等.数据挖掘技术及应用[M].北京:科学出版社,2006.3
2 孙建涛,沈抖,陆玉昌等.网页分类技术.清华大学学报(自然科学版) [J].2004, 44(1):65~68
3 董静.中文网页形式自动分类[D].大连理工大学硕士学位论文,2006.
4 范焱,郑诚等.用NaiveBayes方法协调分类Web网页[J].软件学报, 2001(9) 1386-1392
5 都云琪、肖诗斌.基于支持向量机的中文文本自动分类研究[J].计算机工程2002,28 (11)137-138
6 鲁明羽,沈抖,郭崇慧,陆玉昌.面向网页分类的网页摘要方法[J].电子学报,2006,34(8):1475-1479
7 刘卫红,方卫东, 董守斌,张凌. 基于内容与链接特征的中文垃圾网页分类[J].微计算机信息. 2010,26(3-3):5-8.
8 张义忠,赵明生,梁久祯.基于自组织特征映射的网页分类研究[J].信息与控制,2003,32(2):108-117
9 李滔,王俊普,徐扬.一种基于粗糙集的网页分类方法[J].小型微型计算机系统,2005,24(3):520-522
10 Zou Haishan,Wu Yong,Wu Yuezhu et al.The processing technology of Chinese informationin Chinese searchengineering.Application Research of Comput-ers,2000(12):21~24
11 Y.Yang,Jan O.Pedersen,A Comparative study on Feature Selection in Text Categorization,In Interna- tional Conferenceon Machine Learning,1997.412~420
12 Salton G.Developments in automatic text retrieval.Science,1991.253,974~979
13 Yang Yinming, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization. In:Proceedingsof ICML,Nash-ville,Tennessee,USA,1997
14 单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较.计算机工程与应用,2003,39(22): 146~148
15 McCallum A,Nigam K.A Comparison of Event Models for Naive Bayes Text Classification.Learning for TextCategorization:Papers from the AAAI Workshop.Tech.rep.WS-98-05,AAAIPress,1998:41-48.
16 Yiming、Yang,R.Slattery,R.Ghani.A study of aproaches to hyertext categorization,Journal of IntelligentInformation System,2002,18page:219-241.
17 T Joachims,Text categorization with support vector machines:Learning with many
18 Jyh-Jong Tsay,Jing-Doo wang.Design and Evaluation of Approaches to Automatic Chinese Text Categorization,Computational Linguistics and Chinese Language Processing.Vol.5. No.2.2000.43-58.
19 刘钢,胡四泉,范植华等.神经网络在文本分类上的一种应用[J].计算机工程与应用.2003,39(36):73-74,92.
20 李蓉,叶世伟,史忠植.SVM-KNN分类器——一种提高SVM分类精度的新方法[J].电子学报 2002,30(5)745-748
21 王煜、徐建民.基于RBF神经网络和决策树的文本分类方法[J].计算机工程与应用[J].2005,41(14)175-178
22 孙建军,成颖,丁芹等.信息检索技术.北京:科学出版社,2004.

查看相关论文专题
加入收藏  打印本文
上一篇论文:基于小型数据库的PDF417编码及软件实现-论文网
下一篇论文:中职计算机专业教师信息化教学设计能力培养研究--以淮阴商校计算机专业教师为分析对象-论文网
毕业论文分类
行政管理毕业论文 工商管理毕业论文
护理毕业论文 会计毕业论文
会计专业毕业论文 英语专业毕业论文
大学毕业论文 硕士毕业论文
计算机毕业论文 市场营销毕业论文
物流管理毕业论文 法学毕业论文
相关计算机毕业论文
最新计算机毕业论文
读者推荐的计算机毕业论文