引用本文:谢治军,杨武,李稚楹,宋静静.基于HMM的主题爬虫研究(J/M/D/N,J:杂志,M:书,D:论文,N:报纸).期刊名称,2012,29(2):66-72
CHEN X. Adap tive slidingmode contr ol for discrete2ti me multi2inputmulti2 out put systems[ J ]. Aut omatica, 2006, 42(6): 4272-435
【打印本页】   【下载PDF全文】   查看/发表评论  【EndNote】   【RefMan】   【BibTex】
←前一篇|后一篇→ 过刊浏览    高级检索
本文已被:浏览 1104次   下载 1972 本文二维码信息
码上扫一扫!
分享到: 微信 更多
基于HMM的主题爬虫研究
谢治军,杨武,李稚楹,宋静静
作者单位
谢治军,杨武,李稚楹,宋静静  
摘要:
主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于eTT的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。
关键词:  主题爬虫  隐马尔科夫模型  向量空间模型  主题相关度  垂直搜索引擎
DOI:
分类号:
基金项目:
Research on Focused Crawler Based on HMM
XIE Zhi-jun;YANG Wu;LI Zhi-ying;SONG Jing-jing
Abstract:
Focused crawler is a core component of the vertical search engine;it collected data resouces for the vertical search engine,it collected data resources for the…
Key words:  focused crawler  Hidden Markov Model  Vector Space Model  topic correlativity  Vertical Search Engine
重庆工商大学学报(自然科学版) 版权所有
地址:中国 重庆市 南岸区学府大道19号 重庆工商大学学术期刊社 邮编:400067
电话:023-62769495 传真:
您是第4753023位访客
关注微信二维码