基于HMM的主题爬虫研究

Research on Focused Crawler Based on HMM
  • 摘要
  • | |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
    摘要:

    主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于eTT的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。

    Abstract:

    Focused crawler is a core component of the vertical search engine;it collected data resouces for the vertical search engine,it collected data resources for the…

    参考文献
    相似文献
    引证文献
引用本文

谢治军,杨武,李稚楹,宋静静.基于HMM的主题爬虫研究[J].重庆工商大学学报(自然科学版),2012,29(2):66-72
XIE Zhi-jun;YANG Wu;LI Zhi-ying;SONG Jing-jing. Research on Focused Crawler Based on HMM[J]. Journal of Chongqing Technology and Business University(Natural Science Edition),2012,29(2):66-72

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
×
2024年《重庆工商大学学报(自然科学版)》影响因子显著提升