基于HMM的主题爬虫研究
DOI:
作者:
作者单位:

作者简介:

通讯作者:

基金项目:


Research on Focused Crawler Based on HMM
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于eTT的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。

    Abstract:

    Focused crawler is a core component of the vertical search engine;it collected data resouces for the vertical search engine,it collected data resources for the…

    参考文献
    相似文献
    引证文献
引用本文

谢治军,杨武,李稚楹,宋静静.基于HMM的主题爬虫研究[J].重庆工商大学学报(自然科学版),2012,29(2):66-72
XIE Zhi-jun;YANG Wu;LI Zhi-ying;SONG Jing-jing. Research on Focused Crawler Based on HMM[J]. Journal of Chongqing Technology and Business University(Natural Science Edition),2012,29(2):66-72

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期:
×
2024年《重庆工商大学学报(自然科学版)》影响因子显著提升