Indexed by:
Abstract:
搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素.为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法.该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度.实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%.
Keyword:
Reprint Author's Address:
Email:
Source :
软件导刊
ISSN: 1672-7800
Year: 2020
Issue: 1
Volume: 19
Page: 108-112
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: 1
Chinese Cited Count:
30 Days PV: 13
Affiliated Colleges: