化学主题网络爬虫的研究

Abstract

网络爬虫(Web Crawler)是指通过Web页面之间的链接关系从Web上自动的获取页面信息,并且沿着链接执行不断扩展的程序。随着网络的迅速发展,Web成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。为了更好地满足有特定主题或领域信息需求的用户,如化学领域的专业人员的需求,基于定向抓取主题相关网页资源的主题网络爬虫应运而生。主题网络爬虫根据既定的抓取主题目标,优先访问Web上的主题相关的链接抓取主题相关网页并剔除主题无关网页。本文将通用网络爬虫技术、ChIN(http://chin.csdl.ac.cn)所积累的网络化学相关领域知识以及机器学习方法相结合,设计和实现了化学..

    Similar works