24 research outputs found

    The Focused Crawler and Indexer in an Internet Chemistry Topic Search Engine

    No full text
    Internet作为信息的主要载体之一,其信息资源几乎涵盖所有学科领域。化学专业领域也不例外,Internet已经逐渐成为人们获取化学信息的主要途径。由于Internet具有节点平等、自由发布的特点,使Internet资源不仅体现为分布式、高度动态和海量,而且信息的质量参差不齐,出现所谓的“信息过载”和“信息迷失”的现象。化学工作者如何有效地从海量信息中检索所需要的、高质量的化学信息,面临着前所未有的挑战。尽管大型的通用搜索引擎可以用于专业信息的查询,但是这类通用搜索引擎在搜索专业信息的同时常会返回很多与主题不相关的噪声信息,因此研究与开发领域化、专业化的主题搜索引擎和针对个人兴趣的个性化搜索引擎是网络信息检索的一个发展趋势。 本文在对Internet化学化工主题搜索引擎设计和分析的基础上,设计并实现了化学化工主题搜索引擎的两个主要模块:化学化工主题网络爬虫和基于化学化工词典的倒排索引,以此为基础建立了一个规模为1000万网页的化学化工专业搜索引擎原型系统ChemEngine。 主题网络爬虫系统最大的特点是将待爬行的URL按照主题相关性进行排序。与广度优先(Breadth First)和深度优先(Depth First)等通用网络爬虫等相比,主题网络爬虫的爬行策略变为主题相关优先(Topic First)或者最佳优先(Best First)。本文通过对网络化学化工资源的抓取,比较了基于分类器(支持向量机、简单贝叶斯和中心向量)主题网络爬虫、基于关键词匹配主题网络爬虫(匹配网页全文、匹配标题文本和匹配锚文本)和基于链接分析(PageRank和BackLink)主题网络爬虫的爬行效果。爬行实验结果表明基于支持向量机分类器的主题网络爬虫的抓取效果优于其他主题网络爬虫和广度优先通用网络爬虫。实验还发现基于文档对象模型(DOM)的页面分块算法和基于视觉(VIPS)的页面分块算法的主题网络爬虫能进一步降低页面噪音和提高主题网页的爬行效果。另外实验结果显示种子URL对主题爬行的效果有较大的影响,尤其是在爬行的初始阶段。 倒排文件作为一种简单、高效的文档数据索引方式,是搜索引擎系统实现的一项基础技术。在对Internet化学化工主题搜索引擎ChemEngine的倒排索引的设计和实现中,本文提出了对中文网页基于化学化工专业词典进行分词并以词为单位建立索引,而对除中文以外的网页以字为单位建立索引的方式,这样可以在查全率和查准率之间做出一定的权衡,并且能够减少索引信息对磁盘空间的占用。本文还提出了分桶建索引的算法,即正排索引和倒排索引都按照一定规则被存放在一系列的桶中,每一个桶中只存放一定范围词条(根据词条ID号)所对应的索引,通过合理安排桶的数量就可以减小各个索引文件的大小,方便倒排索引分布式的存储和处理。 本文设计并实现了一种个性化搜索引擎的原型系统。用户首先通过个性化信息收集与管理系统采集和管理各自的兴趣信息,如关键字、样本文档和URL等。个性化信息收集与管理系统可根据获取的用户兴趣信息,为用户自动生成各自的兴趣模型。个性化爬行时根据用户提交的URL作为爬行起点,并在爬行过程中通过用户兴趣模型来对待爬行的URL进行用户兴趣优先级预测。实验结果表明基于支持向量机的个性化网络爬虫策略的爬行效果优于基于关键词匹配个性化网络爬虫和广度优先策略通用网络爬虫。实验同时显示用户兴趣范围的大小和用户兴趣信息收集的准确性对个性化网络爬虫的性能有较大影响

    构建中风疾病基因关系网络的方法研究

    No full text
    <正>本文介绍了一种构建中风疾病基因关系网络的方法。首先在Medline检索与中风疾病相关的关键词收集中风相关文献,然后从文献标题和摘要中自动提取相应的基因、化合物等信息。根据提取的基因和化合物信息,对等两两统计基因-基因、基因-化合物等在同一篇文献中出现的次数,采用基因共现的方法进行中

    化学主题网络爬虫的设计和实现

    No full text
    由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心.同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求.本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究.结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页

    化学主题网络爬虫的研究

    No full text
    网络爬虫(Web Crawler)是指通过Web页面之间的链接关系从Web上自动的获取页面信息,并且沿着链接执行不断扩展的程序。随着网络的迅速发展,Web成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。为了更好地满足有特定主题或领域信息需求的用户,如化学领域的专业人员的需求,基于定向抓取主题相关网页资源的主题网络爬虫应运而生。主题网络爬虫根据既定的抓取主题目标,优先访问Web上的主题相关的链接抓取主题相关网页并剔除主题无关网页。本文将通用网络爬虫技术、ChIN(http://chin.csdl.ac.cn)所积累的网络化学相关领域知识以及机器学习方法相结合,设计和实现了化学..

    手机上的基因测序分析和解读系统MyGene

    No full text
    本文介绍自主建立的MyGene是一个对基因测序结果进行分析和解读的手机应用系统,此系统以基因测序结果为基础,从抗病能力、药物代谢、先天疾病、个人体质、营养环境等几个方面进行分析,对用户的基因进行个性化的解读。整个软件包括6个功能模块:我的定制、我的基因、基因圈、基因商城、基因百科和个人管理,组成了一套完整的基因分析、解读、服务的系统。</p

    化学主题网络爬虫的设计和实现

    No full text
    由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页

    面向化学领域网络资源的文本自动分类算法

    No full text
    为了提高化学主题搜索引擎的查询效果,采用距离加权七一近邻分类算法来进行自动分类.为了测试该算法对化学领域网络资源进行分类的效果,文中使用化学化工资源导航系统ChIN人工积累的资源和描述信息作为数据集,并采用基于化学领域的多层次分类体系进行分类.经测试,系统微平均值Fmicro最高可达到71%.文中还就文档的关键词和数据集的熵对分类性能的影响进行了讨论.结果表明,该算法能较好地应用于化学领域网络资源的自动分类

    支持向量机在化学主题爬虫中的应用

    No full text
    爬虫是搜索引擎的重要组成部分,它沿着网页中的超链接自动爬行,搜集各种资源。为了提高对特定主题资源的采集效率,文本分类技术被用来指导爬虫的爬行。本文把基于支持向量机的文本自动分类技术应用到化学主题爬虫中,通过SVM 分类器对爬行的网页进行打分,用于指导它爬行化学相关网页。通过与基于广度优先算法的非主题爬虫和基于关键词匹配算法的主题爬虫的比较,表明基于SVM分类器的主题爬虫能有效地提高针对化学Web资源的采集效率

    虚拟过程工程监控系统的设计与实现

    No full text
    为实现对工业装置内流体流动与传递过程的三维实时高精度模拟,中国科学院过程工程研究所提出了虚拟过程工程(VPE)的构想。在VPE中,为采集实验数据、控制实验状态,需自行设计其监控系统。本文根据VPE的整体需要对监控系统进行了需求分析,在此基础上对底层通信协议、实时数据采集与控制、数据存储与管理、数据处理与显示等方面进行了设计与实现。经运行验证,所实现的监控系统功能可很好地满足VPE的需要,为VPE提供了良好的功能支撑

    虚拟过程工程监控系统的设计与实现

    No full text
    为实现对工业装置内流体流动与传递过程的三维实时高精度模拟,中国科学院过程工程研究所提出了虚拟过程工程(vPE)的构想。在VPE中,为采集实验数据、控制实验状态,需自行设计其监控系统。本文根据VPE的整体需要对监控系统进行了需求分析,在此基础上对底层通信协议、实时数据采集与控制、数据存储与管理、数据处理与显示等方面进行了设计与实现。经运行验证,所实现的监控系统功能可很好地满足VPE的需要,为VPE提供了良好的功能支撑
    corecore