Search CORE

74 research outputs found

面向地学领域的自动语义标注研究

Author: 姚晓娜
王思丽
祝忠明
Publication venue
Publication date: 01/04/2013
Field of study

如何实现对大量信息资源的自动语义标注是建设基于语义网的数字图书馆的关键问题之一。本文以地学领域的专业文档为标注对象，基于地球科学术语语义网SWEET和文本工程通用框架GATE实现自动语义标注，并提出了一种依据领域本体中属性的定义域和值域映射RDF三元组的方法，实验结果验证方法的有效性

National Science Library,Chinese Academy of Sciences

Research on Automatic Acquisition and Preprocessing Methods of Domain Ontology Learning Corpus

Author: 刘巍
杨恒
王思丽
祝忠明
Publication venue
Publication date: 25/10/2019
Field of study

[目的/意义]实现领域语料的自动获取与预处理，为机器/深度学习驱动的领域本体自动构建提供数据及数据处理技术基础。[方法/过程]首先，对所涉及语料的类型、获取方法及应用研究现状进行分析，提出多源异构领域语料的自动获取方法，包括基于Web Spider的网络开放领域语料和基于Web API的科学文献领域语料的自动获取等。其次，分析提出领域基础知识词典的自动构建方法，为语料预处理奠定基础。最后，通过对主流分词方法及开源分词工具进行测试与评估，提出基于增量训练HanLP-SP领域分词模型的多策略混合的自动分词与新词发现方法，并进行实验研究。[结果/结论]方法能够有效获取到领域语料，并实现分词等预处理任务。</p

National Science Library,Chinese Academy of Sciences