17 research outputs found

    Analyzing the characteristics of academic paper categories by using an index of representativeness

    Get PDF


    Get PDF
    国立情報学研究所National Institute of Informatics本論文は、学術論文に含まれる多くの専門用語の中から、分野において必須で重要な用語を分野基礎用語と定義し、その用語の出現傾向について分析を行う。分野基礎用語は特定分野の研究をこれから学ぶような学部の学生は、専門が異なる研究者などに対して、効率的に分野の論文を理解するために、最低限知っておくべき用語を提示することを提案する。この分野基礎用語をどのように選定すべきであるのかについて、様々な観点を想定し、その観点を実際の文章に当てはめて分析を行った。また分野基礎用語が、論文中にどのような出現傾向を示すのか、特に文章の論理構造においてどのような役割を果たしているのかについて分析と考察を行う


    Get PDF
    Shonan Institute of TechnologyNational Institute for Japanese Language and LinguisticsMejiro UniversitySeinan Jo Gakuin UniversityNational Institute for Japanese Language and LinguisticsSeinan Jo Gakuin University会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター医療現場で用いられる電子カルテなどの記録文書(医療記録)に専門用語としての医療用語が大量に含まれている。医療記録に記載された言語情報を正確に理解・活用するためにはこれらの医療用語の理解が必要となる。医療記録に含まれる語には、複数の語からなる複合語や臨時一語も多く、これらは、病名、身体の部位名、処置名、薬剤名等、様々な用語から構成されている。しかし、現在はこの語構成要素の組み合わせのパターンや語構成要素間の関係などが曖昧である。そこで、本研究では複数の語からなる実践医療用語の語構成要素の抽出を試みた。語構成要素の条件を独自で定義した後、ComJisyoV5、と今後公開予定のV6の登録候補語に対象として、MecabMeCab0.996とUniDic-cwj-2.2.0を利用して形態素解析を行った。分割された単語の品詞情報を手がかりにして、単一単位となり得る品詞列を抽出した。次に抽出した候補リスト以外に語構成要素となる品詞列があるかについて検討を行った

    〈全文〉 テキストにおける語彙の分布と文章構造 成果報告書

    Get PDF
    国立国語研究所国立情報学研究所日本女子大学統計数理研究所(独)国際交流基金お茶の水女子大学北海道教育大学統計数理研究所慶応義塾大学National Institute for Japanese and LinguisticsNational Institute of InformaticsThe Institute of Statistical MathematicsThe Institute of Statistical Mathematic

    BioHackathon series in 2011 and 2012: penetration of ontology and linked data in life science domains

    Get PDF
    The application of semantic technologies to the integration of biological data and the interoperability of bioinformatics analysis and visualization tools has been the common theme of a series of annual BioHackathons hosted in Japan for the past five years. Here we provide a review of the activities and outcomes from the BioHackathons held in 2011 in Kyoto and 2012 in Toyama. In order to efficiently implement semantic technologies in the life sciences, participants formed various sub-groups and worked on the following topics: Resource Description Framework (RDF) models for specific domains, text mining of the literature, ontology development, essential metadata for biological databases, platforms to enable efficient Semantic Web technology development and interoperability, and the development of applications for Semantic Web data. In this review, we briefly introduce the themes covered by these sub-groups. The observations made, conclusions drawn, and software development projects that emerged from these activities are discussed

    Disambiguating Japanese compound verbs

    No full text
    Abstract The purpose of this study is to disambiguate Japanese compound verbs (JCV) based on two methods: (1) a statistical method which makes use of collocational or semantic information about different verb combinations, and (2) a manual rule-based method which utilises verbal and nominal semantic features. We also present a combined method where the output of the statistical method is fed into the rule-based method. In evaluation, we found that the pure rule-based method outperformed the statistical and combined method at 96% token-level accuracy, suggesting that fine-grained semantic analysis is an important component of JCV disambiguation. At the same time, the performance of the fully-automated statistical method was found to be surprisingly good at 86%, without making use of lexical semantics