72 research outputs found

    Методи оцінювання семантичної близькості-зв’язності слів природної мови

    Get PDF
    У статті досліджуються проблеми побудови найкоротших шляхів в онтологічній семантичній мережі бази знань. Довжини найкоротших шляхів між концептами в онтології трактуються як значення їх семантичної зв’язності-близькості. В роботі були запропоновані дві алгоритмічні моделі обчислення семантичної зв’язності-близькості пар слів природної мови через побудову найкоротших шляхів між відповідними вершинами в онтологічному графі семантичної мережі.В статье исследуются проблемы построения кратчайших путей в онтологической семантической сети базы знаний. Длины кратчайших путей между концептами в онтологии трактуются как значения их семантической связности-близости. В работе были предложены две алгоритмические модели вычисления семантической связности-близости пар слов естественного языка через построение кратчайших путей между соответствующими вершинами в онтологическом графе семантической сети.In this article the problem of searching a shortest path in ontological semantic network of knowledge base is considered. The lengths of shortest paths between concepts in the ontology are interpreted as a value of their semantic closeness-relatedness. In the paper two algorithmic models for computation of semantic closeness-relatedness of natural language words through the searching of the shortest paths between the vertices of the ontological graph in the semantic network have been proposed

    Огляд підходів до розв’язання задач ідентифікації парафраз

    Get PDF
    The article is devoted to a review of approaches to solving the problem of identifying paraphrases. This problem's relevance and use in tasks such as plagiarism detection, text simplification, and information search are described. Several classes of solutions were considered. The first approach is based on manual rules - it uses manually selected features based on the fundamental properties of paraphrases. The second approach is based on lexical similarity and various databases and ontologies. Machine learning-based approaches are also presented in this paper and describe different architectures that can be used to identify paraphrases. The last approach considered is based on deep learning and modern models of transformers. Pages of the article in the issue: 71 - 78 Language of the article: UkrainianСтаття присвячена огляду підходів до розв’язання задачі ідентифікації парафраз. Описується актуальність та використання даної задачі у таких задачах як виявлення плагіату, спрощення тексту та пошук інформації. Було розглянуто декілька класів вирішення даної задачі. Перший підхід заснований на ручних правилах - використовує вручну підібрані особливості базуючись на базових властивостях парафраз. Другий підхід заснований на лексичній подібності та різноманітних базах даних і онтології. Підходи, засновані на машинному навчанні також представлені у даній статті та описує архітектури, які можуть бути використані для ідентифікації парафраз. Останній підхід який розглянуто базується на глибокому навчанні та сучасних моделях трансформерів

    Naive Bayes and Exemplar-Based approaches to Word Sense Disambiguation Revisited

    Full text link
    This paper describes an experimental comparison between two standard supervised learning methods, namely Naive Bayes and Exemplar-based classification, on the Word Sense Disambiguation (WSD) problem. The aim of the work is twofold. Firstly, it attempts to contribute to clarify some confusing information about the comparison between both methods appearing in the related literature. In doing so, several directions have been explored, including: testing several modifications of the basic learning algorithms and varying the feature space. Secondly, an improvement of both algorithms is proposed, in order to deal with large attribute sets. This modification, which basically consists in using only the positive information appearing in the examples, allows to improve greatly the efficiency of the methods, with no loss in accuracy. The experiments have been performed on the largest sense-tagged corpus available containing the most frequent and ambiguous English words. Results show that the Exemplar-based approach to WSD is generally superior to the Bayesian approach, especially when a specific metric for dealing with symbolic attributes is used.Comment: 5 page

    Enriching very large ontologies using the WWW

    Full text link
    This paper explores the possibility to exploit text on the world wide web in order to enrich the concepts in existing ontologies. First, a method to retrieve documents from the WWW related to a concept is described. These document collections are used 1) to construct topic signatures (lists of topically related words) for each concept in WordNet, and 2) to build hierarchical clusters of the concepts (the word senses) that lexicalize a given word. The overall goal is to overcome two shortcomings of WordNet: the lack of topical links among concepts, and the proliferation of senses. Topic signatures are validated on a word sense disambiguation task with good results, which are improved when the hierarchical clusters are used.Comment: 6 page

    Disambiguation of Taxonomy Markers in Context: Russian Nouns

    Get PDF
    Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009. Editors: Kristiina Jokinen and Eckhard Bick. NEALT Proceedings Series, Vol. 4 (2009), 111-117. © 2009 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/9206

    High WSD Accuracy Using Naive Bayesian Classifier with Rich Features

    Get PDF
    Word Sense Disambiguation (WSD) is the task of choosing the right sense of an ambiguous word given a context. Using Naive Bayesian (NB) classifiers is known as one of the best methods for supervised approaches for WSD (Mooney, 1996; Pedersen, 2000), and this model usually uses only a topic context represented by unordered words in a large context. In this paper, we show that by adding more rich knowledge, represented by ordered words in a local context and collocations, the NB classifier can achieve higher accuracy in comparison with the best previously published results. The features were chosen using a forward sequential selection algorithm. Our experiments obtained 92.3% accuracy for four common test words (interest, line, hard, serve). We also tested on a large dataset, the DSO corpus, and obtained accuracies of 66.4% for verbs and 72.7% for nouns
    corecore