    Heuristic-based Korean Coreference Resolution for Information Extraction

    Corpus-based identification of non-anaphoric noun phrases

    Journal ArticleCoreference resolution involves finding antecedents for anaphoric discourse entities, such as definite noun phrases. But many definite noun phrases are not anaphoric because their meaning can be understood from general world knowledge (e.g., "the White House" or "the news media"). We have developed a corpus-based algorithm for automatically identifying definite noun phrases that are non-anaphoric, which has the potential to improve the efficiency and accuracy of coreference resolution systems. Our algorithm generates lists of nonanaphoric noun phrases and noun phrase patterns from a training corpus and uses them to recognize non-anaphoric noun phrases in new texts. Using 1600 MIX -1 terrorism news articles as the training corpus, our approach achieved 78% recall and 87% precision at identifying such noun phrases in 50 test documents

    Розробка програмного забезпечення для управління дорожнім рухом за даними відеоспостереження

    Об'єкт дослідження: процес адаптивного управління дорожнім рухом. Предмет дослідження: методи і алгоритми розпізнавання учасників дорожнього руху з використанням оптичних детекторів. Мета магістерської роботи: підвищення ефективності роботи системи керування дорожнім рухом за допомогою детекторів, що працюють на основі даних відеоспостереження. Методи дослідження. Для вирішення поставлених задач використані методи: аналізу даних, теорії розпізнавання образів з області обчислювального інтелекту, теорії нечітких множин, об'єктно-орієнтоване програмування. Наукова новизна полягає в удосконаленні методів регулювання дорожнього руху за допомогою нових алгоритмів та принципів роботи детекторів автомобільного та пішохідного руху, заснованих на технології комп’ютерного бачення. Практична цінність результатів полягає в тому, що запропоновані в роботі методи дозволяють спростити встановлення та експлуатацію систем адаптивного керування трафіком без відчутного зменшення ефективності подібних систе

    Інформаційна технологія для класифікації наукових текстів на основі методу модифікованої логістичної регресії

    Об’єкт дослідження: процес класифікації наукових текстів та практичне використання технологій обробки природної мови в освітніх додатках, з метою підвищення ефективності освітнього процесу. Предмет дослідження: методи, моделі машинного навчання та обробки природньої мови у задачах класифікації наукових текстів. Мета магістерської роботи: вдосконалення та пришвидшення процесу класифікації текстів з допомогою моделі логістичної регресії, з метою застосування її у освітніх додатках для покращення освітнього процесу. Методи дослідження. Для створення рекомендаційного та навчального асистента були використані засоби та методи машинного навчання, теорії множин, лінейної алгебри й обробки природної мови. Наукова новизна полягає у тому, що вдосконалено та розширено можливості методу логістичної регресії на основі комбінування його з методом ранжування, що в результаті дозволило використати метод логістичної регресії для навчального асистенті. Практична цінність полягає у тому, що в результаті роботи, було створено прототип навчального асистента, що використовує скомбіновану з методом ранжування модель логістичної регресії для класифікації текстів. Використані методи та підходи у прототипі можуть застосовуватись як при розробці «інтелектуальних» навчальних систем, так й в практиці викладання дисциплін, пов’язаних з обробкою природної мови

    Resolução de anáforas pronominais em documentos em língua portuguesa

    O processo de resolução de anáforas é fundamental para compreender um texto, enquanto o ser o humano o faz com facilidade, simulá-lo computacionalmente não é tarefa fácil. O grande objetivo deste trabalho, está em construir um sistema que dê ao computador a capacidade de inferir para anáforas pronominais, quais os seus antecedentes. O sistema desenvolvido é baseado na metodologia do centering, não só pelos seus princípios, mas também pela possível adequação à língua portuguesa. A avaliação dos resultados obtidos, refletiu algumas limitações, comuns a este tipo de sistemas, pelo que foi proposta e implementada, uma alteração ao algoritmo inicial, com acréscimo de três extensões que permitem preferir uma solução às restantes, em caso de empate. Pela nova avaliação, conclui-se uma melhoria de eficiência na segunda versão do algoritmo que tem em média uma taxa de sucesso crítica de 54% que se entende bastante positiva, uma vez que não se dispunham de corpora isentos de erros de pré-processamento. ***/Abstract - Pronominal Anaphora Resolution in Portuguese Language Documents The process of anaphora resolution is fundamental for the understanding of a text and although a human can do it easily, simulate it on the computer isn't a trivial task. The main goal of this work is to develop a system capable of mining the computer with the capacity to associate pronoun anaphor with the expression they refer to. The developed system is based on the methodology known as centering, not only due to its core ideas, but also because of its adaptability to the Portuguese language. The evaluation of the results obtained showed some limitations, common to these types of systems which lead to a proposal and implementation of improvements, over the first approach, with three extensions that overcome draw situations. The new evaluation shows an improvement over the second version of the algorithm, and has a critical success rate of 54% on average, which is believed to be quite positive considering that no corpora free of pre-processing errors, was available

    Anaphora resolution for Arabic machine translation :a case study of nafs

    PhD ThesisIn the age of the internet, email, and social media there is an increasing need for processing online information, for example, to support education and business. This has led to the rapid development of natural language processing technologies such as computational linguistics, information retrieval, and data mining. As a branch of computational linguistics, anaphora resolution has attracted much interest. This is reflected in the large number of papers on the topic published in journals such as Computational Linguistics. Mitkov (2002) and Ji et al. (2005) have argued that the overall quality of anaphora resolution systems remains low, despite practical advances in the area, and that major challenges include dealing with real-world knowledge and accurate parsing. This thesis investigates the following research question: can an algorithm be found for the resolution of the anaphor nafs in Arabic text which is accurate to at least 90%, scales linearly with text size, and requires a minimum of knowledge resources? A resolution algorithm intended to satisfy these criteria is proposed. Testing on a corpus of contemporary Arabic shows that it does indeed satisfy the criteria.Egyptian Government

    Optimization issues in machine learning of coreference resolution

