11 research outputs found

    Метод структурных схем компьютерного морфологического анализа словоформ естественного языка

    Get PDF
    International audiencehttp://mech.math.msu.su/~fpm/ps/k14/k143/k14303.pdfIn this paper, a computerized model for morphological analysis of languages with word-formation based on affixation processes is proposed. The main idea consists in defining structural patterns of words and corresponding lists of suffixes. First, a detaileddescription of a stemming algorithm, its modification, and the technique of determining grammatical characteristics of word-forms are given. The next part of this work focuses on the application of the proposed algorithms for the French language. Finally, some results of execution of these algorithms are provided.http://mech.math.msu.su/~fpm/ps/k14/k143/k14303.pdfВ работе предлагается метод структурных схем в качестве модели морфологического анализа словоформ естественного языка с развитым аффиксальным словообразованием и словоизменением. Дано описание алгоритма выделения псевдоосновы, его модификация, а также алгоритм восстановления грамматических характеристик словоформ. Описано применение предложенного метода для анализа словоформ французского языка. Представлены результаты работы предложенных алгоритмов

    Метод структурных схем компьютерного морфологического анализа словоформ естественного языка

    No full text
    International audiencehttp://mech.math.msu.su/~fpm/ps/k14/k143/k14303.pdfIn this paper, a computerized model for morphological analysis of languages with word-formation based on affixation processes is proposed. The main idea consists in defining structural patterns of words and corresponding lists of suffixes. First, a detaileddescription of a stemming algorithm, its modification, and the technique of determining grammatical characteristics of word-forms are given. The next part of this work focuses on the application of the proposed algorithms for the French language. Finally, some results of execution of these algorithms are provided.http://mech.math.msu.su/~fpm/ps/k14/k143/k14303.pdfВ работе предлагается метод структурных схем в качестве модели морфологического анализа словоформ естественного языка с развитым аффиксальным словообразованием и словоизменением. Дано описание алгоритма выделения псевдоосновы, его модификация, а также алгоритм восстановления грамматических характеристик словоформ. Описано применение предложенного метода для анализа словоформ французского языка. Представлены результаты работы предложенных алгоритмов

    Внедрение в TXM дополнительных инструментов автоматической обработки текста

    Get PDF
    International audienceThis paper presents an experience of extending the capacities of the TXM platform by adding tools of automatic text processing (allocation of pseudo-bases by stemming technique that uses a word structural pattern method, noun phrases, the analysis of verbal dependencies). Combined with the standard TXM functions (the factorial correspondence analysis, specificity, etc.) they allow the users to improve the performance of analysis of specialized corpora, such as those aimed at the detection of unlawful discourse.В докладе представлен опыт расширения возможностей платформы TXM за счет инструментов автоматической обработки текста (выделение псевдооснов, именных групп, анализ глагольного управления). В сочетании со стандартными функциями TXM (факторный анализ соответствий, специфичность и т.д.) они позволяют более эффективно осуществлять анализ специализированных корпусов, нацеленных, в частности, на выявление противоправного дискурса. Ключевые слова. автоматический анализ текстов, платформа TXM, псевдоосновы, именные группы, глагольное управление

    A Structural Pattern Based Method for Automated Morphological Analysis of Word Forms in Natural Language

    No full text
    International audienceIn this paper, a computerized model for morphological analysis of languages with word formation based on affixation processes is proposed. The main idea consists in defining structural patterns of words and corresponding lists of suffixes. First, a detailed description of a stemming algorithm, its modification, and the technique of determining grammatical characteristics of word forms are given. The next part of this work focuses on the application of the proposed algorithms for the French language. Finally, some results of execution of these algorithms are provided

    Using TXM Platform for Research on Language Changes over Time: the Dynamics of Vocabulary and Punctuation in Russian Literary Texts

    No full text
    International audienceThe purpose of this paper is to test the methodological tools provided by TXM open-source software for research on dynamics of vocabulary and punctuation marks in diachronic corpora. TXM provides both quantitative and qualitative analysis features. It is shown that Russian revolution of 1917 did make significant changes in the core vocabulary of the corpus of Russian Short Stories (1901-1930). The same methodology may be used both for diachronic studies of literature and for various NLP tasks

    Компьютерная модель морфологического анализа словоформ французского языка

    No full text
    International audienceIn this paper a computerized model for morphological analysis of French wordforms is proposed. Firstly, a brief description of a stemming algorithm is given. The main idea is to create structural schemes and corresponding lists of suffixes, and the detailed procedure of this work is described in the second part of the paper.. The next part of this work concerns the technique of determining of grammatical characteristics for the French language. In the final part of the work, some results of execution of the proposed algorithms are provided.В данной работе представлено описание модели морфологического анализа словоформ французского языка. Дано краткое описание алгоритма выделения псевдоосновы, главная идея которого заключается в построении структурных схем и соответствующих множеств суффиксов. Описана процедура их построения для случая французского языка. Предложена методика восстановления грамматических характеристик словоформ. Представлены результаты работы предложенных алгоритмов

    Компьютерная модель морфологического анализа словоформ французского языка

    No full text
    International audienceIn this paper a computerized model for morphological analysis of French wordforms is proposed. Firstly, a brief description of a stemming algorithm is given. The main idea is to create structural schemes and corresponding lists of suffixes, and the detailed procedure of this work is described in the second part of the paper.. The next part of this work concerns the technique of determining of grammatical characteristics for the French language. In the final part of the work, some results of execution of the proposed algorithms are provided.В данной работе представлено описание модели морфологического анализа словоформ французского языка. Дано краткое описание алгоритма выделения псевдоосновы, главная идея которого заключается в построении структурных схем и соответствующих множеств суффиксов. Описана процедура их построения для случая французского языка. Предложена методика восстановления грамматических характеристик словоформ. Представлены результаты работы предложенных алгоритмов

    Новый комплекс инструментов автоматической обработки текста для платформы TXM и его апробация на корпусе для анализа экстремистских текстов

    No full text
    International audienceTXM platform provides a wide range of corpus analysis tools including correspondence analysis, clustering, lexical table construction, and parametrized subcorpus selection. The default structural unit of analysis for TXM is a token. The only TXM extension available by default isTreeTagger which performs automated morphological analysis and lemmatization during the corpus import process. However, it is possible to supply each token with a number of features enabling a more advanced text analysis. In this work we present a number of tools developed for even a more extensive, complex and flexible corpus analysis with TXM relying both on the tools previously developed by our team and on publicly available software libraries. We focus in particular on a stemming technique that uses a word structural pattern method and on noun phrase recognition that together make it possible to perform more sophisticated and powerful queries and analyses of the corpus not limited to word forms.The structural pattern stemming method is based on a set of specific language rules that allow separating a word stem from all affixes. The recognition of noun phrases is based on rules allowing the detection of subordination and coordination relations among nouns. These extensions result in the improvement of performance of statistical tools used by TXM, such as specificity scores and correspondence analysis. The new set of tools has been tested on a corpus including texts marked as «extremist» by experts along with «neutral» texts in similar domains. The corpus of approximately 900,000 words is divided into eight subcorpora: neutral texts oppose seven thematic subcorpora considered as extremist (namely aggressive, fascist, ideological, nationalistic, religious, separatist, and terroristic). The specificity analysis detects the words (or other structural units) that are significantly more or less frequent in a given subcorpus compared to the entire corpus. The specificity score for selected units can be compared across all the subcorpora in order to verify their difference or similarity. The correspondence analysis produces a chart where the subcorpora are represented as points in a two-dimensional space based on their similarity as to the frequency of selected units.All tests demonstrated a significant difference between neutral texts, on one side, and marked, on the other. Two «extremist» subcorpora, religious and ideological, demonstrated similar results and can probably be merged. These facts encourage further research on fully automatic or computer-aided expert recognition of extremist texts.Платформа TXM предоставляет широкие возможности корпусного анализа, такие как анализ соответствий, кластеризация, построение лексических таблиц, поиск сложных лексических конструкций, выделение подкорпусов по различным параметрам. По умолчанию платформа работает со словоупотреблениями в качестве структурных единиц анализа. Она интегрирована с единственным расширением TreeTagger, позволяющим проводить лишь морфологический анализ и лемматизацию словоупотреблений. Однако пользователь может сопроводить каждое словоупотребление набором дополнительных характеристик, позволяющих существенно усложнить анализ, сделать его более гибким. В настоящей работе описывается разработанный нами набор утилит, позволяющий, опираясь как на наши собственные программные решения, так и на готовые средства анализа, расширить и усложнить анализ корпусов в платформе TXM. Особого внимания заслуживают выделение псевдоосновы в словах текста с использованием метода структурных схем и выявление именных групп в структуре текста. Эти расширения позволяют повысить эффективность таких используемых TXM методов, как анализ специфичности и анализ соответствий. В порядке апробации излагаются результаты эксперимента по анализу корпуса, содержащего тексты, оцененные экспертами как экстремистские, и «нейтральные» тексты схожей тематики (религия, политика, идеология). Все тесты показывают ярко выраженное противостояние нейтральных и маркированных текстов и позволяют на основе полученных результатов продолжить работу по автоматическому и полуавтоматическому выявлению потенциально противоправных текстов

    Создание специальных корпусов текстов на основе расширенной платформы TXM

    No full text
    International audienceThe extension of the TXM platform for case analysis is considered. It is proposed to use the allocation of pseudo-words in words of text on the basis of the method of structural schemes and the identification of nominal groups in the structure of the text for selecting subcorps in terms of parameters. The results of the analysis of the corpus of extremist texts are described.Рассмотрено расширение платформы TXM для корпусного анализа. Предложено использовать выделение псевдооснов в словах текста на базе метода структурных схем и выявление именных групп в структуре текста для выделения подкорпусов по параметрам. Описаны результаты анализа корпуса экстремистских текстов