10 research outputs found

    Morphological annotation of Korean with Directly Maintainable Resources

    Get PDF
    This article describes an exclusively resource-based method of morphological annotation of written Korean text. Korean is an agglutinative language. Our annotator is designed to process text before the operation of a syntactic parser. In its present state, it annotates one-stem words only. The output is a graph of morphemes annotated with accurate linguistic information. The granularity of the tagset is 3 to 5 times higher than usual tagsets. A comparison with a reference annotated corpus showed that it achieves 89% recall without any corpus training. The language resources used by the system are lexicons of stems, transducers of suffixes and transducers of generation of allomorphs. All can be easily updated, which allows users to control the evolution of the performances of the system. It has been claimed that morphological annotation of Korean text could only be performed by a morphological analysis module accessing a lexicon of morphemes. We show that it can also be performed directly with a lexicon of words and without applying morphological rules at annotation time, which speeds up annotation to 1,210 word/s. The lexicon of words is obtained from the maintainable language resources through a fully automated compilation process

    Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques

    Get PDF
    We present a morphological boundary Korean texts by finite state automata. Korean is an agglutinative language and our system can probably be adapted to other languages ​​with agglutinative suffixes (Hungarian, Finnish, Turkish). The texts are written mainly with Korean Hangul alphabet is a set of syllabic characters. You can mix them with ideographs and characters of the Latin alphabet. We use the UNICODE character encoding in which the Korean syllables are arranged in alphabetical order. For some treatments on the Korean syllable, we decompose each syllable into several Korean alphabet characters. The Korean words are affixes. For the name, a word can have multiple suffixes suffixes excluding derivatives, the maximum number of combinations of about 1600. Our first step in the analysis of Korean text is the description of the morphemes of a word for the segment using the dividers: white symbols. And yet is segmented into morphemes segments. To analyze the segments, we build dictionaries of roots and suffixes sequences. We use the transducers to represent the compatibility between morphemes: roots and suffixes with the GUI UNITEX. They are designed to be built and maintained manually. Our method is based on linguistic resources when most systems are based on morphological analysis of statistical data. We integrate automatic dictionaries of roots and suffixes of the transducers in a single transducer, which performs the function of a dictionary. The result of the analysis of a text is presented as a controller to account for the ambiguity of the division into morphemes. Transitions are labeled by morphemes annotated linguistic information (canonical form, inflected form and linguistic information).Nous présentons un système de délimitation morphologique des textes coréens par automates à états finis. Le Coréen est une langue agglutinante et notre système peut probablement être adapté aux autres langues agglutinantes à suffixes (hongrois, finnois, turc). Les textes coréens s'écrivent principalement avec l'alphabet Hangul qui est un ensemble de caractères syllabiques. Il est possible de les mélanger avec des idéogrammes et des caractères de l'alphabet latin. Nous utilisons le système de codage de caractères UNICODE dans lequel les syllabes coréennes sont rangées par ordre alphabétique. Pour certains traitements sur les syllable coréennes, nous décomposons chaque syllable en plusieurs caractères alphabétiques coréens. Les mots coréens reçoivent des affixes. Pour le nom, un mot peut avoir plusieurs suffixes sans compter les suffixes dérivés, le nombre maximal de combinaisons étant d'environ 1600. Notre première étape pour l'analyse des textes coréens est la description des morphèmes d'un mot pour le segmenter à l'aide des séparateurs : blanc et symboles. Et on segmente encore les segments en morphèmes. Pour pouvoir analyser les segments, nous construisons des dictionnaires de racines et de séquences de suffixes. Nous utilisons les transducteurs pour représenter les compatibilités entre des morphèmes : racines et suffixes avec l'interface graphique de UNITEX. Ils sont conçus de manière à être construits et maintenus manuellement. Notre méthode est fondée sur des ressources linguistiques alors que la plupart des systèmes d'analyse morphologique sont fondés sur des données statistiques. Nous intégrons automatiquement les dictionnaires de racines et les transducteurs des suffixes en un transducteur unique, qui remplit la fonction d'un dictionnaire. Le résultat de l'analyse d'un texte se présente sous la forme d'un automate pour rendre compte de l'ambiguité du découpage en morphèmes. Les transitions sont étiquetés par des morphèmes annotés d'informations linguistiques (forme canonique, forme fléchie et informations linguistiques)

    Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques

    No full text
    We present a morphological boundary Korean texts by finite state automata. Korean is an agglutinative language and our system can probably be adapted to other languages ​​with agglutinative suffixes (Hungarian, Finnish, Turkish). The texts are written mainly with Korean Hangul alphabet is a set of syllabic characters. You can mix them with ideographs and characters of the Latin alphabet. We use the UNICODE character encoding in which the Korean syllables are arranged in alphabetical order. For some treatments on the Korean syllable, we decompose each syllable into several Korean alphabet characters. The Korean words are affixes. For the name, a word can have multiple suffixes suffixes excluding derivatives, the maximum number of combinations of about 1600. Our first step in the analysis of Korean text is the description of the morphemes of a word for the segment using the dividers: white symbols. And yet is segmented into morphemes segments. To analyze the segments, we build dictionaries of roots and suffixes sequences. We use the transducers to represent the compatibility between morphemes: roots and suffixes with the GUI UNITEX. They are designed to be built and maintained manually. Our method is based on linguistic resources when most systems are based on morphological analysis of statistical data. We integrate automatic dictionaries of roots and suffixes of the transducers in a single transducer, which performs the function of a dictionary. The result of the analysis of a text is presented as a controller to account for the ambiguity of the division into morphemes. Transitions are labeled by morphemes annotated linguistic information (canonical form, inflected form and linguistic information).Nous présentons un système de délimitation morphologique des textes coréens par automates à états finis. Le Coréen est une langue agglutinante et notre système peut probablement être adapté aux autres langues agglutinantes à suffixes (hongrois, finnois, turc). Les textes coréens s'écrivent principalement avec l'alphabet Hangul qui est un ensemble de caractères syllabiques. Il est possible de les mélanger avec des idéogrammes et des caractères de l'alphabet latin. Nous utilisons le système de codage de caractères UNICODE dans lequel les syllabes coréennes sont rangées par ordre alphabétique. Pour certains traitements sur les syllable coréennes, nous décomposons chaque syllable en plusieurs caractères alphabétiques coréens. Les mots coréens reçoivent des affixes. Pour le nom, un mot peut avoir plusieurs suffixes sans compter les suffixes dérivés, le nombre maximal de combinaisons étant d'environ 1600. Notre première étape pour l'analyse des textes coréens est la description des morphèmes d'un mot pour le segmenter à l'aide des séparateurs : blanc et symboles. Et on segmente encore les segments en morphèmes. Pour pouvoir analyser les segments, nous construisons des dictionnaires de racines et de séquences de suffixes. Nous utilisons les transducteurs pour représenter les compatibilités entre des morphèmes : racines et suffixes avec l'interface graphique de UNITEX. Ils sont conçus de manière à être construits et maintenus manuellement. Notre méthode est fondée sur des ressources linguistiques alors que la plupart des systèmes d'analyse morphologique sont fondés sur des données statistiques. Nous intégrons automatiquement les dictionnaires de racines et les transducteurs des suffixes en un transducteur unique, qui remplit la fonction d'un dictionnaire. Le résultat de l'analyse d'un texte se présente sous la forme d'un automate pour rendre compte de l'ambiguité du découpage en morphèmes. Les transitions sont étiquetés par des morphèmes annotés d'informations linguistiques (forme canonique, forme fléchie et informations linguistiques)

    Construction of Korean Word Dictionary by Morphological Analysis

    No full text
    (In Korean)International audienc

    Morphological annotation of Korean with Maintainable Resources

    No full text
    International audienc

    A Resource-Based Korean morphological annotation system

    Get PDF
    Companion Volume to the Proceedings of the International Joint Conference on Natural Language Processing (IJCNLP'05)We describe a resource-based method of morphological annotation of written Korean text. Korean is an agglutinative language. The output of our system is a graph of morphemes annotated with accurate linguistic information. The language resources used by the system can be easily updated, which allows users to control the evolution of the performances of the system. We show that morphological annotation of Korean text can be performed directly with a lexicon of words and without morphological rules

    Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques

    No full text
    Nous présentons un système de délimitation morphologique des textes coréens par automates à états finis. Le Coréen est une langue agglutinante et notre système peut probablement être adapté aux autres langues agglutinantes à suffixes (hongrois, finnois, turc). Les textes coréens s'écrivent principalement avec l'alphabet Hangul qui est un ensemble de caractères syllabiques. Il est possible de les mélanger avec des idéogrammes et des caractères de l'alphabet latin. Nous utilisons le système de codage de caractères UNICODE dans lequel les syllabes coréennes sont rangées par ordre alphabétique. Pour certains traitements sur les syllabes coréennes, nous décomposons chaque syllabe en plusieurs caractères alphabétiques coréens. Les mots coréens reçoivent des affixes. Pour le nom, un mot peut avoir plusieurs suffixes sans compter les suffixes dérivés, le nombre maximal de combinaisons étant d'environ 1600. Notre première étape pour l'analyse des textes coréens est la description des morphèmes d'un mot pour le segmenter à l'aide des séparateurs : blanc et symboles. Et on segmente encore les segments en morphèmes. Pour pouvoir analyser les segments, nous construisons des dictionnaires de racines et de séquences de suffixes. Nous utilisons les transducteurs pour représenter les compatibilités entre des morphèmes : racines et suffixes avec l'interface graphique de UNITEX. Ils sont conçus de manière à être construits et maintenus manuellement. Notre méthode est fondée sur des ressources linguistiques alors que la plupart des systèmes d'analyse morphologique sont fondés sur des données statistiques. Nous intégrons automatiquement les dictionnaires de racine et les transducteurs des suffixes en un transducteur unique, qui remplit la fonction d'un dictionnaire. Le résultat de l'analyse d'un texte se présente sous la forme d'un automate pour rendre compte de l'ambiguïté du découpage en morphèmes. Les transitions sont étiquetées par des morphèmes annotés d'informations linguistiques (forme canonique, forme fléchie et informations linguistiques)PARIS-EST Marne-la-Vallee-BU (774682101) / SudocSudocFranceF

    Boron And Carbon Cosmic rays in the Upper Stratosphere (BACCUS)

    No full text
    International audienceThe balloon-borne BACCUS experiment measures directly the elemental spectra of cosmic-ray nuclei from protons to Fe over the energy range ~10^12 to 10^15 eV. It focuses on the energy dependence of secondary to primary ratios (e.g. B/C) to investigate cosmic-ray propagation history. BACCUS consists of redundant and complementary particle detectors including the Timing Charge Detector (TCD), Transition Radiation Detector (TRD), Cherenkov Detector (CD), Silicon Charge Detector (SCD), and Calorimeter (CAL). The TCD measures the light yield produced by the particle in plastic scintillator. The TRD provides energy measurements of incident 3 ≤ Z ≤ 26 nuclei in the 102 – 105 Lorentz factor range. The CD responds only to particles with velocity exceeding the velocity of light in the plastic. It allows BACCUS to reject the abundant low energy cosmic rays present in the polar region. The CAL is used to determine the particle’s energy for all nuclei for 1 ≤ Z ≤ 26. With the SCD based on pixellation, in addition to the TCD based on timing, and the CD, the BACCUS instrument implements virtually all possible techniques to minimize the effect of backscatter on charge measurements in the presence of a large particle shower in the CAL. The 30 day flight was carried out successfully over Antarctica in 2016 from Nov. 28 to Dec. 28. The integration test, and performance of instruments will be presented

    Measurement of Cosmic-Ray Nuclei with the Third Flight of the CREAM Balloon-Borne Experiment

    No full text
    International audienceThe balloon-borne Cosmic Ray Energetics And Mass experiment had its third flight (CREAM-III) over Antarctica for 29 days from December 17, 2007 to January 19, 2008. CREAM-III was designed to directly measure the elemental spectra of cosmic-ray nuclei from Hydrogen to Iron in the energy range from 10^12 to 10^15 eV. Energy of incident cosmic rays was measured with a calorimeter that consisted of a densified carbon target directly above a stack of 20 alternating layers of tungsten and scintillating fiber ribbons. Multiple charge measurements were independently made with the silicon charge detector (SCD), Cherenkov Camera (CherCam), and a Timing Charge Detector (TCD) in order to identify particles and minimize backscattering effects from the calorimeter. Compared to previous CREAM flights, the electronic noise of CREAM-III was reduced, significantly lowering the energy threshold. Results from on-going analysis of the energy spectra will be presented
    corecore