Location of Repository

Présentation du Corpus Maninka de Référence

By Valentin Vydrin, Andrij Rovenchak and Kirill Maslinsky

Abstract

International audienceߒߞߏ ߢߎߡߍߙߋ߲ߟߏ ߣߌ߲߫ ߡߊ߬ߣߌ߲߬ߞߊ߬ ߞߊ߲ ߢߎߡߍߙߋ߲ߟߏ ߟߊߦߟߍ߬߬ ߘߊ߫ ߓߟߐߟߐ ߘߐ߫ ߛߊ߲߬ ߂߀߁߆ ߞߏ߲ߞߏߘߓߌ ߟߋ߬ ߟߊ߫. ߡߊ߬ߣߌ߲߬ߞߊ߬ ߞߊ߲ ߢߎߡߍߙߋ߲ߟߏ ߦߋ߫ ߟߊ߬ߕߍ߲߬ ߛߓߍߟߌ ߟߋ߬ ߘߐ߫، ߊ߬ ߞߣߐߘߐ ߡߎ߰ߡߍ߬ ߦߋ߫ ߞߎߡߊߘߋ߲ ߇߉߂ ߇߇߈ ߟߋ߬ ߘߌ߫. ߒߞߏ ߢߎߡߍߙߋ߲ߟߏ ߦߋ߫ ߒߞߏ ߛߓߍߟߌ ߟߋ߬ ߘߐ߫، ߊ߬ ߞߣߐߘߐ߫ ߦߋ߫ ߞߎߡߊߘߋ߲ ߃ ߁߀߅ ߈߇߉ ߘߌ߫. ߢߌߣߌߠߌ߲ ߘߌ߫ ߛߋ߫ ߞߍ߫ ߟߊ߫ ߢߎߡߍߙߋ߲ߟߏ߫ ߝߌ߬ߟߊ߬ ߓߍ߯ ߞߣߐ߫ ߟߊ߬ߕߍ߲߬ ߛߓߍߟߌ ߘߐ߫ ߥߟߊ߫ ߒߞߏ ߛߓߍߟߌ ߘߐ߫. ߡߍ߲ ߦߋ߫ ߢߎߡߍߙߋ߲ ߡߎ߬ߙߊ߲ ߠߎ߬ ߘߌ߫، ߏ߬ ߦߋ߫ "ߘߓߊ" ߟߋ߬ ߘߌ߫، ߏ߬ ߡߍ߲ ߘߐߓߍ߲߬ ߘߊ߫ ߓߡߊߣߊ߲߫ ߞߊ߲ ߢߎߡߍߙߋ߲ߟߏ ߞߏߛߐ߲߬ ߞߊ߬ߞߘߐ߬. NoSketchEngine ߢߎߡߍߙߋ߲ ߡߎ߬ߙߊ߲ ߓߘߊ߫ ߞߍ߫ ߢߌߣߌߠߌ߲ߠߊ߲ ߠߋ߬ ߘߌ߫، ߊ߲ ߓߘߊ߫ ߊ߬ ߘߐߓߍ߲߬ ߞߎߘߊߘߌ߫ ߒߞߏ ߛߓߍߢߊ ߘߐ߫. ߒߞߏ ߞߟߏߜߍ ߓߍ߯ ߢߎߡߍߙߋ߲ߠߡߊ ߓߘߊ߫ ߛߐ߬ߘߐ߲߬، ߓߊ߬ߙߌ߬ ߊ߬ ߓߊ߯ߙߊߓߊ ߟߋ߬ ߞߍ߫ ߘߊ߫ ߞߊ߬ ߏ߬ ߟߎ߫ ߓߊߦߟߍ߬ߡߊ߲߬ "UNICODE" ߛߓߍߢߌ߲ ߢߎߡߍߙߋ߲ߠߡߊ ߟߎ߬ ߘߐ߫. ߞߎߡߊߘߋ߲ ߡߍ߲ ߠߎ߬ ߦߋ߫ ߢߎߡߍߙߋ߲ߟߏ ߝߌ߬ߟߊ߬ ߓߍ߯ ߞߣߐ߫، ߏ߬ ߟߎ߫ ߝߛߊ߬ߙߌ߫ ߡߊ߲߬ߕߊ߬ߦߊ߬ߡߊ ߓߊߖߎ ߦߋ߫ "ߡߊ߬ߟߌ߬ߘߓߊ" ߞߘߓߝߐߟߊ߫ ߢߎߡߍߙߋ߲ߠߡߊ ߟߋ߬ ߘߌ߫. ߏ߬ ߞߘߐߝߐߟߊ߲ ߡߊ߫ ߘߐߓߍ߲߬ ߞߊ߬ ߓߊ߲߫ ߝߟߐ߫، ߦߊ߲߬ߣߌ߫ ߏ߬ ߦߋ߫ ߘߝߊ߫، ߊ߲ ߞߊ߫ ߞߊ߲߫ ߞߊ߬ ߓߊ߯ߙߓߊ ߟߋ߬ ߞߍ߫.An annotated corpus of Guinean Maninka, Corpus Maninka de Référence (CMR), was published in April 2016. It includes two subcorpora: one contains texts originally written in Latin-based graphics (792,778 words), and the other one is composed of texts in N'ko alphabet (3,105,879 words). Both subcorpora are searchable in both Latin-based graphics and in N'ko. In the building CMR, the Daba software package (earlier developed for the Corpus Bambara de Référence) has been used. As the search tool, NoSketchEngine has been used, it was adapted to the right-to-left direction of the N'ko writing. All texts in N'ko were obtained in electronic format, most of them were converted from pre-Unicode fonts. The morphological annotation is based on the Malidaba electronic dictionary which is in an intermediary stage of compillation; much efforts is needed to bring it to a minimally acceptable state.RÉSUMÉ Présentation du Corpus Maninka de Référence Un corpus annoté du maninka de Guinée, Corpus Maninka de Référence (CMR), a été publié en avril 2016. Il comporte deux sous-corpus : l'un contient des textes créés originalement en orthographe latine (792 778 mots), l'autre est composé des textes en alphabet N'ko (3 105 879 mots). La recherche peut être effectuée dans les deux sous-corpus en utilisant soit l'orthographe latine, soit le N'ko. L'outillage utilisé pour le CMR est représenté d'abord par le paquet de logiciel Daba (développé initialement pour le Corpus Bambara de Référence). Le logiciel NoSketchEngine est utilisé comme le moteur de recherche; nous avons adapté ce logiciel au script N'ko, qui s'écrit de droite à gauche. Tous les textes en N'ko ont été obtenu sous format électronique qu'il a fallu normaliser (utilisation de polices pré-Unicode). L'annotation morphologique est basée sur le dictionnaire électronique Malidaba qui est actuellement à une stade itermédiaire d'élaboration; il faut encore beaucoup d'efforts pour l'amener à un état acceptable. ABSTRAC

Topics: ߡߊ߬ߣߌ߲߬ߞߊ߬ ߞߊ߲ ߢߎߡߍߙߋ߲ߟߏ، ߒߞߏ ߡߊ߬ߣߌ߲߬ߞߊ߬ ߢߎߡߍߙߋ߲ߟߏ، ߒߞߏ، ߡߊ߬ߟߌ߬ߘߓߊ، ߢߎߡߍߙߋ߲ߣߟߏ ߛߓߍߣߍ߲ ߘߐߓߍ߲߭, corpus building., Corpus Maninka de Référence, N'ko, Malidaba, constitution de corpus écrits., [ SHS.LANGUE ] Humanities and Social Sciences/Linguistics, [ SHS.INFO ] Humanities and Social Sciences/Library and information sciences
Publisher: HAL CCSD
Year: 2016
OAI identifier: oai:HAL:halshs-01358144v1
Provided by: Hal-Diderot

Suggested articles

Preview


To submit an update or takedown request for this paper, please submit an Update/Correction/Removal Request.