Utilisation des CACs et des Ressources Externes pour l Amélioration des Performances de l Étiquetage Morphosyntaxique

Abstract

[FR] La langue amazighe, comme la plupart des langues de moindre diffusion, souffre encore de la pénurie d'outils et des ressources pour son traitement automatique en particulier les corpus annotés. Ces derniers sont plus difficiles à construire que les corpus bruts qui à leur tour nécessitent des prétraitements dans la majorité des cas. L’objectif de cet article est de présenter une approche basée sur l’apprentissage semisupervisé visant l’utilisation d’un corpus de textes brutes, sélectionnées sur la base de la mesure de confiance des Champs Aléatoires Conditionnels(CACs), conjointement avec un corpus annoté manuellement de 20k morphèmes. Les résultats des expérimentations préliminaires montrent une réduction du taux d’erreur de l’étiqueteur morphosyntaxique de 1,3%. Aussi la réduction du taux d’erreur est de 5,9%, entre 60% et 90% du corpus, lorsque le modèle est entrainé par les phrases du corpus brut annotées automatiquement.[EN] Amazigh language, and like most of the languages which have only recently started being investigated for the Natural Language Processing (NLP) tasks, lacks annotated corpora and tools and still suffers from the scarcity of linguistic tools and resources and especially annotated corpora. Creating labeled data is a hard task. However, obtaining unlabeled data, although needing most time preprocessing for languages with scarce resources, is less difficult. The aim of this paper is to present a semi-supervised based approach using labeled and unlabeled data. Preliminary results show an error reduction of 1,3%, when training our POS tagger with Conditional Random Fields(CRFs), with chosen automatically annotated texts and a small manually annotated corpus of about 20k tokens. Also, when trained with automatically annotated data, the achieved improvement between 60% and 90% of the trained data is 5.9%.Le premier auteur exprime sa gratitude à la CODESRIA. Les travaux du quatrième auteur ont été financés dans le cadre des projets de recherche: VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems, la commission européenne WIQ-EI IRSES (no. 269180) et DIANAAPPLICATIONS(TIN2012-38603-C02-01).Outahajala, M.; Benajiba, Y.; Rosso, P. (2014). Utilisation des CACs et des Ressources Externes pour l Amélioration des Performances de l Étiquetage Morphosyntaxique. Asinag. (9):91-104. http://hdl.handle.net/10251/61654S91104

    Similar works

    Full text

    thumbnail-image

    Available Versions