[FR] La langue amazighe, comme la plupart des langues de moindre diffusion, souffre encore de la pénurie
d'outils et des ressources pour son traitement automatique en particulier les corpus annotés. Ces derniers
sont plus difficiles à construire que les corpus bruts qui à leur tour nécessitent des prétraitements dans la
majorité des cas. L’objectif de cet article est de présenter une approche basée sur l’apprentissage semisupervisé
visant l’utilisation d’un corpus de textes brutes, sélectionnées sur la base de la mesure de
confiance des Champs Aléatoires Conditionnels(CACs), conjointement avec un corpus annoté
manuellement de 20k morphèmes. Les résultats des expérimentations préliminaires montrent une
réduction du taux d’erreur de l’étiqueteur morphosyntaxique de 1,3%. Aussi la réduction du taux d’erreur
est de 5,9%, entre 60% et 90% du corpus, lorsque le modèle est entrainé par les phrases du corpus brut
annotées automatiquement.[EN] Amazigh language, and like most of the languages which have only recently started being investigated for
the Natural Language Processing (NLP) tasks, lacks annotated corpora and tools and still suffers from the
scarcity of linguistic tools and resources and especially annotated corpora. Creating labeled data is a hard
task. However, obtaining unlabeled data, although needing most time preprocessing for languages with
scarce resources, is less difficult. The aim of this paper is to present a semi-supervised based approach
using labeled and unlabeled data. Preliminary results show an error reduction of 1,3%, when training our
POS tagger with Conditional Random Fields(CRFs), with chosen automatically annotated texts and a
small manually annotated corpus of about 20k tokens. Also, when trained with automatically annotated
data, the achieved improvement between 60% and 90% of the trained data is 5.9%.Le premier auteur exprime sa gratitude à la CODESRIA. Les travaux du quatrième auteur ont été financés
dans le cadre des projets de recherche: VLC/CAMPUS Microcluster on Multimodal Interaction in
Intelligent Systems, la commission européenne WIQ-EI IRSES (no. 269180) et DIANAAPPLICATIONS(TIN2012-38603-C02-01).Outahajala, M.; Benajiba, Y.; Rosso, P. (2014). Utilisation des CACs et des Ressources Externes pour l Amélioration des Performances de l Étiquetage Morphosyntaxique. Asinag. (9):91-104. http://hdl.handle.net/10251/61654S91104