Intégrer des connaissances linguistiques dans un CRF : application à l'apprentissage d'un segmenteur-étiqueteur du français

Billot, Sylvie; Constant, Mathieu; Duchier, Denys; Dupont, Yoann; Sigogne, Anthony; Tellier, Isabelle

research

Intégrer des connaissances linguistiques dans un CRF : application à l'apprentissage d'un segmenteur-étiqueteur du français

Authors: Sylvie Billot
Mathieu Constant
Denys Duchier
Yoann Dupont
Anthony Sigogne
Isabelle Tellier
Publication date: 27 June 2011
Publisher: HAL CCSD

Abstract

International audienceDans cet article, nous synthétisons les résultats de plusieurs séries d'expériences réalisées à l'aide de CRF (Conditional Random Fields ou "champs markoviens conditionnels") linéaires pour apprendre à annoter des textes français à partir d'exemples, en exploitant diverses ressources linguistiques externes. Ces expériences ont porté sur l'étiquetage morphosyntaxique intégrant l'identification des unités polylexicales. Nous montrons que le modèle des CRF est capable d'intégrer des ressources lexicales riches en unités multi-mots de différentes manières et permet d'atteindre ainsi le meilleur taux de correction d'étiquetage actuel pour le français