Sociedad Española para el Procesamiento del Lenguaje Natural
Abstract
En el presente artículo se detalla el proceso de creación de corpora
para el entrenamiento y pruebas de un generador de analizadores de dependencias
(Maltparser). Se parte del corpus Cast3LB, que contiene análisis de constituyentes de
textos en español. Estos análisis de constituyentes se transforman automáticamente
en análisis de dependencias. Además se describe cómo se obtiene, experimentalmente
y de manera semiautomática, un conjunto de etiquetas de funcionalidad sintáctica
para etiquetar adecuadamente el corpus de entrenamiento. El proceso seguido ha
permitido obtener un analizador de dependencias para el español con una precisión
del 91% en la determinación de dependencias.The present paper details the process followed for creating training and
test corpora for a dependency parser generator (Maltparser). The starting point is
the Cast3LB corpus, which contains constituency analyses of Spanish texts. These
constituency analyses are automatically transformed into dependency analyses. In
addition, the empirically and semiautomatically obtention of a set of syntactic function
labels for the training corpus is described. As a result of the process followed, it
has been obtained a dependency parser for Spanish showing a 91% precision when
determining dependencies.Partially supported by the Spanish Ministry
of Education and Science (TIN2006-14433-C02-01
project)