Sociedad Española para el Procesamiento del Lenguaje Natural
Abstract
En este artículo se expone el proceso adoptado para la transformación de un treebank anotado con dependencias a un treebank anotado con constituyentes. En este trabajo se toma en
cuenta primeramente las características de ambos formalismos, para luego proponer las
correspondientes equivalencias lingüísticas. Al final se explica brevemente el desarrollo,
mediante refinamientos de las equivalencias lingüísticas, llevado a cabo. La evaluación del
trabajo realizado es satisfactoria ya que el resultado es que en este momento es posible explotar
y trabajar con corpus anotados en los dos formalismos normalmente usados en la tarea de
etiquetado sintáctico. Si las equivalencias lingüísticas son iguales, la conversión es expansible a
otros corpus; de lo contrario, habría que volver a definir nuevas equivalencias.In this paper the process for turning a dependency-based corpus to a constituent-
based one is explained. For this purpose, first both the Dependency and the Constituent
formalism are analized and then the corresponding equivalences of linguistic phenomena are
treated. This process has had different phases in which the linguistic equivalences have been
improved. Finally, the evaluation process is briefly explained and, as a result, we get corpora
annotated in the two different formalisms usually proposed for syntactic tagging. If the
linguistic equivalences are the same, the conversion process could be expanded to other corpus;
otherwise, new equivalences should be defined