Dotzenes Jornades de Foment de la Investigació de la FCHS (Any 2006-2007)Este artículo trata sobre el etiquetado morfosintáctico de textos electrónicos mediante la utilización de un
programa de etiquetado. Para llevar a cabo el proceso se ha utilizado el programa Connexor Machinese
Syntax; los textos etiquetados pertenecen a los corpus TXTCeram y TXTInfo-ES.
El etiquetado de los corpus TXTCeram y TXTInfo-ES se enmarca dentro del proyecto ONTODIC , cuyo objetivo
general es la creación de un diccionario terminológico onomasiológico. Además, otros de los objetivos
del proyecto versarán acerca de la extracción terminológica y la extracción de información conceptual. El
proyecto ONTODIC ha sido concebido por el grupo de investigación TecnoleTTra (tecnologías del lenguaje,
la terminología y la traducción) de la Universitat Jaume I, y está dirigido por Amparo Alcina.
El marcado o etiquetado de textos electrónicos consiste en codificar documentos con la información morfosintáctica
referente a cada una de las unidades por las que están formados, de forma que éste pueda ser
posteriormente procesado por programas informáticos.
La herramienta Connexor Machinese Syntax nos permite la realización automática del etiquetado, ya que
procesa los archivos en formato .txt, y nos permite obtener los resultados del análisis morfosintáctico tanto
en formato de texto etiquetado como en un documento etiquetado en xml