3 research outputs found
Aspectos ortográficos, léxicos y morfosintácticos del etiquetado lingüÃstico de un corpus de informática en lengua gallega
En este trabajo se examinan
algunos aspectos del etiquetado lingüÃstico
de un corpus técnico de informática en
lengua gallega, en lo que respecta a
cuestiones ortográficas, léxicas y
morfosintácticas. En primer lugar,
presentamos la caracterÃsticas del corpus
analizado y algunas de las aplicaciones de
su procesamiento. A continuación,
mostramos las técnicas empleadas en su
anotación morfosintáctica, centrándonos en
la discusión de nuestra propuesta de
etiquetario y en el esquema de codificación.
Por último, presentamos una aproximación
a los problemas especÃficos que plantea la
anotación léxica, terminológica y
ortográfica del corpus
Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA
A construción de recursos lingüÃsticos, entre os que se encontran os corpus ou
bases de datos textuais, é necesaria en toda lingua para continuar profundando no seu
coñecemento, mais tamén é fundamental para o procesamento da linguaxe natural. Nos
últimos anos, ademais, as novas tecnoloxÃas xorden como un parámetro máis de
clasificación das linguas en función da súa presenza ou ausencia nelas. Neste marco
sitúase o presente traballo, onde se recollen e describen polo miúdo os diferentes
recursos lingüÃsticos elaborados –etiquetario, lexicón e corpus de adestramento,
basicamente– para que poida executarse con garantÃas dunha alta taxa de acerto un
etiquetador de tipo estatÃstico-probabilÃstico como é o Etiquetador/Lematizador do
galego actual (XIADA), aplicado aos documentos que conforman o Corpus de
Referencia do Galego Actual (CORGA) –corpus considerado representativo da lingua
galega actual, cuxas caracterÃsticas lingüÃsticas constatan as dificultades de traballar con
lingua real–. Coa etiquetaxe permÃtese dar un salto cualitativo no sistema de consultas,
de xeito que se facilita a recuperación de información a través dunha aplicación web
mediante a consulta por forma, lema, etiqueta morfosintáctica ou calquera combinación
destas; co engadido, naturalmente, das prestacións do CORGA. O resultado palpable da
aplicación do sistema XIADA á análise de corpus en galego pode consultarse en liña
accedendo ao Corpus de Referencia do Galego Actual etiquetado (CORGAetq)