3 research outputs found

    Aspectos ortográficos, léxicos y morfosintácticos del etiquetado lingüístico de un corpus de informática en lengua gallega

    Get PDF
    En este trabajo se examinan algunos aspectos del etiquetado lingüístico de un corpus técnico de informática en lengua gallega, en lo que respecta a cuestiones ortográficas, léxicas y morfosintácticas. En primer lugar, presentamos la características del corpus analizado y algunas de las aplicaciones de su procesamiento. A continuación, mostramos las técnicas empleadas en su anotación morfosintáctica, centrándonos en la discusión de nuestra propuesta de etiquetario y en el esquema de codificación. Por último, presentamos una aproximación a los problemas específicos que plantea la anotación léxica, terminológica y ortográfica del corpus

    Technoleg Gwybodaeth a'r Gymraeg: Dogfen Strategaeth

    Get PDF

    Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA

    Get PDF
    A construción de recursos lingüísticos, entre os que se encontran os corpus ou bases de datos textuais, é necesaria en toda lingua para continuar profundando no seu coñecemento, mais tamén é fundamental para o procesamento da linguaxe natural. Nos últimos anos, ademais, as novas tecnoloxías xorden como un parámetro máis de clasificación das linguas en función da súa presenza ou ausencia nelas. Neste marco sitúase o presente traballo, onde se recollen e describen polo miúdo os diferentes recursos lingüísticos elaborados –etiquetario, lexicón e corpus de adestramento, basicamente– para que poida executarse con garantías dunha alta taxa de acerto un etiquetador de tipo estatístico-probabilístico como é o Etiquetador/Lematizador do galego actual (XIADA), aplicado aos documentos que conforman o Corpus de Referencia do Galego Actual (CORGA) –corpus considerado representativo da lingua galega actual, cuxas características lingüísticas constatan as dificultades de traballar con lingua real–. Coa etiquetaxe permítese dar un salto cualitativo no sistema de consultas, de xeito que se facilita a recuperación de información a través dunha aplicación web mediante a consulta por forma, lema, etiqueta morfosintáctica ou calquera combinación destas; co engadido, naturalmente, das prestacións do CORGA. O resultado palpable da aplicación do sistema XIADA á análise de corpus en galego pode consultarse en liña accedendo ao Corpus de Referencia do Galego Actual etiquetado (CORGAetq)
    corecore