2 research outputs found
Analisi dell’interlingua e sistemi di annotazione: implicazioni teoriche ed indagini empiriche
Il contributo nasce nell’ambito di uno studio preliminare condotto su un
campione di dati inclusi in un corpus (University of Salerno Learner Corpus)
di produzioni scritte da studenti di inglese come lingua straniera
provenienti da diversi atenei del centro-sud d’Italia con l’obiettivo di illustrare
le caratteristiche tecniche e le capacità descrittive di alcuni dei
più diffusi sistemi di annotazione morfo-sintattica e degli errori. L’indagine
condotta sul campione di dati è incentrata sull’interpretazione e
conseguente annotazione dei sintagmi preposizionali che costituisce una
delle aree della grammatica della lingua in cui risultano più evidenti le
diverse strategie messe in atto dagli apprendenti a livello semantico-sintattico
e la loro difficoltà ad integrare automaticamente struttura sintagmatica
ed informazione lessico-semantica. Nella sua natura di work-inprogress,
il presente contributo fornisce spunti su procedure metodologiche
volte a individuare non solo la reale natura delle produzioni interlinguistiche
degli apprendenti di lingua straniera, ma anche le caratteristiche
strutturali delle produzioni non-nativelike, di cui gli analizzatori
sintattici dovrebbero tener conto
Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA
A construción de recursos lingüÃsticos, entre os que se encontran os corpus ou
bases de datos textuais, é necesaria en toda lingua para continuar profundando no seu
coñecemento, mais tamén é fundamental para o procesamento da linguaxe natural. Nos
últimos anos, ademais, as novas tecnoloxÃas xorden como un parámetro máis de
clasificación das linguas en función da súa presenza ou ausencia nelas. Neste marco
sitúase o presente traballo, onde se recollen e describen polo miúdo os diferentes
recursos lingüÃsticos elaborados –etiquetario, lexicón e corpus de adestramento,
basicamente– para que poida executarse con garantÃas dunha alta taxa de acerto un
etiquetador de tipo estatÃstico-probabilÃstico como é o Etiquetador/Lematizador do
galego actual (XIADA), aplicado aos documentos que conforman o Corpus de
Referencia do Galego Actual (CORGA) –corpus considerado representativo da lingua
galega actual, cuxas caracterÃsticas lingüÃsticas constatan as dificultades de traballar con
lingua real–. Coa etiquetaxe permÃtese dar un salto cualitativo no sistema de consultas,
de xeito que se facilita a recuperación de información a través dunha aplicación web
mediante a consulta por forma, lema, etiqueta morfosintáctica ou calquera combinación
destas; co engadido, naturalmente, das prestacións do CORGA. O resultado palpable da
aplicación do sistema XIADA á análise de corpus en galego pode consultarse en liña
accedendo ao Corpus de Referencia do Galego Actual etiquetado (CORGAetq)