Selección de unidades léxicas para reconocimiento antomático del habla continua en euskera

Ezeiza Ramos, Aitzol; Graña Romay, Manuel; López de Ipiña Peña, Karmele; Zulueta Guerrero, Ekaitz

research

Selección de unidades léxicas para reconocimiento antomático del habla continua en euskera

Authors: Aitzol Ezeiza Ramos
Manuel Graña Romay
Karmele López de Ipiña Peña
Ekaitz Zulueta Guerrero
Publication date: 1 January 2003
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural

Abstract

El euskera es una lengua aglutinante, lo que implica que el vocabulario de un corpus no puede definirse mediante palabras porque crece combinatorialmente y se hace intratable para tareas de medio y gran vocabulario. Los seudo-morfemas, generados mediante una herramienta de segmentación automatizada pueden ser una buena alternativa para la construcción del lexicón y de un modelo del lenguaje, puesto que reducen notablemente el tamaño del vocabulario. En euskera el número de morfemas cortos y acústicamente muy parecidos es muy alto. Este es un fenómeno que debe de tenerse en cuenta ya que el proceso de decodificación acústico fonética puede influir en el CSR, al aumentar la posibilidad de confusión e inserción de ciertas unidades léxicas (unidades muy cortas y con alta tasa de confusión acústica). Una posible forma de abordar el problema es no segmentar estas unidades. El siguiente paso en la mejora del sistema de CSR en euskera es la utilización de un modelo de lenguaje para guiar el proceso de reconocimiento.Basque is an agglutinative language, which implies that corpus vocabulary can not be defined with words, because they grow combinationally making medium and large vocabulary tasks intractable. Pseudo-morphemes, generated with an automatic segmentation tool, could be an alternative choice for building the lexicon and the language model, for they notably reduce the vocabulary size. In Basque, there are many short and acoustically very similar morphemes. This phenomenon has to be taken into account, because the acoustic-phonetic decodification process can influence the CSR task, increasing the possibility of confusion and insertion of certain lexical units (very short units with high rates of acoustic confusion). A feasible way to deal with this problem is to avoid the segmentation of those units. The next step to improve the CSR system in Basque is the use of a language model in order to guide the recognition process

Similar works

Full text

Open in the Core reader

Download PDF

Available Versions

RUA

oai:rua.ua.es:10045/1498

Last time updated on 09/04/2020

Repositorio Institucional de la Universidad de Alicante

oai:rua.ua.es:10045/1498

Last time updated on 13/09/2013