Sociedad Española para el Procesamiento del Lenguaje Natural
Abstract
El euskera es una lengua aglutinante, lo que implica que el vocabulario de un corpus no puede definirse mediante palabras porque crece combinatorialmente y se hace intratable para tareas de medio y gran vocabulario. Los seudo-morfemas, generados mediante una herramienta de segmentación automatizada pueden ser una buena alternativa para la construcción del lexicón y de un modelo del lenguaje, puesto que reducen notablemente el tamaño del vocabulario. En euskera el número de morfemas cortos y acústicamente muy parecidos es muy alto. Este es un fenómeno que debe de tenerse en cuenta ya que el proceso de decodificación acústico fonética puede influir en el CSR, al aumentar la posibilidad de confusión e inserción de ciertas unidades léxicas (unidades muy cortas y con alta tasa de confusión acústica). Una posible forma de abordar el problema es no segmentar estas unidades. El siguiente paso en la mejora del sistema de CSR en euskera es la utilización de un modelo de lenguaje para guiar el proceso de reconocimiento.Basque is an agglutinative language, which implies that corpus vocabulary can not be defined with words, because they grow combinationally making medium and large vocabulary tasks intractable. Pseudo-morphemes, generated with an automatic segmentation tool, could be an alternative choice for building the lexicon and the language model, for they notably reduce the vocabulary size. In Basque, there are many short and acoustically very similar morphemes. This phenomenon has to be taken into account, because the acoustic-phonetic decodification process can influence the CSR task, increasing the possibility of confusion and insertion of certain lexical units (very short units with high rates of acoustic confusion). A feasible way to deal with this problem is to avoid the segmentation of those units. The next step to improve the CSR system in Basque is the use of a language model in order to guide the recognition process