Towards a rule-based Spanish to Spanish sign language translation: from written forms to phonological representations

Porta, Jordi

unknown

Towards a rule-based Spanish to Spanish sign language translation: from written forms to phonological representations

Authors: Jordi Porta
Publication date: 1 January 2014
Publisher

Abstract

Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Escuela Politécnica Superior, Departamento de Tecnología Electrónica y de las Comunicaciones. Fecha de lectura: noviembre de 2014This thesis addresses several aspects about the automatic translation from Castilian Spanish to Spanish Sign Language (LSE), two typologically distant languages with not enough linguistics resources enabling statistical approaches to translation. For this reason, a rule-based approach grounded on contrastive grammatical studies on both languages is used. An architecture following the analysis, transfer and generation model has been chosen. Transfer is performed at the grammatical function level, which is delivered by a Spanish dependency parser without incurring into the complexities of a more deeper analysis. The bilingual base lexicon is obtained from the Diccionario normativo de la lengua de signos española (DILSE-III), which contains the correspondences between Spanish lemmas and their SEA (Sistema de escritura alfabética) representation of signs. The lexicon is extended in two different ways: taking advantage of the difference in flexibility between the part-of-speech systems of Spanish and LSE and exploiting several lexical semantic relations, such as synonymy, hyponymy and meronymy. During the structural transfer phase, some nodes of the dependency analysis are transformed, others are removed and new nodes are inserted. Some classifier predicates are generated in this phase. Surface order generation of signs is obtained by means of the topological ordering of the graph of precedence relations between signs. Pairs of signs having head-dependent relations or sharing the same head are examined in order to determine if its relative ordering is marked or not. The system is evaluated at this point and results are compared to those obtained with statistical models. Best results are obtained with the rule-based approach, with a 0.30 BLEU (Bilingual Evaluation Understudy) and a 42% TER (Translation Error Rate). A linguistic-oriented analysis of errors is provided. Finally, in the morphological generation phase, glosses with morphological annotations are replaced by the HamNoSys (Hamburg Sign Language Notation System) phonological representations produced by a computational morphology. These representations are used for animation synthesis with avatars. The computational morphology that has been implemented uses inflection, introflection and suppletion to model a significant fragment of the LSE morphology. Among the phenomena considered, it has been implemented deictics, nominal plural, aspect marking, verbal agreement, adjectival modification and degree.Esta tesis aborda varios aspectos sobre traducción automática ed español a lengua de signos española (LSE), dos lenguas tipológicamente distantes y con insuficientes recursos lingüísticos que hagan posible aproximaciones estadísticas a la traducción. Por ese motivo, se propone una estrategia basada en reglas lingüísticas fundamentadas en los estudios gramaticales contrastivos existentes entre ambas lenguas. Se ha optado por una arquitectura para la traducción siguiendo el modelo de análisis, transferencia y generación, en la que la transferencia se realiza al nivel de las funciones gramaticales proporcionadas por un analizador de dependencias, evitando así las complejidades asociadas a un análisis lingüístico mas profundo para el español. El lexicón bilíngüe base para la transferencia léxica se ha obtenido de las entradas del Diccionario normativo de la lengua de signos española (DILSE-III), que contiene las correspondencias entre lemas en español y la representación SEA (Sistema de escritura alfabética) de los signos. Este lexicón se ha ampliado por dos vías: Aprovechando las diferencias de flexibilidad entre las clase de palabras del español y la LSE, y explotando relaciones semánticas como la sinonimia, la hiperonimia y la meronimia. Durante la transferencia estructural, algunos nodos del árbol de análisis de dependencias son transformados, otros son borrados y son insertados nuevos nodos. Algunos predicados clasificadores son generados en esta fase. La generación del orden superficial de los signos se obtiene mediante la ordenación topológica del grafo de relaciones de precedencia entre signos. Los pares de signos en nodos que mantienen la relación núcleodependiente o son dependientes de un mismo signo son examinados para determinar si su orden relativo está marcado o no. El sistema de traducción es evaluado en este punto utilizando un corpus y comparado con el resultado obtenido con distintos modelos de traducción estadística. Sobre un corpus de control de glosas, el sistema basado en reglas obtiene mejores resultados, con un BLEU (Bilingual Evaluation Understudy) del 0,30 y un TER (Translation Error Rate) del 42%. Sobre los resultados se ha realizado un análisis de los errores. Finalmente, para la generación morfológica, las glosas junto con sus correspondientes anotaciones morfológicas son reemplazadas por las representaciones fonológicas Ham- NoSys producidas por una morfología computacional y usables para la síntesis de animaciones mediante avatares. La morfología implementada usa flexión, introflexión y supleción para modelar un fragmento bastante amplio de la LSE. Entre los fenómenos tratados se incluyen la deixis, la realización de los distintos tipos de plural nominal, el aspecto, la concordancia argumental del verbo, la modificación adjetival y el grado

Similar works

Full text

Available Versions

Biblos-e Archivo

oai:repositorio.uam.es:10486/6...

Last time updated on 17/11/2016