50 research outputs found

    Construcción de un corpus etiquetado sintácticamente para el euskera

    Get PDF
    El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for Basque. In this paper we present first, the basis of the annotation. After examining several options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES standards and it is based on the idea of adding to each sentence in the corpus a series of grammatical relations specifying the dependencies between modifiers and their nucleus. After the formalism has been presented, we will describe the problems we have found and the decisions we have taken to solve them. Next we present an example showing the application of the scheme to an initial corpus. Finally, we present the main conclusions about the applicability to Basque and future work.Este trabajo se ha realizado dentro del proyecto "Construcción de una base de datos de árboles sintácticos y semánticos", subvencionado por el Ministerio de Educación y Ciencia (PROFIT: FIT-150500-2002-244)

    El treebank del español "IPROCOLDI": componente anotado del corpus CODIMEP-CR

    Get PDF
    This paper describes the process followed in order to create a Spanish treebank in the framework of the research project No. 745-B1-244 Interfaz para el procesamiento de corpus lingüísticos digitales – IPROCOLDI (Interface for the processing of digital language corpora). The data for the treebank was extracted from the Corpus de Mensajes Presidenciales Costarricenses (CODIMEP- CR). The interface and the treebank are located at http://163.178.116.145/iprocoldi/.En este artículo se describe el proceso que se siguió para crear el componente anotado con información lingüística (treebank) del Corpus de Mensajes Presidenciales Costarricenses (CODIMEP-CR), en el marco del proyecto No. 745-B1-244 Interfaz para el procesamiento de corpus lingüísticos digitales-IPROCOLDI. Ambos corpus se albergan en la interfaz IPROCOLDI (http://163.178.116.145/iprocoldi/)

    Fundamentos teóricos y metodológicos para el etiquetado semántico de CESS-CAT y CESS-ESP

    Get PDF
    The aim of this article is to establish the theoretical basis of the semantic annotation of the CESS-ESP and CESS-CAT corpora, by means of assigning to each predicate a Lexicosemantic Structure. The lexicosemantic patterns determine the argument structure, the correspondence between the arguments and the verb, and the diathesis alternations. The semantic annotation is carried out semi-automatically. As a result, a classification of predicates will be obtained and generalizations on the behavior of predicates will be drawn

    Anotación semiautomática con papeles temáticos de los corpus CESS-ECE

    Get PDF
    En este artículo se presenta la metodología seguida en el proceso de anotación semántica automática (estructura argumental y papeles temáticos de los predicados verbales) del corpus CESS-ECE-CAT/ESP, así como la evaluación de los resultados obtenidos. A partir de un léxico verbal (1.482 verbos) con información sobre las funciones sintácticas de cada verbo y su proyección temático-argumental, se ha anotado automáticamente el treebank CESS-ECE aplicando un conjunto de reglas simples sobre los árboles sintácticos. Se ha conseguido anotar automáticamente el 60% de los argumentos y papeles temáticos, con un error muy bajo (inferior al 2%). Este índice de calidad elevado permite usar la presente metodología para semiautomatizar el proceso de anotación semántica del corpus, con el consiguiente ahorro en tiempo de anotación manual. Una vez completada la anotación este corpus podrá ser utilizado como fuente de información para los sistemas de anotación automática de papeles temáticos

    Estrategias facilitadoras del procesamiento en lenguas OV-VO. Estudio comparativo de corpus.

    Get PDF
    151 p.El objetivo de esta tesis doctoral es proporcionar evidencia de que existe una relación entre la frecuencia de uso de determinadas estructuras gramaticales y el procesamiento del lenguaje. En especial, considerar la hipótesis de que la facilitación del lenguaje condiciona las preferencias con las que lenguas VO-OV recurren con mayor frecuencia a determinados fenómenos gramaticales. Para tal fin, he llevado a cabo varios estudios de corpus como metodología de investigación. Encuentro que el orden básico de palabras de la oración se correlaciona con la frecuencia de uso de ciertas características gramaticales de las lenguas: en la frecuencia de uso de nombres y verbos, el uso de argumentos omitidos y argumentos postverbales y el uso de argumentos omitidos para reducir interferencias de animacidad. En concreto proporciono evidencia en favor de que las lenguas OV tienden a reducir el nújero de argumentos expresados en comparación a las lenguas VO. Esto constituye una fuerte evidencia de que las lenguas tienden a minimizar el coste de procesamiento, recurriendo al uso de ciertas estructuras gramaticales

    A Cascaded Syntactic Analyser for Basque

    Get PDF
    This article presents a robust syntactic analyser for Basque and the different modules it contains. Each module is structured in different analysis layers for which each layer takes the information provided by the previous layer as its input; thus creating a gradually deeper syntactic analysis in cascade. This analysis is carried out using the Constraint Grammar (CG) formalism. Moreover, the article describes the standardisation process of the parsing formats using XML

    La coloquialidad en la adaptación cinematográfica del texto teatral: una propuesta de estudio interdisciplinario con el ejemplo de "Bajarse al moro"

    Get PDF
    Literary works adaptations  to cinema are frequent. The most  direct is perhaps from theatrical play   to film, but even in that case,  multiple changes are necessary.  Among them, the need to adapt the   language of the characters, especially  through the "naturalization" of said  language, has been highlighted by critics, be that by means of  spontaneity, credibility,  or  simplification. For all these  characteristics, the use of a colloquial  register is essential. In this study,  taking as an example Bajarse al Moro  by J. L. Alonso de Santos, we proposeanobjective and quantitative  method for comparing colloquiality in  the theatrical and the film version. In  order to do so, we selected six  theatrical scenes and their corresponding film scenes according  to seventeen syntactic and lexical  features related to colloquiality.Adaptaciones de una obra literaria al cine son frecuentes. La más directa acaso sea de obra teatral a película. Sin embargo, incluso en ese caso son necesarios cambios. Entre ellos se ha destacado en la literatura ocupada de teatro y cine la necesidad de adaptar el lenguaje de los personajes, sobre todo mediante la “naturalización” de dicho lenguaje por medio de espontaneidad, verosimilitud, simplificación, etc. Para todas estas características se hace fundamental el uso de un registro coloquial. En este estudio, usando como ejemplo la obra Bajarse al moro, proponemos un método objetivo y cuantitativo para la comparación de la coloquialidad en la versión teatral y la fílmica de esta obra. Para ello seleccionamos seis escenas teatrales y sus correspondientes versiones fílmica conforme a 17 rasgos sintácticos y léxicos relacionados con la coloquialidad. Los resultados indican que la película es en general más coloquial que la obra teatral, salvo en dos de las variables usadas, si bien las medidas de complejidad sintáctica y las variables de tipo de persona gramatical resultaron irrelevantes y no distintivas, frente a otras medidas sintácticas y las medidas léxicas usadas que sí reflejaron una mayor coloquilidad en la versión fílmica

    La traducción automática dentro del contexto de una lengua minorizada. ¿Qué tipo de motor se adapta mejor al caso especial del gallego?

    Get PDF
    El present treball de fi de màster té com a objectiu avaluar la percepció d'adequació de tres tipus diferents de motors de traducció automàtica dins el context d'una llengua minoritzada. El treball parteix de l'anàlisi teòrica de la relació existent entre traducció automàtica i llengües minoritzades, centrant-se específicament en el parell d'idiomes avaluat, espanyol-gallec. Per realitzar aquesta avaluació, s'empra un disseny mixt amb tres mètodes diferents (BLEU, enquesta i anàlisi d'errors) per extreure dades quantitatives i qualitatives sobre un text de màrqueting de l'àmbit elèctric traduït amb un motor basat en regles, un motor estadístic i un motor neuronal. Un cop realitzada cada avaluació per separat, es triangulen els resultats per determinar quin motor proporciona millors resultats. Finalment, a partir de l'anàlisi de les dades, s'extreu una sèrie de conclusions que confirmen o refuten les hipòtesis de partida.El presente trabajo de fin de máster tiene como objetivo evaluar la percepción de adecuación de tres tipos diferentes de motores de traducción automática dentro del contexto de una lengua minorizada. El trabajo parte del análisis teórico de la relación existente entre traducción automática y lenguas minorizadas, centrándose específicamente en el par de idiomas evaluado, español-gallego. Para realizar dicha evaluación, se emplea un diseño mixto con tres métodos distintos (BLEU, encuesta y análisis de errores) para extraer datos cuantitativos y cualitativos sobre un texto de marketing del ámbito eléctrico traducido con un motor basado en reglas, un motor estadístico y un motor neuronal. Una vez realizada cada evaluación por separado, se triangulan los resultados para determinar qué motor proporciona mejores resultados. Finalmente, a partir del análisis de los datos, se extrae una serie de conclusiones que confirman o refutan las hipótesis de partida.The aim of this master's degree Dissertation is to assess the perception of adequacy of three different types of machine translation engines within the context of minoritized languages. The Dissertation is based on the theoretical analysis of the relationship between machine translation and minoritized languages, with special focus on the assessed pair of languages, Spanish-Galician. To perform this evaluation, a mixed design with three different metrics (BLEU, survey and error analysis) is used to extract quantitative and qualitative data about a marketing text from the electric field translated with a rule-based engine, a phrase-based engine and a neuronal engine. Once each evaluation is individually conducted, the results are triangulated to determine which engine provides the best results. Finally, based on the data analysis, a number of conclusions is extracted to confirm or refute the starting hypotheses

    El gallego y el castellano en contacto: code-switching, convergencias y otros fenómenos de contacto entre lenguas

    Get PDF
    Las lenguas acompañan al hombre en su día a día prácticamente desde siempre describiendo realidades y creando unas totalmente nuevas, pero las lenguas en sí mismas son unas creaciones fascinantes que se desarrollan, cambian, se transforman y se actualizan por medio de sus hablantes. El contacto entre lenguas crea, además, unos fenómenos que demuestran una gran capacidad de los usuarios de adaptar y/o adoptar las estructuras gramaticales, de inventar vocablos nuevos y de unir dos lenguas en una. […] El presente libro trata la cuestión del contacto entre dos lenguas muy próximas geográfica y tipológicamente que son el gallego y el castellano. La relación que tienen es bastante compleja siendo el gallego la lengua minorizada por la influencia de la lengua oficial en España que es el castellano
    corecore