50 research outputs found
Construcción de un corpus etiquetado sintácticamente para el euskera
El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente
para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se
asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado
por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de
añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la
dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de
etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones
tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de
dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la
idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for
Basque. In this paper we present first, the basis of the annotation. After examining several
options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES
standards and it is based on the idea of adding to each sentence in the corpus a series of
grammatical relations specifying the dependencies between modifiers and their nucleus. After
the formalism has been presented, we will describe the problems we have found and the
decisions we have taken to solve them. Next we present an example showing the application of
the scheme to an initial corpus. Finally, we present the main conclusions about the applicability
to Basque and future work.Este trabajo se ha realizado dentro del proyecto
"Construcción de una base de datos de árboles
sintácticos y semánticos", subvencionado por el
Ministerio de Educación y Ciencia (PROFIT:
FIT-150500-2002-244)
El treebank del español "IPROCOLDI": componente anotado del corpus CODIMEP-CR
This paper describes the process followed in order to create a Spanish treebank in the framework of the research project No. 745-B1-244 Interfaz para el procesamiento de corpus lingüísticos digitales – IPROCOLDI (Interface for the processing of digital language corpora). The data for the treebank was extracted from the Corpus de Mensajes Presidenciales Costarricenses (CODIMEP- CR). The interface and the treebank are located at http://163.178.116.145/iprocoldi/.En este artículo se describe el proceso que se siguió para crear el componente anotado con información lingüística (treebank) del Corpus de Mensajes Presidenciales Costarricenses (CODIMEP-CR), en el marco del proyecto No. 745-B1-244 Interfaz para el procesamiento de corpus lingüísticos digitales-IPROCOLDI. Ambos corpus se albergan en la interfaz IPROCOLDI (http://163.178.116.145/iprocoldi/)
Fundamentos teóricos y metodológicos para el etiquetado semántico de CESS-CAT y CESS-ESP
The aim of this article is to establish the theoretical basis of the semantic annotation of the CESS-ESP and CESS-CAT corpora, by means of assigning to each predicate a Lexicosemantic Structure. The lexicosemantic patterns determine the argument structure, the correspondence between the arguments and the verb, and the diathesis alternations. The semantic annotation is carried out semi-automatically. As a result, a classification of predicates will be obtained and generalizations on the behavior of predicates will be drawn
Anotación semiautomática con papeles temáticos de los corpus CESS-ECE
En este artículo se presenta la metodología seguida en el proceso de anotación semántica automática (estructura argumental y papeles temáticos de los predicados verbales) del corpus CESS-ECE-CAT/ESP, así como la evaluación de los resultados obtenidos. A partir de un léxico verbal (1.482 verbos) con información sobre las funciones sintácticas de cada verbo y su proyección temático-argumental, se ha anotado automáticamente el treebank CESS-ECE aplicando un conjunto de reglas simples sobre los árboles sintácticos. Se ha conseguido anotar automáticamente el 60% de los argumentos y papeles temáticos, con un error muy bajo (inferior al 2%). Este índice de calidad elevado permite usar la presente metodología para semiautomatizar el proceso de anotación semántica del corpus, con el consiguiente ahorro en tiempo de anotación manual. Una vez completada la anotación este corpus podrá ser utilizado como fuente de información para los sistemas de anotación automática de papeles temáticos
Estrategias facilitadoras del procesamiento en lenguas OV-VO. Estudio comparativo de corpus.
151 p.El objetivo de esta tesis doctoral es proporcionar evidencia de que existe una relación entre la frecuencia de uso de determinadas estructuras gramaticales y el procesamiento del lenguaje. En especial, considerar la hipótesis de que la facilitación del lenguaje condiciona las preferencias con las que lenguas VO-OV recurren con mayor frecuencia a determinados fenómenos gramaticales. Para tal fin, he llevado a cabo varios estudios de corpus como metodología de investigación. Encuentro que el orden básico de palabras de la oración se correlaciona con la frecuencia de uso de ciertas características gramaticales de las lenguas: en la frecuencia de uso de nombres y verbos, el uso de argumentos omitidos y argumentos postverbales y el uso de argumentos omitidos para reducir interferencias de animacidad. En concreto proporciono evidencia en favor de que las lenguas OV tienden a reducir el nújero de argumentos expresados en comparación a las lenguas VO. Esto constituye una fuerte evidencia de que las lenguas tienden a minimizar el coste de procesamiento, recurriendo al uso de ciertas estructuras gramaticales
A Cascaded Syntactic Analyser for Basque
This article presents a robust syntactic analyser for Basque and the different modules it contains. Each module is structured in different analysis layers for which each layer takes the information provided by the previous layer as its input; thus creating a gradually deeper syntactic analysis in cascade. This analysis is carried out using the Constraint Grammar (CG) formalism. Moreover, the article describes the standardisation process of the parsing formats using XML
La coloquialidad en la adaptación cinematográfica del texto teatral: una propuesta de estudio interdisciplinario con el ejemplo de "Bajarse al moro"
Literary works adaptations to cinema are frequent. The most direct is perhaps from theatrical play
to film, but even in that case, multiple changes are necessary. Among them, the need to adapt the
language of the characters, especially through the "naturalization" of said language, has been highlighted by critics, be that by means of spontaneity, credibility, or simplification. For all these characteristics, the use of a colloquial register is essential. In this study, taking as an example Bajarse al Moro by J. L. Alonso de Santos, we proposeanobjective and quantitative method for comparing colloquiality in the theatrical and the film version. In order to do so, we selected six theatrical scenes and their corresponding film scenes according to seventeen syntactic and lexical features related to colloquiality.Adaptaciones de una obra literaria al cine son frecuentes. La más directa acaso sea de obra teatral a película. Sin embargo, incluso en ese caso son necesarios cambios. Entre ellos se ha destacado en la literatura ocupada de teatro y cine la necesidad de adaptar el lenguaje de los personajes, sobre todo mediante la “naturalización” de dicho lenguaje por medio de espontaneidad, verosimilitud, simplificación, etc. Para todas estas características se hace fundamental el uso de un registro coloquial. En este estudio, usando como ejemplo la obra Bajarse al moro, proponemos un método objetivo y cuantitativo para la comparación de la coloquialidad en la versión teatral y la fílmica de esta obra. Para ello seleccionamos seis escenas teatrales y sus correspondientes versiones fílmica conforme a 17 rasgos sintácticos y léxicos relacionados con la coloquialidad. Los resultados indican que la película es en general más coloquial que la obra teatral, salvo en dos de las variables usadas, si bien las medidas de complejidad sintáctica y las variables de tipo de persona gramatical resultaron irrelevantes y no distintivas, frente a otras medidas sintácticas y las medidas léxicas usadas que sí reflejaron una mayor coloquilidad en la versión fílmica
La traducción automática dentro del contexto de una lengua minorizada. ¿Qué tipo de motor se adapta mejor al caso especial del gallego?
El present treball de fi de màster té com a objectiu avaluar la percepció d'adequació de tres tipus diferents de motors de traducció automàtica dins el context d'una llengua minoritzada. El treball parteix de l'anàlisi teòrica de la relació existent entre traducció automàtica i llengües minoritzades, centrant-se específicament en el parell d'idiomes avaluat, espanyol-gallec. Per realitzar aquesta avaluació, s'empra un disseny mixt amb tres mètodes diferents (BLEU, enquesta i anàlisi d'errors) per extreure dades quantitatives i qualitatives sobre un text de màrqueting de l'àmbit elèctric traduït amb un motor basat en regles, un motor estadístic i un motor neuronal. Un cop realitzada cada avaluació per separat, es triangulen els resultats per determinar quin motor proporciona millors resultats. Finalment, a partir de l'anàlisi de les dades, s'extreu una sèrie de conclusions que confirmen o refuten les hipòtesis de partida.El presente trabajo de fin de máster tiene como objetivo evaluar la percepción de adecuación de tres tipos diferentes de motores de traducción automática dentro del contexto de una lengua minorizada. El trabajo parte del análisis teórico de la relación existente entre traducción automática y lenguas minorizadas, centrándose específicamente en el par de idiomas evaluado, español-gallego. Para realizar dicha evaluación, se emplea un diseño mixto con tres métodos distintos (BLEU, encuesta y análisis de errores) para extraer datos cuantitativos y cualitativos sobre un texto de marketing del ámbito eléctrico traducido con un motor basado en reglas, un motor estadístico y un motor neuronal. Una vez realizada cada evaluación por separado, se triangulan los resultados para determinar qué motor proporciona mejores resultados. Finalmente, a partir del análisis de los datos, se extrae una serie de conclusiones que confirman o refutan las hipótesis de partida.The aim of this master's degree Dissertation is to assess the perception of adequacy of three different types of machine translation engines within the context of minoritized languages. The Dissertation is based on the theoretical analysis of the relationship between machine translation and minoritized languages, with special focus on the assessed pair of languages, Spanish-Galician. To perform this evaluation, a mixed design with three different metrics (BLEU, survey and error analysis) is used to extract quantitative and qualitative data about a marketing text from the electric field translated with a rule-based engine, a phrase-based engine and a neuronal engine. Once each evaluation is individually conducted, the results are triangulated to determine which engine provides the best results. Finally, based on the data analysis, a number of conclusions is extracted to confirm or refute the starting hypotheses
Cognición y percepción lingüísticas
Las contribuciones aquí recogidas abordan la descripción y discusión de aspectos lingüísticos diversos (sintácticos, léxicos, contrastivos), pero vienen a coincidir en haber recurrido preferentemente a una fundamentación perceptivo-cognitiva para los análisi
El gallego y el castellano en contacto: code-switching, convergencias y otros fenómenos de contacto entre lenguas
Las lenguas acompañan al hombre en su día a día prácticamente desde siempre describiendo realidades y creando unas totalmente nuevas, pero las lenguas en sí mismas son unas creaciones fascinantes que se desarrollan, cambian, se transforman y se actualizan por medio de sus hablantes. El contacto entre lenguas crea, además, unos fenómenos que demuestran una gran capacidad de los usuarios de adaptar y/o adoptar las estructuras gramaticales, de inventar vocablos nuevos y de unir dos lenguas en una. […] El presente libro trata la cuestión del contacto entre dos lenguas muy próximas geográfica y tipológicamente que son el gallego y el castellano. La relación que tienen es bastante compleja siendo el gallego la lengua minorizada por la influencia de la lengua oficial en España que es el castellano