367 research outputs found

    Los tipos de traducción automática y su evaluación mediante perífrasis verbales y expresiones idiomáticas (alemán-español)

    Get PDF
    El present treball de fi de màster té com a objectiu avaluar la traducció automàtica entre el parell de llengües alemany-castellà. Atès que s'hi poder avaluar moltes qüestions idiomàtiques, en aquest treball es duu a terme l'avaluació mitjançant perífrasis verbals i expressions idiomàtiques. S'hi ofereix un marc teòric sobre la traducció automàtica, els tipus de traducció automàtica i els motors escollits per dur a terme l'avaluació. Així mateix, s'hi expliquen amb detall cadascunes de les perífrasis verbals i les diferències que presenten en relació amb la llengua alemanya i les expressions idiomàtiques amb les que es treballa. Una vegada obtinguts tots els resultats dels motors, amb la mètrica BLEU es determina quin motor proporciona millors resultats. Finalment, amb l'anàlisi de les dades, s'arriba a unes determinades conclusions incloent-hi la confirmació / refutació de les hipòtesis de partida.El presente trabajo final de máster tiene como objetivo evaluar la traducción automática entre el par de lenguas alemán-español. Dado que pueden evaluarse muchas cuestiones idiomáticas, en este trabajo se lleva a cabo la evaluación mediante perífrasis verbales y expresiones idiomáticas. A lo largo del trabajo se ofrece un marco teórico relacionado con la traducción automática, los tipos de traducción automática y los motores seleccionados para llevar a cabo la evaluación. Asimismo, se explican con detalle cada una de las perífrasis verbales y sus diferencias en relación con la lengua alemana, así como las expresiones idiomáticas con las que se trabaja. Una vez obtenidos los resultados de los motores, con la métrica BLEU se determina qué motor proporciona mejores resultados. Finalmente, con el análisis de los datos, se obtiene una serie de conclusiones que incluyen la confirmación / refutación de las hipótesis de partida.The aim of this Master's Degree Dissertation is to evaluate the results of the different translation engines in order to determine which of them offers the best results in relation to verbal periphrases and idiomatic expressions between German and Spanish. A theoretical explanation about machine translation and an account of the existing machine translation systems are provided. Verbal periphrases and their differences in relation to the German language are also explained in detail, and the same procedure is applied to the idiomatic expressions used in the work. Once the results of the engines are obtained, the BLEU automatic quality metric is implemented to determines which engine provide the best results. Finally, with the analysis of the data, a series of conclusions are obtained that include the confirmation / refutation of the starting hypotheses

    Hibridación en lenguas distantes

    Full text link
    [ES] Aplicación de reglas a sistemas de traducción automáticos estadísticos en lenguas gramaticalmente muy distintas[EN] Application of rules to statistical machine translation systems in grammatically very different languagesHelle Salcedo, AJ. (2013). Hibridación en lenguas distantes. http://hdl.handle.net/10251/37112Archivo delegad

    Detección de reutilización de código fuente monolingüe y translingüe

    Full text link
    [EN] Automatic detection of source code re-use consists in determining whether a (piece of) code has been created considering another source.Plagiarism and forks in software projects are two examples of types of re-use in source codes. With the advent of the Web and electronic media it has grown enormously the ease of access to source code to be read, copied or modified. This represents a great temptation for developers with the aim of reducing (time or economic) costs, decide to use previously debugged and tested source codes. This phenomenon has caused experts in programming languages to study the problem. The large amount of resources available on the Web makes impossible a manual analysis of suspect source codes of being re-used. Therefore, there is an urgent need to develop automated tools that can accurately detect re-used cases. Automatic re-use detection tools based on natural language processing techniques and information retrieval are able to perform many comparisons of source codes efficiently. In this thesis we propose a set of models that are suitable at both monolingual or crosslingual level. That is, two source codes written in the same, or different, programming language can be compared. Therefore, it allows us to make comparisons between almost any pair of programming languages unlike the proposals of the state of the art. First, we studied the most common changes made by programmers to avoid the detection. To address these changes and improve the detection, we have proposed a set of pre-processing. The models have been evaluated and analysed in real academic settings as well as large-scale scenarios. Finally, our best proposals were compared with some of the state of the art proposals within the same evaluation framework. These tests of our models were performed millions of monolingual and crosslingual comparisons using several techniques that were effective when applied to detection re-use in texts written in natural language. Most of the resources developed in the framework of this thesis are freely available to the scientific community. Using part of these resources, we have set up two evaluation scenarios (monolingual and crosslingual) that are a reference for current and future research works can adjust and compare their proposals.[ES] La detección automática de reutilización en códigos fuente consiste en determinar si un (fragmento de) código ha sido creado considerando otro como fuente. El plagio y las ramificaciones en proyectos software son dos ejemplos de tipos de reutilización en códigos fuente. Con la llegada de la Web y los medios electrónicos ha crecido enormemente la facilidad de acceso a códigos fuente para ser leídos, copiados o modificados. Esto supone una gran tentación para programadores que, con propósitos de reducir costes (temporales o económicos), deciden utilizar códigos fuente previamente depurados y probados. Este fenómeno ha causado que expertos en lenguajes de programación estudien el problema. La gran cantidad de recursos disponibles en la Web hace imposible un análisis manual de códigos fuente sospechosos de haber sido reutilizados. Por ello, existe una necesidad urgente de desarrollar herramientas automáticas capaces de detectar con precisión los casos de reutilización. Basándose en técnicas del procesamiento del lenguaje natural y recuperación de información, las herramientas de detección automáticas de reutilización son capaces de realizar multitud de comparaciones de códigos fuente de forma eficiente. En esta tesis proponemos un conjunto de modelos que pueden aplicarse indistintamente a nivel monolingüe o translingüe. Es decir, se pueden comparar dos códigos que están escritos en el mismo, o en distinto, lenguaje de programación. Por lo tanto, nos permite realizar comparaciones entre casi cualquier par de lenguajes de programación a diferencia de las propuestas del estado de la cuestión. %que solo se aplican a un grupo muy reducido de lenguajes de programación. Inicialmente, hemos estudiado las modificaciones más comunes realizadas por los programadores para evitar ser detectados. Para tratar estas modificaciones y mejorar la detección, hemos propuesto una serie de preprocesos. Se han evaluado y analizado los modelos tanto en un escenario académico real como en un escenario de detección a gran escala. Finalmente, nuestras mejores propuestas se han comparado con otras propuestas del estado de la cuestión dentro de un mismo marco de evaluación. Estas pruebas de nuestros modelos se han realizado mediante millones de comparaciones tanto a nivel monolingüe como translingüe empleando diversas técnicas que fueron efectivas al aplicarlas sobre textos escritos en lenguaje natural. La mayor parte de los recursos desarrollados en el marco de esta tesis están a libre disposición de la comunidad científica. Utilizando parte de estos recursos, hemos configurado dos escenarios (monolingües y translingües) de evaluación que son un referente para que actuales y futuros trabajos de investigación puedan ajustar y comparar sus propuestas.[CA] La detecció automàtica de reutilització en codis consisteix a determinar si un (fragment de) codi ha sigut creat considerant un altre com a font. El plagi i les bifurcacions en projectes de programari són dos exemples de tipus de reutilització en codis font. Amb l'arribada de la Web i els mitjans electrònics ha crescut enormement la facilitat d'accés a codis font per a ser llegits, copiats o modificats. Açò suposa una gran temptació per a programadors que amb propòsits de reduir costos (temporals o econòmics) decideixen utilitzar codis font prèviament depurats i provats. Aquest fenomen ha causat que experts en llenguatges de programació estudien aquest problema. La gran quantitat de recursos en la Web fa impossible una anàlisi manual de codis font sospitosos d'haver sigut reutilitzats. Es per aquest motiu que existeix una necessitat urgent de desenvolupar eines automàtiques capaces de detectar amb precisió els casos de reutilització. Basant-se en tecnologies de teoria de llenguatges i recuperació d'informació, les eines de detecció automàtiques de reutilització són capaces de realitzar multitud de comparacions de codis font de forma eficient. En aquesta tesi proposem un conjunt de models que poden aplicar-se indistintament a nivell monolingüe o translingüe. És a dir, es poden comparar dos codis que estan escrits en el mateix, o diferent, llenguatge de programació. Per tant, ens permet realitzar comparacions entre quasi qualsevol parell de llenguatges de programació a diferència de les propostes de l'estat de la qüestió. La nostra experimentació ha seguit un cert paral\cdotlelisme entre la detecció de reutilització monolingüe i la translingüe. Inicialment, hem estudiat les modificacions més comunes realitzades pels programadors per evitar ser detectats. Per tractar aquestes modificacions i millorar la detecció, hem proposat una sèrie de preprocesos. S'han avaluat i analitzat els models tant en un escenari acadèmic real com en un escenari de detecció a gran escala. Finalment, hem comparat les nostres millors propostes amb altres propostes de l'estat de la qüestió dins d'un mateix marc d'avaluació. Aquestes proves i comparacions dels nostres models s'han realitzat mitjançant milions de comparacions tant a nivell monolingüe com translingüe emprant diverses tècniques que van ser efectives en aplicar-se sobre textos escrits en lenguatge natural. La major part dels recursos creats en el marc d'aquesta tesi han estat de creació pròpia i estan a lliure disposició de la comunitat científica. Utilitzant part d'aquests recursos, hem proposat dos escenaris (monolingüe i translingüe) d'avaluació que són un referent perquè actuals i futurs treballs d'investigació puguin ajustar i comparar les seves propostes.Flores Sáez, E. (2016). Detección de reutilización de código fuente monolingüe y translingüe [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/66868TESI

    科大讯飞翻译机在医疗领域的应用及其特点分析(西汉)

    Get PDF
    En consonancia con el Instituto Nacional de Estadística (INE) de España, desde 1988, el número de inmigrantes chinos en España ha aumentado significativamente, pasando de 12.306 a 223.591 hasta el 1 de enero de 2022.1 Además, la cantidad de turistas chinos que visitan a España ha incrementado, con 699.108 llegadas en 2019, siendo los principales destinos Cataluña, Madrid y Andalucía. 2 Aunque la pandemia de coronavirus había disminuido de cierta manera el número de inmigrantes y turistas, con la apertura de las políticas y el alivio de las restricciones de viaje, la cantidad sigue creciendo rápidamente. Es por esto que ha generado una gran mayor necesidad de traducción en el ámbito sanitario. No obstante, la traducción humana tradicional no puede satisfacer la demanda de los usuarios. Como líder de empresas de tecnología de traducción, iFLYTEK ha desarrollado una serie de traductores que cuenta con funciones de traducción e interpretación en tiempo real, reconocimiento de dialectos y acentos, traducción e interpretación sin conexión de internet, terminologías en campos específicos, conocimientos profesionales, etc. El objetivo de esta tesis consiste en analizar la aplicación del traductor iFLYTEK en el ámbito sanitario y explorar sus ventajas y limitaciones. Para realizarlo, se ha creado un corpus bilingüe concentrándose en la tuberculosis como ejemplo y se traduce el texto español al chino utilizando iFLYTEK. Además, se aplican dos métricas: BLUE (Bilingual Evaluation underestudy) y TAUS (Translation Automation User Association) para realizar la evaluación automática y le evaluación humana de este texto traducido. Esta metodología requiere una base teórica: 1) La definición de traducción especializada 2) Características del lenguaje médico español y chino 3) Rasgos y dificultades de traducción sanitaria en España y China 4) La tipología de traducción automática 5) Evaluación automática y evaluación humana En resumen, el análisis de la calidad de traducción muestra que el iFLYTEK tiene varios problemas en la traducción en el ámbito sanitario. Dada la capacidad limitada de la evaluación humana, este estudio toma como ejemplo el tema de la tuberculosis. Por lo tanto, aún queda mucho camino por recorrer para la investigación de la aplicación del traductor iFLYTEK en el ámbito sanitario根据西班牙国家统计局(NIE)数据显示,自 1998 年以来,截至 2022 年 1 月 1 日,居 住在西班牙的中国移民数量从 12036 人增加到 223591 人。2019 年,中国游客入境西班 牙次数高达 699108 次,其中主要目的地是加泰罗尼亚,马德里和安达卢西亚。尽管受 疫情影响,这两年游客人数有所下降,但随着各国政策的放宽和疫情的缓解,移民西班 牙的中国人以及前往西班牙旅游的人数仍在迅速增长。因此,在医疗领域存在着很大的 翻译需求。 然而,传统的人工翻译无法完全满足这种需求。作为翻译的龙头企业,科大讯飞开发的 翻译机具有实时翻译、方言翻译、口音识别、离线翻译,配有专业领域术语库及专业知 识等多种功能。本论文旨在探讨科大讯飞翻译机在西班牙语和中文之间医疗领域的应用, 以及其特点优劣。 为此,本文以结核病为例,创建了双语语料库, 然后应用科大讯飞对文本进行西班牙 语到中文的翻译。并使用 BLEU(双语评价研究)和 TAUS(翻译自动化用户协会)分别 对译文进行自动评价和人工评价,对比两种评价方式的特点,分析翻译文本的质量。应 用此研究方法需要足够的理论支撑: 1) 定义特定领域的翻译 2) 分析西班牙语和中文医学语言的特点 3) 总结两个医疗领域翻译的特点以及遇到的难点 4) 分析机器翻译系统的分类 5) 研究两种评价译文的方式 6) 介绍科大讯飞翻译机的特点 最后,通过文本翻译质量的分析,科大讯飞在医疗领域的翻译仍然存在许多问题。鉴于 人工评价的能力有限,本文对于医疗文本翻译的研究以结核病为例,研究范围不够广泛, 多样。因此,对于科大讯飞的翻译功能仍有待进一步研究。Máster Universitario en Comunicación Intercultural, Interpretación y Traducción en los Servicios Públicos. Especialidad en CHI-ESP (M196

    Análisis del tratamiento de la terminología en la traducción automática: implicaciones para la evaluación

    Get PDF
    This paper presents a methodology for the comparative analysis of human and machine translation at a lexical-terminological level. This proposal is applied to an English-Spanish parallel corpus of specialized texts in the medical domain. The main aim of the study is to explore systematic linguistic differences between machine and human translation in the light of the problem of automatic system evaluation. The specific objectives are: a) detect differences in the distribution of terminological units between human and machine translation, b) identify the conditions under which such differences occur considering original texts and strategies for human and machine translation. The study methodology involves, on the one hand, the use of stylometry techniques to characterize the language of machine translation versus human translation and, on the other hand, the classification of translation shifts performed by human translators and modifications made by machine translation systems to the original text. The research results indicate that the differences between machine translation and human translation related to optional translation shifts performed by translators and the differences related to the lack of obligatory changes in machine translation are not equally important to assess the quality of the latter.En este artículo se presenta una propuesta metodológica para el análisis comparativo de Traducciones Automáticas [TAs] y Traducciones Humanas [THs] a nivel léxico-terminológico. El objetivo general de la investigación es estudiar las diferencias lingüísticas sistemáticas entre la TA y la TH de cara a la problemática de la evaluación automática de sistemas de TA. Los objetivos específicos son: a) detectar las diferencias en la distribución de unidades terminológicas entre la TA y la TH; b) identificar las condiciones en las que se producen dichas diferencias teniendo en cuenta los Textos Originales [TOs] y las estrategias de traducción. La metodología del estudio incluye las fases siguientes: selección de dos sistemas de TA basados en estrategias diferentes, constitución de un corpus paralelo inglés-español de textos especializados del ámbito médico, análisis estilométrico de los Textos Traducidos [TTs] para caracterizar el lenguaje de la TA en oposición al de la TH y, finalmente, clasificación de las modificaciones que realizan con respecto al TO los sistemas de TA y los traductores humanos. Los resultados de la investigación indican que las diferencias relacionadas con las modificaciones opcionales realizadas por los traductores y las diferencias que se deben a la falta de modificaciones obligatorias en la TA no tienen la misma relevancia para evaluar la calidad de esta última.Este trabalho apresenta uma metodologia para a análise comparativa de traduções humanas e automáticas no plano léxico-terminológico. Esta proposta é aplicada a um corpus inglês-espanhol paralelo de textos especializados na área médica. O objetivo geral da pesquisa é estudar as diferenças sistemáticas lingüísticas entre tradução automática e tradução humana no contexto do problema de avaliação automática de sistemas. Os objetivos específicos são: a) detectar diferenças na distribuição das unidades terminológicas entre a tradução humana e traduções automáticas de sistemas baseados em estratégias diferentes; b) identificar as condições em que essas diferenças ocorrem considerando os textos originais e as estratégias de tradução humana e automática. A metodologia do estudo envolve, em primeiro lugar, a utilização de técnicas estilométricas para caracterizar a linguagem da tradução automática contra o da tradução humana e, por outro lado, a classificação das alterações em relação o texto original feitas por tradutores humanos e sistemas de tradução automática. Os resultados da pesquisa indicam que as diferenças entre tradução automática e tradução humana relacionadas com modificações opcionais feitas por tradutores e as diferenças que se devem à falta de mudanças obrigatórias na tradução automática não são igualmente importantes para avaliar a qualidade desta última

    L'avaluació de la qualitat de la terminologia de l'àmbit mediambiental en la traducció automàtica neuronal (TAN)

    Get PDF
    La importància de comptar amb traductors especialitzats que coneguin terminologia, resolguin problemes de terminologia i gestionen la informació relacionada amb els termes en el procés de traducció és inqüestionable avui dia. Per tant, aquest estudi pretén abordar tant els problemes de gestió terminològica de les combinacions de llenguatge EN> ES, EN> IT i ES> IT, com els relacionats amb l'avaluació de la qualitat de la terminologia específica del domini. Amb aquesta finalitat, primer hem creat una llista terminològica que conté 37 termes acompanyats de tota la informació rellevant per a la seva definició exhaustiva; posteriorment, vam processar 3 'dataset'. Cada dataset consta de cadenes de text que contenen els termes de la llista i les seves traduccions mitjançant el motor de traducció automàtica eTranslation de la Unió Europea, així com la traducció de referència. Finalment, hem realitzat una avaluació humana de la terminologia.La importancia de contar con traductores especializados que conozcan la terminología, solucionen los problemas terminológicos y gestionen la información relacionada con los términos en el proceso de traducción es incuestionable hoy en día. De hecho, este estudio pretende abordar tanto los problemas de gestión terminológica para las combinaciones lingüísticas EN>ES, EN>IT, ES>IT, como los relacionados con la evaluación de la calidad de la terminología propia de un dominio específico. Para ello, primero creamos un vaciado terminológico que contiene 37 términos acompañados de toda la información relevante para su definición exhaustiva; posteriormente, procesamos 3 dataset. Cada dataset consta de cadenas textuales que contienen los términos del vaciado y sus traducciones realizadas con el motor de traducción automática eTranslation de la Unión Europea, así como las traducciones de referencias (gold strandard). Por último, llevamos a cabo una evaluación humana de la terminología.The importance of having specialized translators who know terminology, solve terminology problems and manage term-related information in the translation process is unquestionable nowadays. Therefore, this study aims to address both terminology management problems for EN>ES, EN>IT and ES>IT language combinations, as well as those related to the evaluation of the quality of domain-specific terminology. For this purpose, we first created a terminology list containing 37 terms accompanied by all the relevant information for their exhaustive definition; subsequently, we processed 3 datasets. Each dataset consists of textual strings containing the terms in the list and their translations using the European Union's eTranslation machine translation engine, as well as the gold standard. Finally, we carried out a human evaluation of the terminology

    Model for automatic detection of lexical-syntactic errors in texts written in Spanish

    Get PDF
    La valoración de textos escritos es una tarea que considera principalmente dos aspectos: el sintáctico y el semántico. El primero de ellos, se enfoca en la forma del texto y el segundo en el significado. La puesta en marcha de dicha tarea realizada en forma manual implica un esfuerzo en tiempo y recursos, que se puede reducir si parte del proceso se lleva a cabo de forma automática. De acuerdo con los antecedentes revisados en la corrección automática de textos, se identifican diferentes técnicas, entre ellas la lingüística, la cual se centra en los elementos sintácticos, semánticos y pragmáticos. Así, la investigación en curso se orienta a la revisión automática de textos escritos en español desde el punto de vista de la sintaxis, como punto de partida para garantizar la coherencia y la cohesión en la composición de textos, lo que puede ser de utilidad e impacto en el medio académico.Con el propósito de llevar a cabo este estudio se recolectó y analizó un conjunto de textos de estudiantes de un programa académico, al cual se le aplicó técnicas de procesamiento de lenguaje natural y aprendizaje de máquina. Adicionalmente, se realizó una corrección manual con la finalidad de comparar ambos resultados. De esta manera, se determinó que hay correspondencia entre ellos, lo cual permitió concluir que el método automático sirve de apoyo en el proceso de corrección sintáctica de un texto escrito en español.Evaluating written texts is a task that mainly considers two aspects: syntactics and semantics. The first one focuses on the form of the text, and the second one, on its meaning. Conducting this task manually implies an effort in time and resources that can be reduced if part of the process is carried out automatically. According to the reviewed literature, there are different techniques for automatically correcting texts. One of them is the linguistic approach, which focuses on syntactic, semantic, and pragmatic elements. Likewise, this ongoing research is concerned with the automatic evaluation of syntactic errors in texts written in Spanish as a starting point to ensure coherence and cohesion in text composition, which may be useful in the academic environment. In order to carry out this study, a set of texts by students enrolled in an academic program was collected and analyzed by applying natural language processing and machine learning techniques. Additionally, the content of the corpus was manually corrected to compare the results of both methods, and correspondence was established between them. For this reason, it was concluded that the automatic method supports the syntactic correction process of a text written in Spanish

    Recuperación de información en Persa: revisión crítica y propuestas de mejora

    Get PDF
    Los principales modelos y técnicas propuestas por los investigadores en la recuperación de información dependen en mayor o menor medida del idioma, tanto de los documentos como de las consultas que se formulan. Al respecto existen muchos estudios, desde el procesamiento del texto hasta los modelos de recuperación, para las lenguas occidentales o predominantes como el inglés. Sin embargo, las lenguas minoritarias como la lengua persa no han sido suficientemente tratadas en los sistemas de RI tanto tradicional como Web y deberían ser mejoradas desarrollando algoritmos y técnicas que consideran las características de esas lenguas. Además, la diferencia morfológica y lingüística de persa frente al inglés en todos sus niveles no permite una extrapolación al idioma persa de los resultados obtenidos para el inglés, demandando la realización de trabajos específicos. El objetivo principal de esta tesis es analizar la recuperación de información en persa y poner de manifiesto los factores que afectan a la eficiencia en los sistemas de recuperación de información con documentos persas y dar propuestas para mejorar la eficiencia de la recuperación de documentos relevantes. Los resultados obtenidos por nuestros experimentos revelan que la mala representación de documentos es el gran desafío que presenta la lengua persa en un sistema de recuperación de información. La representación de documentos es el conjunto de operaciones que se hacen sobre el contenido de un documento desde su creación hasta su indexación. Las diferentes formas de la escritura, ambigüedades en el texto escrito, la dispersión en posición alfabética diferente y no estándar de la ortografía son los principales problemas que hacen necesaria una pre-normalización o estandarización del texto para cumplir con los criterios de un sistema de RI. La segmentación del texto y la definición del límite de las palabras son tareas muy difíciles en persa. Hay de uno a cuatro formas de escribir un carácter alfabético según su posición en una palabra. Cada forma puede ser inicial, media, final y aislada. Hay varias formas de escribir textos persas que difieren en el estilo de escritura de palabras usando o eliminando los espacios dentro o entre las palabras utilizando diversas formas de caracteres. Entonces la correcta tokenizatión y la conversión de estas formas y estilos en una única norma es un paso necesario en la construcción de los sistemas de RI con documentos en persa. En la lengua persa, las palabras se construyen generalmente a partir de la forma imperativa de los verbos. Por lo tanto, desde un punto de vista de la lingüística, la primera etapa para extraer la raíz es encontrar el modo imperativo de la palabra. En general, no es fácil obtener el modo imperativo ya que hay muchos infinitivos irregulares. La forma imperativa del infinitivo irregular se basa en cómo se escuchan o se usan las palabras. En este caso, se necesita buscar el modo imperativo en el léxico. Además, la diversidad de formas plurales, plurales irregulares y las palabras no plurales terminando con los signos plurales son algunos de los retos en la construcción de lematizadores para la lengua persa. Otro objetivo de esta tesis es la evaluación del rendimiento y calidad de los buscadores de web frente a los documentos persas, en particular, de Google que es utilizado por el 92% de los usuarios iraníes. Los resultados obtenidos han destacado que el buscador Google considera las palabras vacías persas como palabras claves del contenido de un documento persa. Además, la tokenización del texto no realiza correctamente la separación adecuada de las palabras y la lematización contiene muchos errores. En conclusión, Google debe mejorar las operaciones que corresponden a la representación de documentos persas teniendo en cuenta de la estructura y gramática de la lengua persa. Analizando los trabajos previos, hemos constatado que no hay ninguna investigación que consiga en identificar automáticamente las palabras vacías en un sistema de RI. Por lo tanto, la última aportación de este trabajo es desarrollar un método automático que permita identificar las palabras vacías para sistemas de RI con documentos persas. Nuestro método está basado en los modelos estadísticos y en el modelo de información. El modelo estadístico extrae las palabras vacías teniendo en cuenta la distribución de estas palabras en un corpus y en cada documento del corpus. El modelo de información mide el significado de una palabra en el texto mediante el uso de la teoría de la información.Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos

    Generación automática de resúmenes independientes del lenguaje

    Get PDF
    En la actualidad la información en formato digital crece de manera exponencial y ante ello surgen diversas problemáticas, como la sobrecarga de información, redundancia de información, pérdida de información, entre otras. Este tipo de problemas puede ocasionar en los usuarios deficiencia en su trabajo, al no tener el tiempo disponible necesario, para procesar toda la información, ante esto surge la importante necesidad de contar con métodos que permitan la generación automática de resúmenes. Pero además de contar con un método que nos permite generar resúmenes, sería ideal que los métodos generaran resúmenes en cualquier lenguaje, principalmente en el lenguaje que domina el usuario (en nuestro caso el español). Un método de generación automática de resúmenes independientes del lenguaje, trata de contrarrestar los efectos negativos de la sobrecarga de información, además de que permite generar un resumen, independientemente del lenguaje en el que se encuentre el texto original. Según (Ledeneva, 2008) un resumen es un texto corto que transmite la información más importante de un documento de origen. Actualmente existen métodos del estado del arte que dicen ser independientes del lenguaje, pero solo prueban en el lenguaje inglés. Existen otros que son independientes del lenguaje y prueban más de una colección de documentos, pero no en español. Entre los métodos del estado del arte que dicen ser independientes del lenguaje está el propuesto por (Matias, 2013), el cual obtienen buenos resultados para el lenguaje inglés y puede trabajar con otros lenguajes. Entonces con referencia a los resultados que se obtienen con el método de (Matias, 2013), en este trabajo se propone el método en los lenguajes: inglés, portugués y español. Además se ajustaron los parámetros de las etapas: pre-procesamiento, modelo de texto, importancia de las oraciones, función de aptitud y el operador de selección, para tratar de mejorar la calidad de los resúmenes. Las colecciones de documentos utilizadas en este trabajo son, para inglés la colección DUC2002, para portugués la colección TeMário y para el lenguaje español TER. La colección TER es una aportación de este trabajo, la cual es una colección de noticias de un periódico mexicano (La crónica) especialmente para el uso de resúmenes. Los resúmenes resultantes son evaluados con la herramienta ROUGE la cual permite comparar los resúmenes generados a partir del método con los resúmenes generados por un humano. Los resultados obtenidos de los experimentos con cada una de las colecciones se comparan con los resultados obtenidos con los resúmenes generados con las herramientas comerciales 5 y otros métodos del estado del arte. Los resultados obtenidos con el método propuesto en todos los lenguajes superan tanto a las herramientas comerciales como a los métodos del estado del arte
    corecore