1,942 research outputs found

    Automatic translation using semantic knowledge in a restricted domain

    Get PDF
    [ES] El propósito que sigue este trabajo es incorporar conocimiento semántico a la traducción automática con el objetivo de mejorar la calidad de ´esta en dominios restringidos. Nos centraremos en la traducción entre inglés, francés y español en el contexto de consultas telefónicas a un servicio de información ferroviaria. Se han desarrollado varias estrategias para la incorporación de la semántica en el proceso de traducción. Algunas de estas aproximaciones incorporan la semántica directamente en los elementos al ser traducidos, mientras que otras utilizan una interlingua o lengua pivote que representa la semántica. Todas estas aproximaciones han sido comparadas experimentalmente con una traducción automática basada en segmentos léxicos que no incorpora conocimiento semántico.[EN] The purpose of this work is to add semantic knowledge to a machine translation process in order to improve its quality for restricted domains. We will focus on the translation between English, French and Spanish, in a task of telephonic query to a railway information service. Many strategies have been developed for the incorporation of semantics into the translation process. Some of these approaches directly incorporate semantics into the elements to be translated and some others use an interlingua or pivot language that represents the semantics. All of these approaches have been experimentally compared to an automatic translation based on lexical segments that do not incorporate semantic knowledge.Hurtado Oliver, LF.; Costa Lacuesta, I.; Segarra Soriano, E.; García Granada, F.; Sanchís Arnal, E. (2016). Traducción Automática usando conocimiento semántico en un dominio restringido. Procesamiento del Lenguaje Natural. (57):101-108. http://hdl.handle.net/10251/84810S1011085

    Atención de consultas del usuario usando el procesamiento del lenguaje natural en el ámbito de soporte técnico

    Get PDF
    En este proyecto de investigación se presenta un sistema de búsqueda de respuesta que busca procesar adecuadamente las consultas del usuario en lenguaje natural basada en texto para mejorar el tipo de respuesta esperada en el ámbito de soporte técnico. El problema que afronta esta investigación es buscar la mejor técnica que permita obtener una comprensión a nivel textual de este tipo de atenciones y brindar respuestas en tiempos reducidos y con un mayor nivel de precisión, es por ello que el objetivo se puede definir con el siguiente texto “procesar adecuadamente las consultas del usuario en lenguaje natural basada en texto para mejorar el tipo de respuesta esperada en el ámbito de soporte técnico”. Para cumplir con este objetivo se estudiaron diversas técnicas de procesamiento de lenguaje natural, que pasaron desde las técnicas ontológicas hasta la de búsqueda en corpus, de las cuales se tuvo que seleccionar la técnica que mejor se adecuó a la investigación tomando la de Levenshtein para aplicar a la misma a la cual se le complementó con otro algoritmo (LCS) que mejoró el motor de búsqueda y que hizo de ésta una herramienta evolucionada por sus características. Una vez establecida la base teórica se describe el diseño de la herramienta considerando que se realizó usando las metodologías RUP y UML orientada a objetos, así como también se hace una descripción técnica detallada de los algoritmos usados mostrando el código relevante o Core de la herramienta del motor de búsqueda y se hace una descripción de la herramienta implementada como una aplicación web. Los resultados experimentales son alentadores ya que se logró hacer uso de esta técnica con tiempos de respuesta de un promedio de 113.93 milisegundos dependiendo de la complejidad de la consulta y acercamiento a la pregunta almacenada teniendo nuestro motor de búsqueda una precisión del 93.33%. Por lo tanto, se puede concluir mencionando que esta investigación brinda aportes significativos en la aplicación este tipo de herramientas de este campo de estudio que aún no toma la relevancia que amerita.Tesi

    Definición de un esquema preconceptual para la obtención automática de esquemas conceptuales de UML

    Get PDF
    Resumen: La elicitación de requisitos de software es una parte de la ingeniería de requisitos donde se procura capturar, analizar, sintetizar y convertir a esquemas conceptuales las necesidades del interesado. Este proceso, que se realiza interactivamente con la participación de analistas e interesados en el desarrollo de la pieza de software, suele presentar problemas de comunicación originados en la diferencia de especialidades de los participantes en el desarrollo de la pieza de software. Tradicionalmente, en ingeniería de software se han solucionado los problemas de este tipo empleando métodos de desarrollo. Dado que los diferentes métodos no garantizan la solución de los problemas de comunicación, ha surgido una nueva tendencia para la generación automática de esquemas conceptuales desde lenguajes controlados. En esta nueva tendencia, existen aún problemas tales como los siguientes: •Se sigue requiriendo una alta participación del analista, lo cual hace subjetivo el proceso. •Se suelen enfocar los proyectos hacia la obtención de un solo diagrama (generalmente Clases o Entidad-Relación). •Cuando los proyectos se enfocan a obtener varios diagramas de UML, se suelen emplear representaciones intermedias independientes para cada uno de los diagramas generados, lo que suele ocasionar problemas de consistencia entre los diagramas resultantes. En esta Tesis se propone un entorno para la generación automática de esquemas conceptuales de UML a partir de un lenguaje controlado denominado UN-Lencep. Para ello, se define un nuevo tipo de esquemas intermedios—los Esquemas Preconceptuales—y se propone un conjunto de reglas heurísticas de transformación desde UN-Lencep hacia Esquemas Preconceptuales y de allí a los diagramas de Clases, Comunicación y Máquina de Estados. Los principales aportes de esta Tesis se pueden sintetizar así: •La especificación de UN-Lencep, un nuevo lenguaje controlado que puede ser aplicable a cualquier dominio, pero que contiene los elementos necesarios para obtener automáticamente los denominados Esquemas Preconceptuales. •La definición de los Esquemas Preconceptuales, su sintaxis y su forma de uso, además de las reglas para obtenerlos desde UN-Lencep. •La conformación de un conjunto de reglas heurísticas que permiten la generación automática de diagramas de Clases, Comunicación y Máquina de Estados a partir de los Esquemas Preconceptuales. •La implementación de los elementos descritos en una nuevo tipo de herramientas CASE, que se ocupa de la interpretación de un discurso en UN-Lencep para generar automáticamente los diagramas de UML mencionados. El prototipo de una herramienta CASE de este tipo, denominado UNC-Diagramador, también es un aporte de esta Tesis. Con estos aportes se pretende la reducción del tiempo de elaboración de los diagramas de UML, el mejoramiento de la calidad de los diagramas que hacen parte de un mismo discurso en UN-Lencep y la creación de un conjunto de artefactos que permitan mejorar la comunicación entre analistas e interesados, acercando el lenguaje técnico del analista al lenguaje natural del interesado, y posibilitando la validación de los elementos que hacen parte de la descripción de un problema que requiere una solución informática. Finalmente, se pretende el mejoramiento de la calidad, la cual se entiende como la carencia de errores en corrección (la utilización de la sintaxis adecuada), consistencia (la representación de un mismo elemento en diferentes diagramas) y completitud (la adecuación de cada uno de los diagramas con el discurso en UN-Lencep). Como trabajos futuros que se encuentran fuera del alcance de estatesis, pero que se pueden nutrir de sus resultados, se cuentan los siguientes: •La generación automática de código ejecutable a partir de los diagramas que arroja el UNC-Diagramador. •La definición de reglas heurísticas para la obtención de otros diagramas de UML, por ejemplo Casos de Uso o Secuencias. •La complementación de la especificación de UN-Lencep, para acercarlo cada vez más a lenguaje natural.Abstract: Software Requirements Elicitation is the branch of Requirements Engineering to capture, analyze, synthesize, and convert the needs of the stakeholders into conceptual schemas. This process is made by means of the interactive participation of analysts and stakeholders in the software development process, and most of the times it presents communication problems, which can be originated in the differences of specialties among software development participants. Software development methods have been traditionally used in order to solve communication problems, and Requirements Engineering is an important part of these methods. Due to the fact that Software development methods are not good enough for solving communication problems, a new trend for automatic generation of conceptual schemas from controlled languages has emerged. However, this new trend still has problems to be solved: •Analysts are often required in the process, and their subjectivity affects the entire process. •Projects of this new trend are focused on obtaining only one diagram (commonly class diagram or entity-relationship diagram). •When projects are focused on several UML diagrams, they use intermediate representations oriented independently to every one of the target diagrams. Consequently, consistency problems among the resulting diagrams arise. We propose, in this Thesis, a new environment for automatically generating UML conceptual schemas from UN-Lencep (a controlled language). We also define, in order to achieve this goal, a new kind of intermediate schemas, called Pre-conceptual Schemas, and we propose a set of rules to transform a UN-Lencep discourse to these intermediate schemas, and then to Class, Communication, and State Machine diagrams. The main contributions of this work are summarized as follows: •The specification of UN-Lencep, a new controlled language applicable to any domain. UN-Lencep is suitable for automatically obtaining the so-called Pre-conceptual Schemas. •The definition of Pre-conceptual Schemas syntax and the set of rules for generating them from UN-Lencep. •The proposal of a set of heuristic rules for generating Class, Communication, and State Machine diagrams by means of Pre-conceptual Schemas. •The implementation of the above defined elements in a new kind of CASE tool to interpret a UN-Lencep discourse and to automatically generate the mentioned UML diagrams. UNC-Diagrammer, the prototype of such CASE tool, is also a contribution of this Thesis. We make these contributions in order to: •Reduce the time period dedicated to UML diagrams making. •Improve the quality of UML diagrams generated from one UN-Lencep discourse. •Create a set of artifacts to improve the analyst-stakeholder communication. To achieve this goal, we pretend to bridge the gap between technical and natural language. Better communication facilitates validation of the modeling elements, which represent the information solution of a problem. •Improve the quality of the models. Better quality is related to the reduction of errors in correction (the adequate use of syntax), consistency (the proper representation of the same element in different diagrams), and completeness (the use, in the diagrams, of enough elements from the UN-Lencep discourse). The results of this Thesis can generate the following future work: •Automatic generation of a source executable code from the diagrams made by means of the UNC-Diagrammer. •Definition of additional heuristic rules to obtain other UML diagrams, for example Sequence or Use Case diagrams. •Addition of new elements to the UN-Lencep specification, in order to make it close to the natural language.Doctorad

    Un formalismo para la extracción de información semántica en textos matemáticos

    Full text link
    Tesis doctoral inédita leída en la Universidad Autónoma de Madrid,. Facultad de Ciencias, Departamento de Ingeniería Informática. Fecha de lectura: 12-6-199

    Diseño de una herramienta para la anotación semántica automática de documentos basados en ontologías en el dominio de la Ingeniería Informática

    Get PDF
    Analizando la situación de la Web en la actualidad en cuanto a la gestión y búsqueda de la información que hay en ella, el siguiente documento propone una herramienta de anotación semántica automatizada como alternativa de solución al trato de la información que se genera en línea. Básicamente, una herramienta de anotación semántica puede contribuir con muchas otras aplicaciones como herramientas de búsqueda, de organización, repositorios, etc.; y al apoyarse en una ontología de un campo determinado, el desarrollo de la herramienta puede extenderse a otros campos específicos mientras se cuente con la información y los expertos respectivos en el modelado del conocimiento. El siguiente proyecto en específico será beneficioso para la búsqueda y organización de diferentes documentos del campo de las ciencias de la computación desarrollados tanto en la universidad como fuera. Esto supondría que todos los miembros de la comunidad universitaria pudieran tener acceso a todos los contenidos del campo sin tener que gastar muchos recursos como tiempo y dinero. Entre los principales beneficios está la reducción de tiempo en búsqueda de materiales de información del campo, así como evitar volver a generar conocimiento que ya se encuentra en la Web o ya ha sido investigado en la universidad. Por último, además de la información recopilada en la investigación de una herramienta de esta naturaleza, se propone un diseño y un conjunto de recursos para desarrollarla, los cuales fueron probados en un conjunto de documentos pertenecientes al campo de la ingeniería informática en la universidad.Tesi

    Luces y sombras en los 75 años de traducción automática

    Get PDF
    P. 139-175La investigación continúa tanto en ámbitos académicos como en empresas de software dedicadas al desarrollo de entornos de traducción. Los avances en la tecnología de los ordenadores, en lingüística teórica y en inteligencia artificial, así como la constante búsqueda de herramientas válidas para agilizar el trabajo de los profesionales del sector, están marcando las futuras líneas de investigació

    Analizadores semánticos en el procesamiento del lenguaje natural

    Get PDF
    Esta tesis está orientada a documentar el papel de los analizadores semánticos en el procesamiento del lenguaje natural, además también se documentará como ejemplo el desarrollo de un analizador semántico. El procesamiento del Lenguaje Natural (PLN) es una parte esencial de la inteligencia artificial que investiga y formula mecanismos computacionales efectivos que faciliten la interrelación hombre/máquina y permitan una comunicación mucho más fluida y menos rígida que los lenguajes formales. Todo sistema de PLN intenta simular un comportamiento lingüístico humano; para ello debe tomar conocimiento tanto de las estructuras propias del lenguaje, como del conocimiento general acerca del discurso. Debido a la complejidad necesaria para lograr que la computadora “comprenda” el lenguaje humano es que se pretende realizar este trabajo que incluye un analizador el cual permita facilitar esta tarea. La manera en la que el analizador semántico realiza el análisis es la siguiente: 1. A partir de leer texto en lenguaje natural hace una comparación con una ontología (red Semántica) ya que trabajar con redes semánticas facilitará su uso. 2. Si las palabras se relacionan semánticamente, el analizador lo indica o indica lo contrario 3. Las búsquedas se realizan usando sinónimos y por herencia Para su funcionamiento el analizador requiere una base de conocimientos, esta base de conocimientos debe tener la estructura de tripleta, la cual contendrá (Concepto, relación, valor). El analizador semántico estará orientado a la computadora para evitar inconsistencias en la introducción de texto. El usuario final estará enfocado en crear, enriquecer su base de conocimientos ya que mientras más información tenga mayor es el alcance del analizador semántico, además de que siendo más grande la base de conocimientos será mayor el conocimiento que obtendrá la computadora y evitará que ocurran inconsistencias

    Evaluación de tres traductores automáticos en línea cuando traducen unidades especializadas eventivas (Español-Inglés)

    Get PDF
    El presente artículo expone los resultados de una evaluación sobre cómo el programa informático de Traducción Automática (TA) Google Translator traduce UFE eventivas. Para llevar a cabo el estudio se seleccionó un corpus de textos especializados paralelos del dominio de las Energías Renovables. Se utilizó la herramienta Antconc 3.2.0w para la identificación de las unidades de análisis y sus respectivos contextos y la Traducción de Referencia (TR) del corpus paralelo para su análisis. Los resultados llevan a pensar que las UFE eventivas por estar compuestas por palabras de uso general que toman una connotación especializada al inscribirse en un área específica del conocimiento son apropiadas para ingresar al traductor automático, sin embrago, éste tiende a traducir manteniendo el patrón de la lengua de origen (LO).This article presents the results of an evaluation on how the Google Translator Machine Translation (TA) software translates eventual UFEs. To carry out the study, a corpus of parallel specialized texts from the domain of Renewable Energies was selected. The Antconc 3.2.0w tool was used to identify the units of analysis and their respective contexts and the Reference Translation (TR) of the parallel corpus for its analysis. The results lead us to think that the eventual UFE, because they are composed of words of general use that take on a specialized connotation when enrolling in a specific area of ​​knowledge, are appropriate to enter the automatic translator, however, it tends to translate maintaining the pattern of source language (LO)

    Adquisición de conocimiento léxico a partir de diccionarios

    Get PDF
    Este documento describe el Trabajo de Fin de Grado (TFG) de la estudiante de Ingeniería Informática Leire Varela. En él se trata el área del \textbf{Procesamiento del Lenguaje Natural} (PLN), más conocido como \textit{Natural Language Processing} o NLP. El Procesamiento del Lenguaje Natural es una rama de la inteligencia artificial que se ocupa de la interacción entre los ordenadores y los seres humanos usando el lenguaje natural. La mayoría de las técnicas de PLN se basan en el aprendizaje automático para ser capaz de comprender y dar sentido al significado de los diferentes idiomas que existen. En este TFG aplicaremos el PLN a través de la adquisición de conocimiento léxico a partir del diccionario en línea de Oxford. Explicaremos cómo y para qué hemos obtenido el diccionario completo con sus definiciones, dominios y ejemplos, y aplicaremos y evaluaremos un clasificador de dominios con modelos de lenguaje pre-entrenados. El proyecto ha sido dirigido por German Rigau

    Los modelos de diálogo y sus aplicaciones en sistemas de diálogo hombre-máquina: revisión de la literatura

    Get PDF
    Un proceso de diálogo entre humanos involucra una serie de actos del habla, cuya finalidad es transmitir los deseos, intenciones y creencias entre las partes involucradas en el mismo. El reconocimiento y clasificación de los actos del habla, la construcción de modelos basados en estos actos del habla y la evaluación de los modelos construidos, es el objetivo de los modelos de diálogo. Además, estos modelos, incorporados en un sistema informático, permiten la interacción hombre-máquina usando el habla para la solución de diversos problemas cotidianos como: comprar un tiquete de tren, reservar un vuelo, etc. En este artículo se recogen las diferentes técnicas para la construcción de modelos de diálogo y algunos de los diversos sistemas informáticos que surgieron a partir de ellos, con el fin de determinar la aplicabilidad de los modelos de diálogo en el proceso de captura de requisitos durante la fase de definición del ciclo de vida de una aplicación de software
    corecore