    Re-ranking of Yahoo snippets with the JIRS passage retrieval system

    Comunicación presentada en: Workshop on Cross Lingual Information Access, CLIA-2007, 20th International Joint Conference on Artificial Intelligence, IJCAI-07, Hyderabad, India, January 6-12, 2007Passage Retrieval (PR) systems are used as first step of the actual Question Answering (QA) systems. Usually, PR systems are traditional information retrieval systems which are not oriented to the specific problem of QA. In fact, these systems only search for the question keywords. JIRS Distance Density n-gram system is a QA-oriented PR system which has given good results in QA tasks when this is applied over static document collections. JIRS is able to search for the question structure in the document collection in order to find the passages with the greatest probability to contain the answer. JIRS is a language-independent PR system which has been already adapted to a few non-agglutinative European languages (such as Spanish, Italian, English and French) as well as to the Arabic language. A first attempt to adapt it to the Urdu Indian language was also made. In this paper, we investigate the possibility of basing on the web the JIRS retrieval of passages. The experiments we carried out show that JIRS allow to improve the coverage of the correct answers re-ranking the snippets obtained with Yahoo search engine.ICT EU-India; TEXT-MESS CICY

    Multimodal dialog system based on statistical models

    En este trabajo presentamos un sistema de diálogo multimodal. Además de la multimodalidad de entrada y salida, la principal característica del sistema es que los módulos más importantes están basados en modelos estadísticos.In this paper, we present a multimodal dialog system. In addition to input and output multimodality, the main feature of the system is that its key modules are based on statistical models.Trabajo parcialmente subvencionado por el gobierno español con el proyecto TIN2008-06856-C05-02 y la Universitat Politècnica de València con el proyecto 20100982

    AMIC: Análisis afectivo de información multimedia con comunicación inclusiva y natural

    Traditionally, textual content has been the main source of information extraction and indexing, and other technologies that are capable of extracting information from the audio and video of multimedia documents have joined later. Other major axis of analysis is the emotional and affective aspect intrinsic in human communication. This information of emotions, stances, preferences, figurative language, irony, sarcasm, etc. is fundamental and irreplaceable for a complete understanding of the content in conversations, speeches, debates, discussions, etc. The objective of this project is focused on advancing, developing and improving speech and language technologies as well as image and video technologies in the analysis of multimedia content adding to this analysis the extraction of affective-emotional information. As additional steps forward, we will advance in the methodologies and ways for presenting the information to the user, working on technologies for language simplification, automatic reports and summary generation, emotional speech synthesis and natural and inclusive interaction.Tradicionalmente, el análisis de los contenidos textuales ha sido la principal fuente de extracción y catalogación de contenidos multimedia y a él se han ido sumando tecnologías que son capaces de extraer información del audio y del video. Un nuevo eje de análisis es la vertiente emocional-afectiva intrínseca en la comunicación humana. Esta información de emociones, posiciones, preferencias, lenguaje figurativo, ironía, sarcasmo, etc. Es fundamental para una comprensión total del contenido de conversaciones, discursos, debates, etc. El objetivo de este proyecto se centra en avanzar en el desarrollo y mejora de prestaciones de las tecnologías del habla, el lenguaje, la imagen y el vídeo para el análisis de contenidos multimedia y añadir a este análisis la extracción de información afectiva-emocional. Como pasos adicionales, se avanzará en los métodos de presentación de resultados al usuario, trabajando en tecnologías de simplificación del lenguaje, generación automática de resúmenes e informes, síntesis de voz emocional e interacción natural e inclusiva.This work is supported by Ministerio de Economía y Competitividad under the grants TIN2017-85854-C4-(1, 2, 3, 4)-R

    Desarrollo de un gestor de diálogo basado en modelos estocásticos y dirigido por la semántica

    Presentamos una aproximación para el desarrollo de un gestor de diálogo basado en modelos estocásticos para representar la estructura y la estrategia de los diálogos. La entrada al gestor consiste en la representación semántica del turno de usuario. Esta aproximación se ha aplicado a un sistema de diálogo de acceso telefónico en castellano que contiene información sobre horarios de trenes.We present an approach to the development of a dialogue manager based on stochastic models for the representation of the dialogue structure and strategy. The input of the manager consists of the semantic representation of the user turn. It has been applied to a Spanish dialogue system which answers queries about train timetables by telephone in Spanish.Este trabajo se ha desarrollado en el marco del proyecto TUSIR subvencionado por la CICYT número TIC2000-0664-C02-01

    Word spotting based on phoneme graphs

    En este artículo se propone la utilización de grafos de fonemas para tareas de detección y localización de palabras en documentos hablados. Los grafos de fonemas propuestos se construyen a partir de probabilidades fonéticas calculadas frame a frame. También se propone un modelo de error sobre los grafos de fonemas que permite simplificar los algoritmos de exploración que buscan secuencias fonéticas. Se aplica un modelo de duración de fonemas para reducir falsos positivos que penaliza adecuadamente la detección de secuencias fonéticas en intervalos temporales demasiado cortos.In this paper we propose the use of phoneme graphs for word spotting tasks. The proposed phoneme graphs are built using phonetic probabilities estimated at frame level. We also propose an error model on phoneme graphs which allows to simplify the exploration algorithms used for finding phonetic sequences. A phoneme duration model is also applied for avoiding the detection of too short phonetic sequences, which helps to reduce the number of false positive detections.Proyecto TIN2008-06856-C05-02/TIN

    JIRS language-independent passage retrieval system: a comparative study

    Comunicación presentada en: 5th International Conference on Natural Language Processing, ICON-2007, Hyderabad, India, January 4-6, 2007Passage Retrieval (PR) systems are used as the first step of the actual Question Answering (QA) systems. Usually, PR systems are traditional information retrieval systems which are not oriented to the specific problematic of QA. In fact, these systems only search for the question keywords. We have developed a QA-oriented PR system which searches the question structures in the document collection in order to find the passages with the greatest probability to contain the answer. In this paper, we have carried out a comparative study of our system with other well-known PR models. The experiments show that with our language-independent n-gram model is possible to improve the coverage of the correct answers using natural language questions. The JIRS Distance Density N-gram system has been already adapted to several European languages. At the moment, we have been adapting it also to some of the official Indian languages in order to prove further the independence of the language.ICT EU-India; TEXTMESS CICY


    This report describes a query expansion method based on the expansion of geographical terms by means of WordNet synonyms and meronyms. We used this method for our participation to the GeoCLEF 2005 English monolingual task, while using the well-known Lucene search engine for indexing and retrieval. The obtained results show that the proposed method was not suitable for the GeoCLEF track, while WordNet can be used in a more effective way during the indexing phase, by adding synonyms and holonyms to the index terms

    Adaptación de un gestor de diálogo estadístico a una nueva tarea

    En este artículo se presenta una aproximación para adaptar una metodología estadística de gestión de diálogo al contexto de un nuevo dominio. El modelo de diálogo, que se aprende automáticamente a partir de un corpus de datos, se basa en la utilización de un proceso de clasificación para determinar la siguiente respuesta del sistema. Esta metodología se ha aplicado previamente en el desarrollo de un sistema de diálogo hablado que proporciona información sobre trenes. Se resume la aproximación y el trabajo que se está realizando actualmente para utilizarla en el desarrollo de un sistema de diálogo para la reserva de instalaciones deportivas.In this paper, we present an approach for adapting a statistical methodology for dialog management within the framework of a new domain. The dialog model, that is automatically learned from a data corpus, is based on the use of a classification process to generate the next system answer. This methodology has been previously applied in a spoken dialog system that provides railway information. We summarize this approach and the work that we are currently carrying out to apply it for developing a dialog system for booking sports facilities.Este trabajo se ha desarrollado en el marco del proyecto EDECÁN subvencionado por el MEC y FEDER número TIN2005-08660-C04-02, la ayuda de la GVA ACOMP07-197 y el Vicerectorat d’Investigació, Desenvolupament i Innovació de la UPV

    Dos aproximaciones basadas en reglas para la gestión del diálogo

    El objetivo principal del artículo es presentar dos modelos de gestión del diálogo basados en reglas, diseñados a partir de la estrategia utilizada para adquirir un corpus mediante la técnica del Mago de Oz y fundamentados en la utilización de medidas de confianza para la detección y corrección de errores. Este trabajo se enmarca dentro del Proyecto DIHANA, que tiene como objetivo el estudio y desarrollo de un sistema de diálogo robusto para el acceso a sistemas de información.This article presents two strategies for the development of two dialogue managers based on rules. These rules are defined from a corpus obtained by the technique of Wizard of Oz. Confidence measures are used for error detection and recovery. This work is included in the DIHANA Project, whose goal is the design and development of a dialogue system for the access to an information system using spontaneous speech.Este trabajo se ha desarrollado en el marco del proyecto DIHANA subvencionado por la CICYT número TIC2002-04103-C03-03