7 research outputs found

    Extensiones del sistema de b煤squeda de respuesta AliQAn

    Get PDF
    Este trabajo describe las extensiones del sistema AliQAn para el espa帽ol en dominio abierto. Presenta al sistema Cross-lingual BRILI y un mecanismo de inferencia aplicado al Sistema de B煤squeda de Respuestas monolingual.Eje: Agentes y Sistemas InteligentesRed de Universidades con Carreras en Inform谩tica (RedUNCI

    Extensiones del sistema de b煤squeda de respuesta AliQAn

    Get PDF
    Este trabajo describe las extensiones del sistema AliQAn para el espa帽ol en dominio abierto. Presenta al sistema Cross-lingual BRILI y un mecanismo de inferencia aplicado al Sistema de B煤squeda de Respuestas monolingual.Eje: Agentes y Sistemas InteligentesRed de Universidades con Carreras en Inform谩tica (RedUNCI

    Hacia una integraci贸n de un sistema de b煤squeda de respuestas sobre la inteligencia empresarial mediante el uso de ontolog铆as

    Get PDF
    El objetivo general de las aplicaciones de inteligencia empresarial (Business Intelligence, a partir de ahora BI) es permitir a sus usuarios entender y analizar los datos existentes en sus organizaciones para adquirir conocimiento 煤til y lograr as铆 una mejor toma de decisiones. El coraz贸n de las aplicaciones de BI son los almacenes de datos (Data Warehouse, a partir de ahora DW), los cuales integran diferentes recursos de datos, principalmente bases de datos estructuradas. Sin embargo, una nueva tendencia a utilizar la Web como fuente de informaci贸n sobre el entorno de las organizaciones ha emergido. Como parte de esta l铆nea de investigaci贸n, estamos trabajando en la aplicaci贸n de un sistema de b煤squeda de respuesta (Question Answering) como herramienta vinculante a los DW para la obtenci贸n de informaci贸n que ayude en la toma de decisiones, continuando, de esta manera, con los avances obtenidos.Eje: Agentes y sistemas inteligentesRed de Universidades con Carreras en Inform谩tica (RedUNCI

    Hacia una integraci贸n de un sistema de b煤squeda de respuestas sobre la inteligencia empresarial mediante el uso de ontolog铆as

    Get PDF
    El objetivo general de las aplicaciones de inteligencia empresarial (Business Intelligence, a partir de ahora BI) es permitir a sus usuarios entender y analizar los datos existentes en sus organizaciones para adquirir conocimiento 煤til y lograr as铆 una mejor toma de decisiones. El coraz贸n de las aplicaciones de BI son los almacenes de datos (Data Warehouse, a partir de ahora DW), los cuales integran diferentes recursos de datos, principalmente bases de datos estructuradas. Sin embargo, una nueva tendencia a utilizar la Web como fuente de informaci贸n sobre el entorno de las organizaciones ha emergido. Como parte de esta l铆nea de investigaci贸n, estamos trabajando en la aplicaci贸n de un sistema de b煤squeda de respuesta (Question Answering) como herramienta vinculante a los DW para la obtenci贸n de informaci贸n que ayude en la toma de decisiones, continuando, de esta manera, con los avances obtenidos.Eje: Agentes y sistemas inteligentesRed de Universidades con Carreras en Inform谩tica (RedUNCI

    Sistemas multiagentes en ambientes din谩micos

    Get PDF
    La meta fundamental de este proyecto es el desarrollo de conocimiento especializado en el 谩rea de Inteligencia Artificial Distribuida, estudiando t茅cnicas de representaci贸n del conocimiento y razonamiento, junto con m茅todos de planificaci贸n y tecnolog铆as del lenguaje natural aplicadas al desarrollo de sistemas multiagentes. En la l铆nea Planificaci贸n, la tem谩tica de investigaci贸n es el desarrollo de una arquitectura para agentes que soporte tanto control reactivo como deliberativo, de forma tal que el agente pueda actuar de manera competente y efectiva en un ambiente real. Uno de los objetivos de esta investigaci贸n es el intento de dotar a un agente inteligente de ambas capacidades. Esto brindar谩 la posibilidad de elegir cu谩l ser铆a la mejor forma de actuar frente a un problema determinado. Por otro lado, las otras l铆neas se basan en t茅cnicas de procesamiento del lenguaje natural (PLN). La informaci贸n textual disponible en la web podr铆a ser categorizada en expresiones de hecho y de opini贸n. Las expresiones de hechos est谩n relacionadas a entidades, eventos y sus propiedades. Por otro lado, las de opini贸n son usualmente expresiones subjetivas que describen alg煤n sentimiento sobre las personas, valoraciones o sentimientos hacia las entidades, eventos y sus propiedades. Siguiendo con esto, cada l铆nea de investigaci贸n, dentro del PLN, est谩 orientada a tratar con una de estas categor铆as. Es as铆 que la l铆nea de Opinion Mining se centra en las expresiones de opini贸n. Mientras que la l铆nea de investigaci贸n sobre la inteligencia empresarial (Business Intelligence), en esta primera etapa, est谩 orientada a trabajar solamente con expresiones de hechos.Eje: Agentes y sistemas inteligentesRed de Universidades con Carreras en Inform谩tica (RedUNCI

    Bootstrapping named entity resources for adaptive question answering systems

    Get PDF
    Los Sistemas de B煤squeda de Respuestas (SBR) ampl铆an las capacidades de un buscador de informaci贸n tradicional con la capacidad de encontrar respuestas precisas a las preguntas del usuario. El objetivo principal es facilitar el acceso a la informaci贸n y disminuir el tiempo y el esfuerzo que el usuario debe emplear para encontrar una informaci贸n concreta en una lista de documentos relevantes. En esta investigaci贸n se han abordado dos trabajos relacionados con los SBR. La primera parte presenta una arquitectura para SBR en castellano basada en la combinaci贸n y adaptaci贸n de diferentes t茅cnicas de Recuperaci贸n y de Extracci贸n de Informaci贸n. Esta arquitectura est谩 integrada por tres m贸dulos principales que incluyen el an谩lisis de la pregunta, la recuperaci贸n de pasajes relevantes y la extracci贸n y selecci贸n de respuestas. En ella se ha prestado especial atenci贸n al tratamiento de las Entidades Nombradas puesto que, con frecuencia, son el tema de las preguntas o son buenas candidatas como respuestas. La propuesta se ha encarnado en el SBR del grupo MIRACLE que ha sido evaluado de forma independiente durante varias ediciones en la tarea compartida CLEF@QA, parte del foro de evaluaci贸n competitiva Cross-Language Evaluation Forum (CLEF). Se describen aqu铆 las participaciones y los resultados obtenidos entre 2004 y 2007. El SBR de MIRACLE ha obtenido resultados moderados en el desempe帽o de la tarea con tasas de respuestas correctas entre el 20% y el 30%. Entre los resultados obtenidos destacan los de la tarea principal de 2005 y la tarea piloto de B煤squeda de Respuestas en tiempo real de 2006, RealTimeQA. Esta 煤ltima tarea, adem谩s de requerir respuestas correctas inclu铆a el tiempo de respuesta como un factor adicional en la evaluaci贸n. Estos resultados respaldan la validez de la arquitectura propuesta como una alternativa viable para los SBR sobre colecciones textuales y tambi茅n corrobora resultados similares para el ingl茅s y otras lenguas. Por otro lado, el an谩lisis de los resultados a lo largo de las diferentes ediciones de CLEF as铆 como la comparaci贸n con otros SBR apunta nuevos problemas y retos. Seg煤n nuestra experiencia, los sistemas de QA son m谩s complicados de adaptar a otros dominios y lenguas que los sistemas de Recuperaci贸n de Informaci贸n. Este problema viene heredado del uso de herramientas complejas de an谩lisis de lenguaje como analizadores morfol贸gicos, sint谩cticos y sem谩nticos. Entre estos 煤ltimos se cuentan las herramientas para el Reconocimiento y Clasificaci贸n de Entidades Nombradas (NERC en ingl茅s) as铆 como para la Detecci贸n y Clasificaci贸n de Relaciones (RDC en ingl茅s). Debido a la di cultad de adaptaci贸n del SBR a distintos dominios y colecciones, en la segunda parte de esta tesis se investiga una propuesta diferente basada en la adquisici贸n de conocimiento mediante m茅todos de aprendizaje ligeramente supervisado. El objetivo de esta investigaci贸n es adquirir recursos sem谩nticos 煤tiles para las tareas de NERC y RDC usando colecciones de textos no anotados. Adem谩s, se trata de eliminar la dependencia de herramientas de an谩lisis ling眉铆stico con el fin de facilitar que las t茅cnicas sean portables a diferentes dominios e idiomas. En primer lugar, se ha realizado un estudio de diferentes algoritmos para NERC y RDC de forma semisupervisada a partir de unos pocos ejemplos (bootstrapping). Este trabajo propone primero una arquitectura com煤n y compara diferentes funciones que se han usado en la evaluaci贸n y selecci贸n de resultados intermedios, tanto instancias como patrones. La principal propuesta es un nuevo algoritmo que permite la adquisici贸n simult谩nea e iterativa de instancias y patrones asociados a una relaci贸n. Incluye tambi茅n la posibilidad de adquirir varias relaciones de forma simult谩nea y mediante el uso de la hip贸tesis de exclusividad obtener mejores resultados. Como caracter铆stica distintiva el algoritmo explora la colecci贸n de textos con una estrategia basada en indizaci贸n, que permite adquirir conocimiento de grandes colecciones. La estrategia de selecci贸n de candidatos y la evaluaci贸n se basan en la construcci贸n de un grafo de instancias y patrones, que justifica nuestro m茅todo para la selecci贸n de candidatos. Este procedimiento es semejante al frente de exploraci贸n de una ara帽a web y permite encontrar las instancias m谩s parecidas a las semillas con las evidencias disponibles. Este algoritmo se ha implementado en el sistema SPINDEL y para su evaluaci贸n se ha comenzado con el caso concreto de la adquisici贸n de recursos para las clases de Entidades Nombradas m谩s comunes, Persona, Lugar y Organizaci贸n. El objetivo es adquirir nombres asociados a cada una de las categor铆as as铆 como patrones contextuales que permitan detectar menciones asociadas a una clase. Se presentan resultados para la adquisici贸n de dos idiomas distintos, castellano e ingl茅s, y para el castellano, en dos dominios diferentes, noticias y textos de una enciclopedia colaborativa, Wikipedia. En ambos casos el uso de herramientas de an谩lisis ling眉铆stico se ha limitado de acuerdo con el objetivo de avanzar hacia la independencia de idioma. Las listas adquiridas mediante bootstrapping parten de menos de 40 semillas por clase y obtienen del orden de 30.000 instancias de calidad variable. Adem谩s se obtienen listas de patrones indicativos asociados a cada clase de entidad. La evaluaci贸n indirecta confirma la utilidad de ambos recursos en la clasificaci贸n de Entidades Nombradas usando un enfoque simple basado 煤nicamente en diccionarios. La mejor configuraci贸n obtiene para la clasificaci贸n en castellano una medida F de 67,17 y para ingl茅s de 55,99. Adem谩s se confirma la utilidad de los patrones adquiridos que en ambos casos ayudan a mejorar la cobertura. El m贸dulo requiere menor esfuerzo de desarrollo que los enfoques supervisados, si incluimos la necesidad de anotaci贸n, aunque su rendimiento es inferior por el momento. En definitiva, esta investigaci贸n constituye un primer paso hacia el desarrollo de aplicaciones sem谩nticas como los SBR que requieran menos esfuerzo de adaptaci贸n a un dominio o lenguaje nuevo.-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Question Answering (QA) systems add new capabilities to traditional search engines with the ability to find precise answers to user questions. Their objective is to enable easier information access by reducing the time and effort that the user requires to find a concrete information among a list of relevant documents. In this thesis we have carried out two works related with QA systems. The first part introduces an architecture for QA systems for Spanish which is based on the combination and adaptation of different techniques from Information Retrieval (IR) and Information Extraction (IE). This architecture is composed by three modules that include question analysis, relevant passage retrieval and answer extraction and selection. The appropriate processing of Named Entities (NE) has received special attention because of their importance as question themes and candidate answers. The proposed architecture has been implemented as part of the MIRACLE QA system. This system has taken part in independent evaluations like the CLEF@QA track in the Cross-Language Evaluation Forum (CLEF). Results from 2004 to 2007 campaigns as well as the details and the evolution of the system have been described in deep. The MIRACLE QA system has obtained moderate performance with a first answer accuracy ranging between 20% and 30%. Nevertheless, it is important to highlight the results obtained in the 2005 main QA task and the RealTimeQA pilot task in 2006. The last one included response time as an important additional variable of the evaluation. These results back the proposed architecture as an option for QA from textual collection and confirm similar findings obtained for English and other languages. On the other hand, the analysis of the results along evaluation campaigns and the comparison with other QA systems point problems with current systems and new challenges. According to our experience, it is more dificult to tailor QA systems to different domains and languages than IR systems. The problem is inherited by the use of complex language analysis tools like POS taggers, parsers and other semantic analyzers, like NE Recognition and Classification (NERC) and Relation Detection and Characterization (RDC) tools. The second part of this thesis tackles this problem and proposes a different approach to adapting QA systems for di erent languages and collections. The proposal focuses on acquiring knowledge for the semantic analyzers based on lightly supervised approaches. The goal is to obtain useful resources that help to perform NERC or RDC using as few annotated resources as possible. Besides, we try to avoid dependencies from other language analysis tools with the purpose that these methods apply to different languages and domains. First of all, we have study previous work on building NERC and RDC modules with few supervision, particularly bootstrapping methods. We propose a common framework for different bootstrapping systems that help to unify different evaluation functions for intermediate results. The main proposal is a new algorithm that is able to simultaneously acquire instances and patterns associated to a relation of interest. It also uses mutual exclusion among relations to reduce concept drift and achieve better results. A distinctive characteristic is that it uses a query based exploration strategy of the text collection which enables their use for larger collections. Candidate selection and evaluation are based on incrementally building a graph of instances and patterns which also justifies our evaluation function. The discovery approach is analogous to the front of exploration in a web crawler and it is able to find the most similar instances to the available seeds. This algorithm has been implemented in the SPINDEL system. We have selected for evaluation the task of acquiring resources for the most common NE classes, Person, Location and Organization. The objective is to acquire name instances that belong to any of the classes as well as contextual patterns that help to detect mentions of NE that belong to that class. We present results for the acquisition of resources from raw text from two different languages, Spanish and English. We also performed experiments for Spanish in two different collections, news and texts from a collaborative encyclopedia, Wikipedia. Both cases are tackled with limited language analysis tools and resources. With an initial list of 40 instance seeds, the bootstrapping process is able to acquire large name lists containing up to 30.000 instances with a variable quality. Besides, large lists of indicative patterns are obtained too. Our indirect evaluation confirms the utility of both resources to classify NE using a simple dictionary recognition approach. Best results for Spanish obtained a F-score of 67,17 and for English this value is 55,99. The module requires much less development effort than annotation for supervised algorithms although the performance is not in pair yet. This research is a first step towards the development of semantic applications like QA for a new language or domain with no annotated corpora that requires less adaptation effort
    corecore