23 research outputs found

    An efficient method of indexing for image retrieval from pdf files

    Get PDF
    Una de las áreas que más interés está despertando actualmente entre los investigadores y usuarios de sistemas de Recuperación de Información es la recuperación de documentos que contengan imágenes relevantes a una necesidad de información. En este caso, el principal objetivo no es la recuperación de los documentos relevantes a la necesidad de información del usuario sino la obtención de las imágenes relevantes a dicha necesidad. En la actualidad, las colecciones de documentos se pueden encontrar en diversos formatos (html, xml, pdf, etc.). En este artículo presentamos un método eficaz para indexar una colección de documentos en formato pdf para mejorar la recuperación de imágenes contenidas en los documentos. Los experimentos realizados prueban que el método presentado obtiene mejores resultados que si se realizara una indexación del texto completo.One of the areas which is presently awakening more interest among researchers and users of Information Retrieval systems is the retrieval of documents containing images which are relevant to a need for information. In this case, the main objective is not the retrieval of the documents relevant to the user’s need for information, but the achievement of the images relevant to that need for information. At present, document collections can be found in a variety of formats (html, xml, pdf, etc). In this paper we present an efficient method to index a collection of documents in pdf format to improve the retrieval of images contained in documents. The experiments we carried out prove that the method presented here achieves better results than indexing the full text.Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia e Innovación, el Plan E del Gobierno Español y la Unión Europea con cargo al FEDER (TIN2009-14057-C03-03)

    Un Sistema de Recuperación de Información Biomédica en Dispositivos Móviles basado en Agrupamiento

    Get PDF
    La sobrecarga de información producida por la creciente disponibilidad en internet de textos y publicaciones de interés es un problema que se acrecienta cuando esa información es necesaria para la toma de decisiones, como ocurre en el ámbito biomédico. Es en este dominio donde se ubica este sistema de recuperación de información dirigido a dispositivos de consulta móviles, que a los tradicionales procesos de indexado y búsqueda, añade la característica de la devolución de los resultados de manera agrupada en función de su contenido.Information overload caused by the increasing availability of online texts and publications of interest is a problem that increases when such information is necessary for decision making, as in the biomedical field. It is in this domain where we present an information retrieval system for mobile devices. Traditional indexing and search processes are enriched with the feature of returning the results in clusters according to their content.This work has been partially funded by the Spanish Ministry of Science and Innovation and the European Union from the ERDF (TIN2009-14057-C03-03

    Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico

    Get PDF
    Unos de los enfoques más prometedores en la Recuperación de Información Croslingüe es la utilización de recursos léxico-semánticos para realizar una indexación conceptual de los documentos y consultas. Hemos seguido esta aproximación para proponer un sistema de acceso a la información para profesionales sanitarios, que facilita la preparación de casos clínicos, y la realización de estudios e investigaciones. En nuestra propuesta se conecta la documentación de los pacientes (la historia clínica), en castellano, con la información científica relacionada (artículos científicos), en inglés y castellano, usando para ellos recursos de gran cobertura y calidad como la ontología SNOMED. Se describe asimismo como se gestiona la confidencialidad de la información.One of the most promising approaches to Cross-Language Information Retrieval is the utilization of lexical-semantic resources for concept-indexing documents and queries. We have followed this approach in a proposal of an Information Access system designed for medicine professionals, aiming at easing the preparation of clinical cases, and the development of studies and research. In our proposal, the clinical record information, in Spanish, is connected to related scientific information (research papers), in English and Spanish, by using high quality and coverage resources like the SNOMED ontology. We also describe how we have addressed information privacy

    AORESCU: Opinion Analysis in Social Networks and User-Generated Contents

    Get PDF
    El proyecto AORESCU tiene como objetivos la recopilación y el procesamiento de la información generada por los usuarios sobre una entidad con idea de obtener a partir de ella una serie de indicadores que permitan evaluar la imagen que los usuarios tienen de la misma. La información recuperada puede ser estructurada (p.e. valoraciones numéricas) y no estructurada (fundamentalmente en forma de textos en lenguaje natural). Las técnicas y herramientas utilizadas en el proyecto son adaptables a cualquier dominio. No obstante, se ha elegido el ámbito turístico como dominio de aplicación al tratarse de un sector con una importante actividad económica y para el que es fácil encontrar contenidos para analizar. El proyecto tiene cuatro partes fundamentales: la recuperación de información de distintas fuentes sobre las entidades que pertenecen al dominio de aplicación (hoteles, restaurantes, espacios naturales, monumentos,…), la definición de un modelo de datos para representar esta información, el desarrollo de herramientas de análisis de textos para procesar los comentarios de los usuarios y el desarrollo de una aplicación web que permita analizar los datos procesados.AORESCU project main goals are focused on the retrieval and processing of information generated by users about an entity. The idea is to get insights from this information that help us to understand the perception of users about an entity. We can retrieve two types of information from web 2.0 sources: structured information (e.g. numerical rating) and unstructured (mainly in the form of texts in natural language). The techniques and tools used in the project are adaptable to any domain. We chose the tourism sector as application domain since it is a sector with an important economic activity and because it is easy to find user generated content about touristic resources. The project has four main phases: the retrieval of information from different sources about the entities (for the tourism sector, these entities are hotels, restaurants, natural spaces, monuments,...), the definition of a data model to represent this information, the development of text analysis tools to process user comments and the development of a web application to query and analyze the processed data.El proyecto AORESCU (P11-TIC-7684 MO) está financiado por la Consejería de Innovación, Ciencia y Empresas de la Junta de Andalucía

    Rule extraction from medical data without discretization of numerical attributes

    Get PDF
    Association rule mining is a popular technique used to find associations between attributes in a dataset. When using deterministic algorithms, if the attributes have numerical values the usual approach is to discretize them defining proper intervals. But the discretization can notably affect the quality of the rules generated. This work presents a method based on a deterministic exploration of the interval search space without a previous discretization of the numerical attributes. It has been applied to medical data from an atherosclerosis study. The quality of the obtained rules seems to support this method as a valid alternative for this kind of rule extraction

    Setting a baseline for an automatic extractive concepts-based summarization on the biomedical domain

    Get PDF
    Los métodos de generación de resúmenes basados en técnicas extractivas han demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier tipo de dominios. En el ámbito biomédico son numerosos los estudios que hablan de la sobrecarga de información y recogen la necesidad de aplicación de técnicas eficientes de recuperación y generación de resúmenes para una correcta aplicación de la medicina basada en la evidencia. En este contexto vamos a presentar una propuesta de metodología de generación automática de resúmenes basada en conocimiento estructurado y grafos. A partir de una representación del documento original en un grafo, aplicando técnicas de similitud entre frases y sus conceptos biomédicos, se obtienen las frases más relevantes para formar el resumen final.The methods for automatic summarization generation based in extractive techniques have widely shown its utility for his adaptability and efficiency in the manner of response time at any kind of application domain. In Biomedical domain are numerous the research results about the overload information and the need of application of efficient recovery and summarization methods for the proper use of evidence based medicine. In this context we are going to present a proposal of methodology for automatic summarization based on structured knowledge and graph's use. From a representation of the source document in form of a graph, applying similarity methods between phrases and their containing biomedical concepts, we obtain the most salient phrases to fill in the final summary.Este trabajo ha sido financiado por el Ministerio de Ciencia e Innovación a través de los proyectos CICYT TIN2007-67843-C06-03 y TIN2005-08998-C02-02

    A proposal and evaluation of an extractive method for summarization in the biomedical domain based on concepts

    Get PDF
    Los métodos de generación de resúmenes basados en técnicas extractivas han demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier tipo de dominios. En el ámbito biomédico son numerosos los estudios que hablan de la sobrecarga de información y recogen la necesidad de aplicación de técnicas eficientes de recuperación y generación de resúmenes para una correcta aplicación de la medicina basada en la evidencia. En este contexto vamos a presentar una propuesta metodológica de generación automática de resúmenes basada en ontologías y grafos, aplicando técnicas de similitud y la frecuencia de aparición de los conceptos para obtener las frases más relevantes. Se realiza una evaluación de la propuesta frente a otras metodologías con la herramienta ROUGE y se analizan los resultados. Aunque la extensión del conjunto de evaluación no permite extraer conclusiones significativas, los resultados son suficientemente prometedores como para confiar en la efectividad de la propuesta presentada.The methods for automatic summarization generation based in extractive techniques have widely shown its utility for his adaptability and efficiency in the manner of response time at any kind of application domain. In Biomedical field are numerous the research results about the overload information and the need of application of efficient recovery and summarization methods for the proper use of evidence based medicine. In this context we are going to present a proposal of methodology for automatic summarization based on structured knowledge and graph's use, applying similarity methods between phrases and considering concepts appearance frequency. Finally, a methodology’s evaluation is made to compare with other methods using the ROUGE tool and analyzing their results. Although the size of the evaluation set doesn’t allow extracting noteworthy conclusions, the results collected are enough promising to trust in the effectiveness of the proposal handed in

    Tareas de análisis del contenido textual para la recuperación de información con realimentación

    Get PDF
    La utilización de realimentación es una de las técnicas que proporciona mejoras más significativas en la efectividad del proceso de recuperación de información. Por otra parte, cada vez se utilizan en el proceso de recuperación de información, técnicas más avanzadas de análisis del contenido textual con vistas a mejorar la efectividad. En nuestro trabajo estudiamos los beneficios que proporciona la integración de mecanismos de análisis del contenido al utilizar la realimentación en el proceso de recuperación de información. Nos centramos en dos tareas de análisis: desambiguación de palabras y generación de resúmenes, presentando una sistemática para su utilización y experimentos asociados para la evaluación de las mejoras conseguidas.Este trabajo ha sido parcialmente financiado por: CICYT, proyecto TEL99-0335-C04-03; Ministerio de Industria y Energía, Iniciativa ATYCA, proyecto TS203/1999

    Using ontologies for query expansion in image retrieval in the biomedical domain

    Get PDF
    La existencia de grandes colecciones de imágenes médicas ha generado un interés cada vez mayor por el acceso a este tipo de información. En este artículo abordamos este problema desde el punto de vista de la recuperación basada en la información textual relacionada con la imagen. La hipótesis inicial planteada es que la expansión de las consultas podría mejorar la efectividad de un sistema de recuperación de imágenes. Se han utilizado diferentes elementos de información contenidos en las ontologías MeSH y UMLS. La expansión se ha llevado a cabo tanto a nivel de término como de concepto. Para la experimentación se ha utilizado la colección de documentos ImageCLEF del año 2009. Los resultados obtenidos muestran un ligero incremento de la medida MAP y una diferencia más significativa cuando la evaluación se realiza usando la medida F. La conclusión final es que la expansión de consulta no es suficiente para conseguir una mejora sustancial de la efectividad en este tipo de sistemas de recuperación de información.The existence of huge collections of medical images in scientific repositories and hospital databases has generated increasing interest in the access to this information. In this paper we address this problem focusing on image retrieval based on textual information related to the image. The initial hypothesis is that query expansion could improve the effectiveness of image retrieval systems. In this proposal, we have used several information elements contained in MeSH and UMLS ontologies. The expansion has been carried out at both term and concept levels. For the experiment we have used the document collection ImageCLEF 2009. The results show a slight increase in MAP and a more significant difference when the evaluation is performed using the F-measure. The final conclusion is that the query expansion is not sufficient to achieve a substantial improvement in the effectiveness of this type of information retrieval systems.Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia e Innovación, el Plan E del Gobierno Español y la Unión Europea con cargo al FEDER (TIN2009-14057-C03-03)

    BioViewMed, a visual tool to support expansion of search string using semantic knowledge

    Get PDF
    Presentamos una herramienta que ofrece una ayuda visual a la adición de términos en la cadena de búsqueda, en pre-recuperación, controlada por el usuario y guiada por la información contenida en ontologías.We present a tool that offers a visual aid to the addition of terms in the search string in pre-recovery, user-controlled and guided by the information contained in ontologies.Este trabajo ha sido parcialmente financiado por ERDF (TIN2009-14057-C03-03)
    corecore