47 research outputs found

    Control de autoridades, una herramienta desaprovechada en los sistemas de recuperación

    Get PDF
    Anuario ThinkEPI, 2012, v. 6, pp. 240-243The author argues that the list of authorities, as well as a professional tool, may represent an important role in information retrieval. The purpose of this paper is to offer an example to highlight how libraries and document databases have failed or have not yet reached their full potential in the knowledge society.[ES] Se defiende que el catálogo de autoridades, además de una herramienta profesional, puede tener un rol importante en la recuperación de información. Se utiliza como ejemplo para subrayar cómo bibliotecas y bases de datos documentales no han sabido o no han logrado poner en juego todo su potencial en la sociedad del conocimiento.Peer reviewe

    Authority control, a wasted tool in recovery systems

    Get PDF
    The author argues that the list of authorities, as well as a professional tool, may represent an important role in information retrieval. The purpose of this paper is to offer an example to highlight how libraries and document databases have failed or have not yet reached their full potential in the knowledge society

    Text Mining and Medicine: An approach to early detection of diseases

    Get PDF
    El futuro próximo de los servicios sanitarios vendrá marcado por el envejecimiento de la población y la cronicidad de las enfermedades. Junto a los cambios demográficos y sociales, se está produciendo un claro aumento de la frecuentación en los distintos servicios de atención primaria y especializada y, por supuesto, todo esto se traduce en un fuerte incremento del gasto sanitario. Todo este problemático contexto hace que las instituciones sanitarias se marquen como principales objetivos la priorización de la prevención, el control de los factores de riesgo y la detección precoz de enfermedades. Para apoyar la prevención primaria es muy importante que el profesional sanitario tenga todos los medios disponibles a su alcance para extraer conocimiento de su principal fuente de información que es la historia clínica informatizada del paciente. Así, el profesional sanitario debería disponer de herramientas que permitan conocer e interrelacionar eventos clínicos de interés, alertar sobre la aparición de futuros riesgos para la salud o pronosticar el posible desarrollo de una enfermedad. Sin embargo, el esfuerzo, tiempo y coste que supondría extraer este conocimiento de la simple lectura de los múltiples informes clínicos contenidos en la historia de un paciente (escritos en su mayoría en lenguaje natural), sería incalculable e imposible de asumir por la mayoría de los profesionales sanitarios en la clínica diaria. Hasta el momento, los sistemas de información existentes en la mayoría de instituciones sanitarias sólo han sido utilizados como sistemas de almacenaje de información, es decir sistemas que recopilan y almacenan toda la información asistencial generada en la interacción médico-paciente, pero todavía no se ha dado el paso de convertir estos grandes “almacenes de información” en “fuentes de conocimiento” que aporten valor para facilitar y apoyar la toma de decisiones clínicas. Sin embargo, el reto de automatizar este proceso, transformar almacenes de información en fuentes de conocimiento, no es una tarea trivial. Se estima que en un complejo hospitalario regional se pueden generar al año más de 3 millones de documentos clínicos, el 80% de esta documentación clínica contiene información no estructurada, una de la más destacable es la información textual. Hasta ahora la información clínica textual ha sido prácticamente ignorada por la mayoría de las instituciones sanitarias debido a la gran complejidad en su explotación para generar valor de su contenido. La principal fuente de conocimiento contenida en la historia clínica electrónica, que es la narrativa clínica textual, es en la práctica altamente desaprovechada. A la dificultad de las organizaciones sanitarias para obtener valor del texto, con las herramientas de análisis hasta ahora utilizadas, se suman las peculiares características que posee la terminología clínica donde prima: una alta ambigüedad y complejidad del vocabulario, la narrativa textual libre, una escasa normalización terminológica y un uso excesivo de acrónimos y negaciones. En este complejo marco y ante la creciente necesidad de adquirir conocimiento para apoyar el proceso de prevención y toma de decisiones clínicas, se hace imprescindible el uso de Sistemas Inteligentes que ayuden a extraer el valor encerrado en el contenido textual de los múltiples documentos que integran la historia clínica electrónica. Pero a pesar de esta acuciante necesidad, actualmente existen muy pocos sistemas reales que extraigan conocimiento del texto clínico para facilitar el trabajo diario al profesional sanitario en tareas arduas y complejas como la detección de factores de riesgo o la predicción diagnóstica. En la actualidad, para abordar la problemática de extraer valor del texto clínico, en el entorno de la medicina computacional, disponemos de las técnicas avanzadas que nos proporciona la disciplina de la Minería de Textos (MT). Esta disciplina puede definirse como un área orientada a la identificación y extracción de nuevo conocimiento adquirido a partir de información textual, es un campo multidisciplinar que puede integrar técnicas de otras disciplinas como el Procesamiento del Lenguaje Natural (PLN) o Aprendizaje Automático (AA). En este sentido, abordamos esta tesis doctoral con un análisis exhaustivo y pormenorizado del estado del arte sobre la disciplina de la MT en el ámbito de la Medicina, recogiendo los métodos, técnicas, tareas, recursos y tendencias más destacadas en la literatura. De esta amplia revisión se detecta que en la práctica los sistemas existentes para apoyar el proceso de toma de decisiones clínicas basados en información clínica textual son escasos y generalmente resuelven una única tarea principal centrándose en un área específica de conocimiento y siendo desarrollados para dominios muy específicos difícilmente reproducibles en otros entornos. Ante las problemáticas observadas en los sistemas de MT existentes y las necesidades de las instituciones sanitarias, se propone la creación de un novedoso sistema, denominado MiNerDoc, que permita apoyar la toma de decisiones clínicas en base a una combinación de técnicas de la disciplina de la MT, junto con el enriquecimiento terminológico y semántico proporcionado por la herramienta MetaMap y el metathesaurus UMLS, recursos que aportan características esenciales en el dominio médico. MiNerDoc permite, entre otras funcionalidades, detectar factores de riesgo o eventos clínicos de interés e inferir automáticamente códigos normalizados de diagnósticos tomando como fuente exclusiva la información textual contenida en informes clínicos, en definitiva, permite llevar a cabo tareas complejas que facilitan y apoyan la labor del profesional sanitario en la prevención primaria y la toma de decisiones clínicas. El sistema de MT propuesto ha sido evaluado en base a un amplio análisis experimental, los resultados demostraron la efectividad y viabilidad del sistema propuesto y verificaron el prometedor rendimiento de MiNerDoc en las dos tareas evaluadas, reconocimiento de entidades médicas y clasificación diagnóstica multietiqueta.The near future of health services will be marked by the ageing of the population and the chronicity of diseases. Together with the demographic and social changes, there is a clear increase in the number of people attending both primary and specialized care services, and, of course, all this produces a sharp increase in healthcare expenditure. All this context makes health institutions to set a series of main objectives: prioritization of prevention, control of risk factors and early detection of diseases. To support primary prevention, it is important that health professionals have all the available means at their disposal to extract knowledge from main sources of information, that is, the patient’s electronic health records. Thus, health professionals should have tools that allow them to know and interrelate clinical events of interest, receive alerts about upcoming health risks or predict the development of a disease. However, the effort, time and cost required to extract this knowledge by just reading of the multiple clinical reports belonging to a patient's history (mostly written in natural language), are incalculable and hardly affordable for most health professionals in the daily clinic practice. Until now, the existing information systems in most health institutions have only been used as information storage systems, that is, systems that collect and store any healthcare information generated in the practitioner-patient interaction. By now, the step of transforming such raw data into useful "knowledge" that eases and supports the final clinical decision-making process has not been applied yet. Nevertheless, such challenge of transforming raw data into knowledge is not trivial. It is estimated that in a regional hospital more than 3 million clinical documents can be generated per year, 80% of them contain unstructured or textual information. Up to now, textual clinical information has been practically ignored by most health institutions mainly due to the arduous process required to take advantage of the content of such vast amount of data. Thus, the main source of knowledge contained in the electronic medical records, which is in textual clinical narrative, is practically untapped. Additionally to the difficulty of the health organizations to obtain value from the text by using traditional tools, the peculiar characteristics of the clinical terminology is an added problem: high ambiguity and complexity of the vocabulary, free textual narrative, a poor terminological standardization and an overuse of acronyms and negations. In this complex framework and in view of the growing need to acquire knowledge to support the decision-making process, it is essential to use Intelligent Systems that help to extract the value from textual documents. Currently, there are very few real systems able to extract knowledge from clinical texts and to really ease the daily work of healthcare professionals in complex tasks such as risk factor detection or diagnostic prediction. In recent years, to face these problems up, there are a number of advanced techniques provided by the Text Mining (TM) discipline. TM might be defined as an area focused on the identification and extraction of new knowledge from textual information, and it is seen as a multidisciplinary field gathering techniques from other disciplines such as Natural Language Processing (NLP) and Machine Learning (ML). In this sense, this doctoral Thesis first provides an exhaustive and detailed analysis of the state-of-the-art on the TM discipline in Medicine. This analysis includes the most outstanding methods, techniques, tasks, resources and trends in the field. As a result, this review revealed that the existing systems to support the clinical decision-making process by applying a textual clinical information are scarce, and they generally perform a single task on a specific area of knowledge and for very specific domains hardly applied to problems on different environments. In this regard, this Thesis proposes the development of a new system, called MiNerDoc, to support clinical decision-making by applying a combination of techniques from the TM discipline, along with the terminological and semantic enrichment provided by the MetaMap tool and the UMLS metathesaurus. MiNerDoc allows, among other functionalities, the detection of risk factors or clinical events of interest and automatic inference of standardized diagnostic codes based on the textual information included in clinical reports. The proposed TM system has been evaluated based on an extensive experimental study and the results have demonstrated the effectiveness and viability of such system in two tasks, recognition of medical entities and multi-label diagnostic classification

    PhD dissertation – Summary. Exploration of semiautomatic procedures for the indexing process in the web environment

    Get PDF
    La ingente cantidad de información que existe actualmente hace necesario el desarrollo de herramientas, métodos y procesos que faciliten el acceso a la información. Las técnicas de indexación cuentan con una larga tradición en este ámbito. Sin embargo, su aplicación a gran escala y en el contexto de la Web no siempre es viable por la magnitud y la heterogeneidad de la información presente en ella. En esta tesis se presentan dos propuestas para facilitar el proceso de indexación de documentos en Internet. La primera se caracteriza por el uso de técnicas de indexación semiautomáticas basadas en aspectos de posicionamiento web, que se aplican a través de una herramienta propia denominada DigiDoc MetaEdit. La segunda propone un modelo para la actualización de vocabularios controlados a partir del procesamiento de los logs de las búsquedas formuladas por los usuarios en los buscadores.The vast amount of information that currently exists necessitates the development of tools, methods and processes that facilitate access to it. Indexing techniques have a long tradition of promoting the improvement of these systems. However, its application on a large scale and in the context of the Web is not always feasible because of the magnitude and diversity of the information in it. This thesis presents two proposals to facilitate the process of indexing documents on the Internet. The first is characterized by the use of semiautomatic indexing techniques based on aspects of SEO, and applied through a proprietary tool called DigiDoc MetaEdit. The second proposes a model for updating controlled vocabularies from the processing of logs of searches made by users on search engines

    Generador automático de fichas de personajes para un entorno periodístico

    Get PDF
    Sistema que permite generar una ficha informativa de un personaje de forma automática a partir de las noticias pertenecientes a una base de datos documental de un medio de comunicación y otra información procedente de Internet

    Evaluación de la producción científica mediante motores de búsqueda académicos y de acceso libre

    Get PDF
    [EN] The evaluation of scienti c production or, more speci cally the evaluation of the productivity of a scientist, ever since the start of the publishing of research results, has not been a simple task. The human being, in his nature of quantifying everything, has developed through time varied metrics and methodologies to count the fruits of the research work and communicating it to the scienti c community. Any task that carries a measure brings a set of techniques, tools, formulas and rules to assure the objectivity of the given results.[ES] La evaluación de la producción cientí ca o especí camente la evaluaci ón de la productividad de un cientí co, ha sido desde que se iniciaran las publicaciones de los resultados de la investigación, una tarea nada sencilla. El ser humano en su naturaleza de cuanti carlo todo, ha desarrollado a lo largo del tiempo, variadas métricas y metodologías para contabilizar los frutos del trabajo de la investigación y comunicarlo a la comunidad cientí ca. Cualquier tarea que implique una medida lleva consigo el empleo de un conjunto de técnicas, herramientas, fórmulas y reglas para asegurar la objetividad de los resultados arrojados

    Inducción de medidas de similitud utilizadas en tareas de procesamiento de lenguaje natural, mediante regresión simbólica

    Get PDF
    El procesamiento de lenguaje natural es un conjunto de tareas capaces de procesar el lenguaje oral y escrito mediante técnicas y métodos computacionales que permitan la manipulación de lenguajes naturales. Algunas de las tareas creadas para el procesamiento de lenguaje natural son: Recuperación de información, Detección de plagio, Desambiguación del sentido de las palabras, Generación automática de resúmenes, Detección de nombres de medicamentos confusos, Detección de palabras clave, Clasificación de tópicos, Clasificación de documentos, entre otras. A pesar de que el objetivo de las tareas del procesamiento de lenguaje natural es especifico para cada una de ellas, estas tareas comparten algunas características en común. Las características que comparten la mayoría de las tareas de procesamiento de lenguaje natural son: 1) Precisan una forma de representación de la información, 2) Requieren una función de similitud, 3) Necesitan un paradigma de evaluación. Estos tres elementos son de gran importancia al momento de desarrollar una aplicación de procesamiento de lenguaje natural, pero el elemento que más impacto tienen en su desarrollo es la función de similitud que se utiliza. Existe una gran cantidad de funciones de similitud que pueden ser aplicadas al procesamiento de lenguaje natural, y aunque estas funciones han demostrado generar buenos resultados, aún no existe una “mejor” función de similitud que genere resultados competitivos para todas las tareas de procesamiento de lenguaje. Existen investigaciones que tratan de resolver el problema de la “mejor” función de similitud, pero centrándose en generar una función de similitud especifica a cada aplicación de procesamiento de lenguaje natural. Una de las maneras de crear funciones de similitud especificas es a través de la inducción de los valores generados por funciones de similitud conocidas. A este proceso se le conoce como inducción de funciones de similitud. Existen diversos métodos de inducción, entre ellos análisis de regresión (técnica estadística), algoritmos genéticos, redes neuronales, regresión simbólica (técnicas computacionales), entre otras. Es esta tesis se propuso la aplicación de un método de inducción de funciones de similitud a través de regresión simbólica. El método propuesto genera funciones de similitud a través de la combinación inducida de valores de similitud generados por funciones conocidas. El método propuesto fue probado en dos tareas del procesamiento de lenguaje natural: detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras. Los resultados del método propuesto aplicado a ambas tareas del procesamiento de lenguaje natural mencionadas generan buenas funciones de similitud, y los resultados al 7 evaluar las tareas con sus respectivos paradigmas de evaluación, muestran resultados superiores a otros métodos del estado del arte de dichas tareas. Los resultados finales de la evaluación de las tareas de procesamiento de lenguaje natural utilizando la función de similitud inducida por el método propuesto general resultados superiores a otros trabajos, por lo cual se comprueba la eficacia del método propuesto. El método propuesto está diseñado de tal forma que puede ser utilizado por diversas tareas del procesamiento de lenguaje natural, siempre y cuando estas cumplan con los tres componentes antes mencionados (una forma de representación de la información, función de similitud y paradigma de evaluación). En esta tesis se demuestra la aplicación del método a la detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras, y se deja abierta la futura aplicación del método a otras tareas del procesamiento de lenguaje natural

    Tesis doctoral - Síntesis. Exploración de procedimientos semiautomáticos para el proceso de indexación en el entorno web.

    Get PDF
    La ingente cantidad de información que existe actualmente hace necesario el desarrollo de herramientas, métodos y procesos que faciliten el acceso a la información. Las técnicas de indexación cuentan con una larga tradición en este ámbito. Sin embargo, su aplicación a gran escala y en el contexto de la Web no siempre es viable por la magnitud y la heterogeneidad de la información presente en ella. En esta tesis se presentan dos propuestas para facilitar el proceso de indexación de documentos en Internet. La primera se caracteriza por el uso de técnicas de indexación semiautomáticas basadas en aspectos de posicionamiento web, que se aplican a través de una herramienta propia denominada DigiDoc MetaEdit. La segunda propone un modelo para la actualización de vocabularios controlados a partir del procesamiento de los logs de las búsquedas formuladas por los usuarios en los buscadores

    La recuperación de información en el siglo XX : Revisión y aplicación de aspectos de la lingüística cuantitativa y la modelización matemática de la información

    Get PDF
    Esta tesina indaga en el ámbito de las Tecnologías de la Información sobre los diferentes desarrollos realizados en la interpretación automática de la semántica de textos y su relación con los Sistemas de Recuperación de Información. Partiendo de una revisión bibliográfica selectiva se busca sistematizar la documentación estableciendo de manera evolutiva los principales antecedentes y técnicas, sintetizando los conceptos fundamentales y resaltando los aspectos que justifican la elección de unos u otros procedimientos en la resolución de los problemas.Facultad de Humanidades y Ciencias de la Educació

    Atención de consultas del usuario usando el procesamiento del lenguaje natural en el ámbito de soporte técnico

    Get PDF
    En este proyecto de investigación se presenta un sistema de búsqueda de respuesta que busca procesar adecuadamente las consultas del usuario en lenguaje natural basada en texto para mejorar el tipo de respuesta esperada en el ámbito de soporte técnico. El problema que afronta esta investigación es buscar la mejor técnica que permita obtener una comprensión a nivel textual de este tipo de atenciones y brindar respuestas en tiempos reducidos y con un mayor nivel de precisión, es por ello que el objetivo se puede definir con el siguiente texto “procesar adecuadamente las consultas del usuario en lenguaje natural basada en texto para mejorar el tipo de respuesta esperada en el ámbito de soporte técnico”. Para cumplir con este objetivo se estudiaron diversas técnicas de procesamiento de lenguaje natural, que pasaron desde las técnicas ontológicas hasta la de búsqueda en corpus, de las cuales se tuvo que seleccionar la técnica que mejor se adecuó a la investigación tomando la de Levenshtein para aplicar a la misma a la cual se le complementó con otro algoritmo (LCS) que mejoró el motor de búsqueda y que hizo de ésta una herramienta evolucionada por sus características. Una vez establecida la base teórica se describe el diseño de la herramienta considerando que se realizó usando las metodologías RUP y UML orientada a objetos, así como también se hace una descripción técnica detallada de los algoritmos usados mostrando el código relevante o Core de la herramienta del motor de búsqueda y se hace una descripción de la herramienta implementada como una aplicación web. Los resultados experimentales son alentadores ya que se logró hacer uso de esta técnica con tiempos de respuesta de un promedio de 113.93 milisegundos dependiendo de la complejidad de la consulta y acercamiento a la pregunta almacenada teniendo nuestro motor de búsqueda una precisión del 93.33%. Por lo tanto, se puede concluir mencionando que esta investigación brinda aportes significativos en la aplicación este tipo de herramientas de este campo de estudio que aún no toma la relevancia que amerita.Tesi
    corecore