22 research outputs found
EXTracción de RElaciones entre Conceptos Médicos en fuentes de información heterogéneas (EXTRECM)
En este proyecto se plantea la extracción de relaciones entre conceptos médicos en documentos cientÃficos, historiales médicos e información de carácter general en Internet, en varias lenguas utilizando técnicas y herramientas de Procesamiento de Lenguaje Natural y Recuperación de Información. El proyecto se propone demostrar, mediante dos casos de uso, los beneficios de la aplicación de este tipo de tecnologÃas lingüÃsticas al dominio de la salud.This project addresses extraction of medical concepts relationship in scientific documents, medical records and general information on the Internet, in several languages by using advanced Natural Language Processing and Information Retrieval techniques and tools. The project aims to show, through two use cases, the benefits of the application of language technology in the health sector.TIN2013-46616-C2-1-R, TIN2013-46616-C2-2-R
Resumen de la tarea de ClinAIS en IberLEF 2023: Identificación Automática de Secciones en Documentos ClÃnicos en Castellano
The ClinAIS shared task organized by IOMED and the HiTZ center aims to tackle the identification of seven section types within unstructured clinical records in the Spanish language. These records, known as Electronic Clinical Narratives (ECNs), store crucial individual health information. However, their lack of standardized formats poses challenges in the development and evaluation of automated systems for clinical document analysis. Twenty-seven participants registered for the task, with five submitting results. This paper presents the outcomes and methodologies used in ClinAIS, contributing to the advancement of clinical text analysis and its application in improving healthcare decision-making and patient care.La tarea ClinAIS organizada por IOMED y el centro HiTZ tiene como objetivo abordar la identificación de siete tipos de secciones dentro de registros clÃnicos no-estructurados en español. Estos registros, conocidos como Narrativas ClÃnicas Electrónicas (ECNs), almacenan información crucial acerca de la salud personal. Sin embargo, la falta de estandarización en los formatos plantea desafÃos en el desarrollo y evaluación de sistemas automatizados para el análisis de documentos clÃnicos. Veintisiete participantes se registraron para la tarea, de los cuales cinco presentaron resultados. Este artÃculo presenta los resultados y metodologÃas utilizadas en la tarea ClinAIS, contribuyendo al avance del análisis de notas clÃnicas y su aplicación en la mejora de la toma de decisiones en la atención médica y el cuidado al paciente.This work was partially funded by the Spanish Ministry of Science and Innovation (MCI/AEI/FEDER, UE, DOTTHEALTH/PAT-MED PID2019-106942RB-C31), the Basque Government (IXA IT1570-22), MCIN/AEI/ 10.13039/501100011033, European Union NextGeneration EU/PRTR (DeepR3 TED2021-130295B-C31, ANTIDOTE PCI2020-120717-2 EU ERA-Net CHIST-ERA), and the Government of the United States IARPA BETTER program (INT NOCORE 19/08 project, via Contract No. 2019-19051600006)
Aportaciones de las técnicas de aprendizaje automático a la clasificación de partes de alta hospitalarios reales en castellano
Hospitals attached to the Spanish Ministry of Health are currently using the International Classification of Diseases 9 Clinical Modification (ICD9-CM) to classify health discharge records. Nowadays, this work is manually done by experts. This paper tackles the automatic classification of real Discharge Records in Spanish following the ICD9-CM standard. The challenge is that the Discharge Records are written in spontaneous language. We explore several machine learning techniques to deal with the classification problem. Random Forest resulted in the most competitive one, achieving an F-measure of 0.876.La red de hospitales que configuran el sistema español de sanidad utiliza la Clasificación Internacional de Enfermedades Modificación ClÃnica (ICD9-CM) para codificar partes de alta hospitalaria. Hoy en dÃa, este trabajo lo realizan a mano los expertos. Este artÃculo aborda la problemática de clasificar automáticamente partes reales de alta hospitalaria escritos en español teniendo en cuenta el estándar ICD9-CM. El desafÃo radica en que los partes hospitalarios están escritos con lenguaje espontáneo. Hemos experimentado con varios sistemas de aprendizaje automático para solventar este problema de clasificación. El algoritmo Random Forest es el más competitivo de los probados, obtiene un F-measure de 0.876.This work was partially supported by the European Commission (SEP-210087649), the Spanish Ministry of Science and Innovation (TIN2012-38584-C06-02) and the Industry of the Basque Government (IT344-10)
Agrupaciones para la extracción de entidades clÃnicas
Health records are a valuable source of clinical knowledge and Natural Language Processing techniques have previously been applied to the text in health records for a number of applications. Often, a first step in clinical text processing is clinical entity recognition; identifying, for example, drugs, disorders, and body parts in clinical text. However, most of this work has focused on records in English. Therefore, this work aims to improve clinical entity recognition for languages other than English by comparing the same methods on two different languages, specifically by employing ensemble methods. Models were created for Spanish and Swedish health records using SVM, Perceptron, and CRF and four different feature sets, including unsupervised features. Finally, the models were combined in ensembles. Weighted voting was applied according to the models individual F-scores. In conclusion, the ensembles improved the overall performance for Spanish and the precision for Swedish.Los informes médicos son una valiosa fuente de conocimiento clÃnico. Las técnicas de Procesamiento del Lenguaje Natural han sido aplicadas al procesamiento de informes médicos para diversas aplicaciones. Generalmente un primer paso es la detección de entidades médicas: identificar medicamentos, enfermedades y partes del cuerpo. Sin embargo, la mayorÃa de los trabajos se han desarrollado para informes en Inglés. El objetivo de este trabajo es mejorar el reconocimiento de entidades médicas para otras lenguas diferentes a Inglés, comparando los mismos métodos en dos lenguas y utilizando agrupaciones de modelos. Los modelos han sido creados para informes médicos en Español y Sueco utilizando SVM, Perceptron, CRF y cuatro conjuntos diferentes de atributos, incluyendo atributos no supervisados. Para el modelo combinado se ha aplicado votación ponderada teniendo en cuenta la F-measure individual. En conclusión, el modelo combinado mejora el rendimiento general y para posibles mejoras debemos investigar métodos más sofisticados de agrupación.This work has been partially funded by the Spanish ministry (PROSAMED: TIN2016-77820-C3-1-R, TADEEP: TIN2015-70214-P), the Basque Government (DETEAMI: 2014111003), the University of the Basque Country UPV-EHU (MOV17/14) and the Nordic Center of Excellence in Health-Related e-Sciences (NIASC)
Proyecto de transferencia tecnológica Deteami: tecnologÃas de procesamiento del lenguaje natural para la ayuda en farmacia y en farmacovigilancia
The goal of the Deteami project is to develop tools that make clinicians aware of adverse drug reactions stated in electronic health records of the clinical digital history. The records produced in hospitals are a valuable though nearly unexplored source of information among others due to the fact that are tough to get due to privacy and confidentiality restrictions. To leverage the clinicians work of reading and analyzing the health records looking for information about the health of the patients, in this project we explore the records automatically, identify among others disorder and drug entities, and infer medical information, in this case, adverse drug reactions. In this project a research-framework was settled with the Galdakao-Usansolo and Basurto Hospitals from Osakidetza (the Basque Health System). Osakidetza provided both the texts and the final user feedback, as well as, specialists that annotate the corpora, an in this way, we obtained a gold-standard.El objetivo del proyecto Deteami es el desarrollo de herramientas para ayudar al personal clÃnico a identificar reacciones adversas a medicamentos en informes médicos electrónicos de la historia clÃnica digital. Los informes que se generan en los hospitales son una valiosa fuente de información aún no debidamente explotada debido principalmente a restricciones de privacidad y confidencialidad. Con el objetivo de aliviar el trabajo del personal clÃnico que se dedica a leer y analizar los informes médicos buscando información sobre la salud de los pacientes, en este proyecto analizamos automáticamente los informes, identificamos entre otras entidades que describen enfermedades y medicamentos, y finalmente, inferimos información médica; en este caso, reacciones adversas a medicamentos. En este proyecto hemos establecido un marco de colaboración con los hospitales de Galdakao-Usansolo y Basurto pertenecientes a Osakidetza (Servicio Vasco de Salud). Osakidetza participa mediante la provisión de los textos y retroalimentando el trabajo técnico con su experiencia, asà como expertos que anotan el corpus para la obtención del gold-standard.This work was partially supported by the Spanish Ministry of Science and Innovation (EXTRECM: TIN2013-46616-C2-1-R, TADEEP: TIN2015-70214-P) and the Basque Government (DETEAMI: Ministry of Health 2014111003, IXA Research Group of type A (2010-2015), ELKAROLA: KK-2015/00098)
DOTT-HEALTH: Development of text-based technology to support diagnosis, prevention and health institutions management
La combinación de datos y pautas dirigidas a pacientes individuales se engloba en los Sistemas de Apoyo a la Decisión ClÃnica. La adopción del Informe ClÃnico Electrónico de forma sistemática por parte de los sistemas de salud da lugar a una recopilación masiva de datos clÃnicos que los profesionales no pueden procesar, dada la limitación humana para manejar una gran cantidad de información. Esto, junto con el aumento de la capacidad de procesamiento de las máquinas, conduce a un escenario en el que el análisis automático de los Informes ClÃnicos Electrónicos se vuelve esencial para determinar patrones, prevenir errores, mejorar la calidad, reducir costos y ahorrar tiempo a los servicios de salud. Esta propuesta aborda dos desafÃos principales: el desarrollo de tecnologÃas para el apoyo al diagnóstico clÃnico y a la prevención, y la creación de tecnologÃas de ayuda a la gestión de los servicios médicos. Teniendo todo esto en mente, el proyecto se enfocará en desarrollar herramientas que supongan un avance de la tecnologÃa en los sistemas de apoyo para la toma de decisiones médicas.The combination of individual patient data and guidelines is conceptualized as clinical decision support systems. The increase in the adoption of Electronic Health Records (EHR) by healthcare systems results in a collection of massive healthcare data that practitioners, having a limited capability to deal with a big amount of information, are unable to process. This, together with the increase of machine processing capabilities, leads to a scenario where automatic analysis of Electronic Health Records becomes essential to ascertain patterns, to prevent errors, improve quality, reduce costs and save time to the Health Services. This proposal addresses two main challenges: Development of technologies to support the clinical diagnosis and prevention, and to support the management of medical services.Este trabajo ha sido financiado por el proyecto DOTT-HEALTH (MCI/AEI/FEDER,UE) con referencias PID2019-106942RBC31, PID2019-106942RB-C32, PID2019-106942RB-C33.Peer ReviewedPostprint (published version
Advanced semantic textual processing for the detection of diagnostic codes, procedures, concepts and their relationships in health records
El objetivo de este proyecto es desarrollar procesadores para el análisis automático de textos médicos, poniendo a disposición de la comunidad cientÃfica y empresarial un conjunto amplio y versátil de herramientas y recursos lingüÃsticos para el análisis morfológico, sintáctico y semántico, asà como la asignación de códigos diagnósticos y procedimientos a informes médicos según el estándar CIE-10 y la detección de relaciones entre conceptos. Se desarrollaran herramientas para el español, dado su amplio uso en sistemas de salud a nivel internacional, explorando además otras lenguas con diferentes caracterÃsticas como el catalán y el vasco.The main aim of this project will be to develop a set of processors for the automatic analysis of medical texts. The project will create a wide and exibleset of tools, linguistic, and semantic resources for the following tasks: morphologic, syntactic and semantic analysis adapted to medical texts; assignment of diagnostics and procedures following the ICD-10 coding, and detection of relationships between concepts. The project will develop tools for Spanish, used in multiple health systems of different countries. Moreover, we will also tackle other languages with different characteristics such as Catalan and Basque.Esta contribución ha sido subvencionada por el MINECO (TIN2016-77820-C3-1-R, TIN2016-77820-C3-2-R, TIN2016-77820-C3-3-R y AEI/FEDER, UE.
Construcción de un corpus etiquetado sintácticamente para el euskera
El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente
para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se
asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado
por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de
añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la
dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de
etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones
tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de
dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la
idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for
Basque. In this paper we present first, the basis of the annotation. After examining several
options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES
standards and it is based on the idea of adding to each sentence in the corpus a series of
grammatical relations specifying the dependencies between modifiers and their nucleus. After
the formalism has been presented, we will describe the problems we have found and the
decisions we have taken to solve them. Next we present an example showing the application of
the scheme to an initial corpus. Finally, we present the main conclusions about the applicability
to Basque and future work.Este trabajo se ha realizado dentro del proyecto
"Construcción de una base de datos de árboles
sintácticos y semánticos", subvencionado por el
Ministerio de Educación y Ciencia (PROFIT:
FIT-150500-2002-244)
Overview of the SPMRL 2013 Shared Task: A Cross-Framework Evaluation of Parsing Morphologically Rich Languages
International audienceThis paper reports on the first shared task on statistical parsing of morphologically rich lan- guages (MRLs). The task features data sets from nine languages, each available both in constituency and dependency annotation. We report on the preparation of the data sets, on the proposed parsing scenarios, and on the eval- uation metrics for parsing MRLs given dif- ferent representation types. We present and analyze parsing results obtained by the task participants, and then provide an analysis and comparison of the parsers across languages and frameworks, reported for gold input as well as more realistic parsing scenarios
Desarrollo de un analizador sintáctico estadÃstico basado en dependencias para el euskera
Este artÃculo presenta los primeros pasos dados para la obtención de un analizador
sintáctico estadÃstico para el euskera. El sistema se basa en un treebank anotado sintácticamente
mediante dependencias y la adaptación del analizador sintáctico determinista de Nivre et al.
(2007), que mediante un análisis por desplazamiento/reducción y un sistema basado en
aprendizaje automático para determinar cuál de 4 opciones debe realizar, obtiene un único
análisis sintáctico de la oración. Los resultados obtenidos se encuentran cerca de los obtenidos
por sistemas similares.This paper presents the first steps towards a statistical syntactic analyzer for Basque.
The system is based on a syntactically dependency annotated treebank and an adaptation of the
deterministic syntactic analyzer of Nivre et al. (2007), which relies on a shift/reduce
deterministic analyzer together with a machine learning module that determines which one of 4
analysis options to take, giving a unique syntactic dependency analysis of an input sentence.
The results are near to those obtained by similar systems.Este trabajo está subvencionado por el
Departamento de Industria y Cultura del
Gobierno Vasco (proyecto AnHITZ 2006,
IE06-185)