Search CORE

22 research outputs found

EXTracción de RElaciones entre Conceptos Médicos en fuentes de información heterogéneas (EXTRECM)

Author: Araujo Serna Lourdes
Díaz de Ilarraza Sánchez Arantza
Gojenola Galletebeitia Koldo
Martínez Unanue Raquel
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2015
Field of study

En este proyecto se plantea la extracción de relaciones entre conceptos médicos en documentos científicos, historiales médicos e información de carácter general en Internet, en varias lenguas utilizando técnicas y herramientas de Procesamiento de Lenguaje Natural y Recuperación de Información. El proyecto se propone demostrar, mediante dos casos de uso, los beneficios de la aplicación de este tipo de tecnologías lingüísticas al dominio de la salud.This project addresses extraction of medical concepts relationship in scientific documents, medical records and general information on the Internet, in several languages by using advanced Natural Language Processing and Information Retrieval techniques and tools. The project aims to show, through two use cases, the benefits of the application of language technology in the health sector.TIN2013-46616-C2-1-R, TIN2013-46616-C2-2-R

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Resumen de la tarea de ClinAIS en IberLEF 2023: Identificación Automática de Secciones en Documentos Clínicos en Castellano

Author: Atutxa Salazar Aitziber
Chocrón Paula
De la Iglesia Iker
Gojenola Galletebeitia Koldo
Maeztu Gabriel de
Vivó María
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/09/2023
Field of study

The ClinAIS shared task organized by IOMED and the HiTZ center aims to tackle the identification of seven section types within unstructured clinical records in the Spanish language. These records, known as Electronic Clinical Narratives (ECNs), store crucial individual health information. However, their lack of standardized formats poses challenges in the development and evaluation of automated systems for clinical document analysis. Twenty-seven participants registered for the task, with five submitting results. This paper presents the outcomes and methodologies used in ClinAIS, contributing to the advancement of clinical text analysis and its application in improving healthcare decision-making and patient care.La tarea ClinAIS organizada por IOMED y el centro HiTZ tiene como objetivo abordar la identificación de siete tipos de secciones dentro de registros clínicos no-estructurados en español. Estos registros, conocidos como Narrativas Clínicas Electrónicas (ECNs), almacenan información crucial acerca de la salud personal. Sin embargo, la falta de estandarización en los formatos plantea desafíos en el desarrollo y evaluación de sistemas automatizados para el análisis de documentos clínicos. Veintisiete participantes se registraron para la tarea, de los cuales cinco presentaron resultados. Este artículo presenta los resultados y metodologías utilizadas en la tarea ClinAIS, contribuyendo al avance del análisis de notas clínicas y su aplicación en la mejora de la toma de decisiones en la atención médica y el cuidado al paciente.This work was partially funded by the Spanish Ministry of Science and Innovation (MCI/AEI/FEDER, UE, DOTTHEALTH/PAT-MED PID2019-106942RB-C31), the Basque Government (IXA IT1570-22), MCIN/AEI/ 10.13039/501100011033, European Union NextGeneration EU/PRTR (DeepR3 TED2021-130295B-C31, ANTIDOTE PCI2020-120717-2 EU ERA-Net CHIST-ERA), and the Government of the United States IARPA BETTER program (INT NOCORE 19/08 project, via Contract No. 2019-19051600006)

Repositorio Institucional de la Universidad de Alicante

Aportaciones de las técnicas de aprendizaje automático a la clasificación de partes de alta hospitalarios reales en castellano

Author: Aguirre Nerea
Amillano Estibaliz
Casillas Rubio Arantza
Gojenola Galletebeitia Koldo
Oronoz Anchordoqui Maite
Pérez Ramírez Alicia
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2014
Field of study

Hospitals attached to the Spanish Ministry of Health are currently using the International Classification of Diseases 9 Clinical Modification (ICD9-CM) to classify health discharge records. Nowadays, this work is manually done by experts. This paper tackles the automatic classification of real Discharge Records in Spanish following the ICD9-CM standard. The challenge is that the Discharge Records are written in spontaneous language. We explore several machine learning techniques to deal with the classification problem. Random Forest resulted in the most competitive one, achieving an F-measure of 0.876.La red de hospitales que configuran el sistema español de sanidad utiliza la Clasificación Internacional de Enfermedades Modificación Clínica (ICD9-CM) para codificar partes de alta hospitalaria. Hoy en día, este trabajo lo realizan a mano los expertos. Este artículo aborda la problemática de clasificar automáticamente partes reales de alta hospitalaria escritos en español teniendo en cuenta el estándar ICD9-CM. El desafío radica en que los partes hospitalarios están escritos con lenguaje espontáneo. Hemos experimentado con varios sistemas de aprendizaje automático para solventar este problema de clasificación. El algoritmo Random Forest es el más competitivo de los probados, obtiene un F-measure de 0.876.This work was partially supported by the European Commission (SEP-210087649), the Spanish Ministry of Science and Innovation (TIN2012-38584-C06-02) and the Industry of the Basque Government (IT344-10)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Agrupaciones para la extracción de entidades clínicas

Author: Casillas Rubio Arantza
Dalianis Hercules
Gojenola Galletebeitia Koldo
Oronoz Anchordoqui Maite
Pérez Ramírez Alicia
Weegar Rebecka
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2018
Field of study

Health records are a valuable source of clinical knowledge and Natural Language Processing techniques have previously been applied to the text in health records for a number of applications. Often, a first step in clinical text processing is clinical entity recognition; identifying, for example, drugs, disorders, and body parts in clinical text. However, most of this work has focused on records in English. Therefore, this work aims to improve clinical entity recognition for languages other than English by comparing the same methods on two different languages, specifically by employing ensemble methods. Models were created for Spanish and Swedish health records using SVM, Perceptron, and CRF and four different feature sets, including unsupervised features. Finally, the models were combined in ensembles. Weighted voting was applied according to the models individual F-scores. In conclusion, the ensembles improved the overall performance for Spanish and the precision for Swedish.Los informes médicos son una valiosa fuente de conocimiento clínico. Las técnicas de Procesamiento del Lenguaje Natural han sido aplicadas al procesamiento de informes médicos para diversas aplicaciones. Generalmente un primer paso es la detección de entidades médicas: identificar medicamentos, enfermedades y partes del cuerpo. Sin embargo, la mayoría de los trabajos se han desarrollado para informes en Inglés. El objetivo de este trabajo es mejorar el reconocimiento de entidades médicas para otras lenguas diferentes a Inglés, comparando los mismos métodos en dos lenguas y utilizando agrupaciones de modelos. Los modelos han sido creados para informes médicos en Español y Sueco utilizando SVM, Perceptron, CRF y cuatro conjuntos diferentes de atributos, incluyendo atributos no supervisados. Para el modelo combinado se ha aplicado votación ponderada teniendo en cuenta la F-measure individual. En conclusión, el modelo combinado mejora el rendimiento general y para posibles mejoras debemos investigar métodos más sofisticados de agrupación.This work has been partially funded by the Spanish ministry (PROSAMED: TIN2016-77820-C3-1-R, TADEEP: TIN2015-70214-P), the Basque Government (DETEAMI: 2014111003), the University of the Basque Country UPV-EHU (MOV17/14) and the Nordic Center of Excellence in Health-Related e-Sciences (NIASC)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Proyecto de transferencia tecnológica Deteami: tecnologías de procesamiento del lenguaje natural para la ayuda en farmacia y en farmacovigilancia

Author: Casillas Rubio Arantza
Díaz de Ilarraza Sánchez Arantza
Gojenola Galletebeitia Koldo
Mendarte Luis
Oronoz Anchordoqui Maite
Peral Javier
Pérez Ramírez Alicia
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2016
Field of study

The goal of the Deteami project is to develop tools that make clinicians aware of adverse drug reactions stated in electronic health records of the clinical digital history. The records produced in hospitals are a valuable though nearly unexplored source of information among others due to the fact that are tough to get due to privacy and confidentiality restrictions. To leverage the clinicians work of reading and analyzing the health records looking for information about the health of the patients, in this project we explore the records automatically, identify among others disorder and drug entities, and infer medical information, in this case, adverse drug reactions. In this project a research-framework was settled with the Galdakao-Usansolo and Basurto Hospitals from Osakidetza (the Basque Health System). Osakidetza provided both the texts and the final user feedback, as well as, specialists that annotate the corpora, an in this way, we obtained a gold-standard.El objetivo del proyecto Deteami es el desarrollo de herramientas para ayudar al personal clínico a identificar reacciones adversas a medicamentos en informes médicos electrónicos de la historia clínica digital. Los informes que se generan en los hospitales son una valiosa fuente de información aún no debidamente explotada debido principalmente a restricciones de privacidad y confidencialidad. Con el objetivo de aliviar el trabajo del personal clínico que se dedica a leer y analizar los informes médicos buscando información sobre la salud de los pacientes, en este proyecto analizamos automáticamente los informes, identificamos entre otras entidades que describen enfermedades y medicamentos, y finalmente, inferimos información médica; en este caso, reacciones adversas a medicamentos. En este proyecto hemos establecido un marco de colaboración con los hospitales de Galdakao-Usansolo y Basurto pertenecientes a Osakidetza (Servicio Vasco de Salud). Osakidetza participa mediante la provisión de los textos y retroalimentando el trabajo técnico con su experiencia, así como expertos que anotan el corpus para la obtención del gold-standard.This work was partially supported by the Spanish Ministry of Science and Innovation (EXTRECM: TIN2013-46616-C2-1-R, TADEEP: TIN2015-70214-P) and the Basque Government (DETEAMI: Ministry of Health 2014111003, IXA Research Group of type A (2010-2015), ELKAROLA: KK-2015/00098)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

DOTT-HEALTH: Development of text-based technology to support diagnosis, prevention and health institutions management

Author: Araujo Serna Lourdes
Casillas Rubio Arantza
Gojenola Galletebeitia Koldo
Martinez-Romo Juan
Padró Lluís
Turmo Borras Jorge
Publication venue: CEUR-WS.org
Publication date: 01/01/2021
Field of study

La combinación de datos y pautas dirigidas a pacientes individuales se engloba en los Sistemas de Apoyo a la Decisión Clínica. La adopción del Informe Clínico Electrónico de forma sistemática por parte de los sistemas de salud da lugar a una recopilación masiva de datos clínicos que los profesionales no pueden procesar, dada la limitación humana para manejar una gran cantidad de información. Esto, junto con el aumento de la capacidad de procesamiento de las máquinas, conduce a un escenario en el que el análisis automático de los Informes Clínicos Electrónicos se vuelve esencial para determinar patrones, prevenir errores, mejorar la calidad, reducir costos y ahorrar tiempo a los servicios de salud. Esta propuesta aborda dos desafíos principales: el desarrollo de tecnologías para el apoyo al diagnóstico clínico y a la prevención, y la creación de tecnologías de ayuda a la gestión de los servicios médicos. Teniendo todo esto en mente, el proyecto se enfocará en desarrollar herramientas que supongan un avance de la tecnología en los sistemas de apoyo para la toma de decisiones médicas.The combination of individual patient data and guidelines is conceptualized as clinical decision support systems. The increase in the adoption of Electronic Health Records (EHR) by healthcare systems results in a collection of massive healthcare data that practitioners, having a limited capability to deal with a big amount of information, are unable to process. This, together with the increase of machine processing capabilities, leads to a scenario where automatic analysis of Electronic Health Records becomes essential to ascertain patterns, to prevent errors, improve quality, reduce costs and save time to the Health Services. This proposal addresses two main challenges: Development of technologies to support the clinical diagnosis and prevention, and to support the management of medical services.Este trabajo ha sido financiado por el proyecto DOTT-HEALTH (MCI/AEI/FEDER,UE) con referencias PID2019-106942RBC31, PID2019-106942RB-C32, PID2019-106942RB-C33.Peer ReviewedPostprint (published version

UPCommons. Portal del coneixement obert de la UPC

Advanced semantic textual processing for the detection of diagnostic codes, procedures, concepts and their relationships in health records

Author: Díaz de Ilarraza Sánchez Arantza
Fresno Fernández Víctor
Gojenola Galletebeitia Koldo
Martínez Unanue Raquel
Padró Cirera Lluís
Turmo Borrás Jordi
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2017
Field of study

El objetivo de este proyecto es desarrollar procesadores para el análisis automático de textos médicos, poniendo a disposición de la comunidad científica y empresarial un conjunto amplio y versátil de herramientas y recursos lingüísticos para el análisis morfológico, sintáctico y semántico, así como la asignación de códigos diagnósticos y procedimientos a informes médicos según el estándar CIE-10 y la detección de relaciones entre conceptos. Se desarrollaran herramientas para el español, dado su amplio uso en sistemas de salud a nivel internacional, explorando además otras lenguas con diferentes características como el catalán y el vasco.The main aim of this project will be to develop a set of processors for the automatic analysis of medical texts. The project will create a wide and exibleset of tools, linguistic, and semantic resources for the following tasks: morphologic, syntactic and semantic analysis adapted to medical texts; assignment of diagnostics and procedures following the ICD-10 coding, and detection of relationships between concepts. The project will develop tools for Spanish, used in multiple health systems of different countries. Moreover, we will also tackle other languages with different characteristics such as Catalan and Basque.Esta contribución ha sido subvencionada por el MINECO (TIN2016-77820-C3-1-R, TIN2016-77820-C3-2-R, TIN2016-77820-C3-3-R y AEI/FEDER, UE.

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

Construcción de un corpus etiquetado sintácticamente para el euskera

Author: Aduriz Agirre Itziar
Aldezabal Roteta Izaskun
Aranzabe Urruzola María Jesús
Arrieta Cortajarena Bertol
Arriola Egurrola José María
Atutxa Salazar Aitziber
Díaz de Ilarraza Sánchez Arantza
Gojenola Galletebeitia Koldo
Oronoz Anchordoqui Maite
Sarasola Gabiola Kepa
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2002
Field of study

El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for Basque. In this paper we present first, the basis of the annotation. After examining several options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES standards and it is based on the idea of adding to each sentence in the corpus a series of grammatical relations specifying the dependencies between modifiers and their nucleus. After the formalism has been presented, we will describe the problems we have found and the decisions we have taken to solve them. Next we present an example showing the application of the scheme to an initial corpus. Finally, we present the main conclusions about the applicability to Basque and future work.Este trabajo se ha realizado dentro del proyecto "Construcción de una base de datos de árboles sintácticos y semánticos", subvencionado por el Ministerio de Educación y Ciencia (PROFIT: FIT-150500-2002-244)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Secretaría de Estado de Cultura

Overview of the SPMRL 2013 Shared Task: A Cross-Framework Evaluation of Parsing Morphologically Rich Languages

Author: Candito Marie
Choi Jinho D.
Farkas Richárd
Foster Jennifer
Goenaga Iakes
Gojenola Galletebeitia Koldo
Goldberg Yoav
Green Spence
Habash Nizar
Kuhlmann Marco
Kübler Sandra
Maier Wolfgang
Nivre Joakim
PrzepiÓrkowski Adam
Roth Ryan
Seddah Djamé
Seeker Wolfgang
Tsarfaty Reut
Versley Yannick
Villemonte de La Clergerie Éric
Vincze Veronika
Wolińsk Marcin
WrÓblewska Alina
Publication venue: 'Association for Computational Linguistics (ACL)'
Publication date: 18/10/2013
Field of study

International audienceThis paper reports on the first shared task on statistical parsing of morphologically rich lan- guages (MRLs). The task features data sets from nine languages, each available both in constituency and dependency annotation. We report on the preparation of the data sets, on the proposed parsing scenarios, and on the eval- uation metrics for parsing MRLs given dif- ferent representation types. We present and analyze parsing results obtained by the task participants, and then provide an analysis and comparison of the parsers across languages and frameworks, reported for gold input as well as more realistic parsing scenarios

INRIA a CCSD electronic archive server

Hal-Diderot

Desarrollo de un analizador sintáctico estadístico basado en dependencias para el euskera

Author: Bengoetxea Kortazar Kepa
Gojenola Galletebeitia Koldo
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2007
Field of study

Este artículo presenta los primeros pasos dados para la obtención de un analizador sintáctico estadístico para el euskera. El sistema se basa en un treebank anotado sintácticamente mediante dependencias y la adaptación del analizador sintáctico determinista de Nivre et al. (2007), que mediante un análisis por desplazamiento/reducción y un sistema basado en aprendizaje automático para determinar cuál de 4 opciones debe realizar, obtiene un único análisis sintáctico de la oración. Los resultados obtenidos se encuentran cerca de los obtenidos por sistemas similares.This paper presents the first steps towards a statistical syntactic analyzer for Basque. The system is based on a syntactically dependency annotated treebank and an adaptation of the deterministic syntactic analyzer of Nivre et al. (2007), which relies on a shift/reduce deterministic analyzer together with a machine learning module that determines which one of 4 analysis options to take, giving a unique syntactic dependency analysis of an input sentence. The results are near to those obtained by similar systems.Este trabajo está subvencionado por el Departamento de Industria y Cultura del Gobierno Vasco (proyecto AnHITZ 2006, IE06-185)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas