Search CORE

59 research outputs found

Cross-view Embeddings for Information Retrieval

Author: Gupta Parth Alokkumar
Publication venue: 'Universitat Politecnica de Valencia'
Publication date: 03/03/2017
Field of study

In this dissertation, we deal with the cross-view tasks related to information retrieval using embedding methods. We study existing methodologies and propose new methods to overcome their limitations. We formally introduce the concept of mixed-script IR, which deals with the challenges faced by an IR system when a language is written in different scripts because of various technological and sociological factors. Mixed-script terms are represented by a small and finite feature space comprised of character n-grams. We propose the cross-view autoencoder (CAE) to model such terms in an abstract space and CAE provides the state-of-the-art performance. We study a wide variety of models for cross-language information retrieval (CLIR) and propose a model based on compositional neural networks (XCNN) which overcomes the limitations of the existing methods and achieves the best results for many CLIR tasks such as ad-hoc retrieval, parallel sentence retrieval and cross-language plagiarism detection. We empirically test the proposed models for these tasks on publicly available datasets and present the results with analyses. In this dissertation, we also explore an effective method to incorporate contextual similarity for lexical selection in machine translation. Concretely, we investigate a feature based on context available in source sentence calculated using deep autoencoders. The proposed feature exhibits statistically significant improvements over the strong baselines for English-to-Spanish and English-to-Hindi translation tasks. Finally, we explore the the methods to evaluate the quality of autoencoder generated representations of text data and analyse its architectural properties. For this, we propose two metrics based on reconstruction capabilities of the autoencoders: structure preservation index (SPI) and similarity accumulation index (SAI). We also introduce a concept of critical bottleneck dimensionality (CBD) below which the structural information is lost and present analyses linking CBD and language perplexity.En esta disertación estudiamos problemas de vistas-múltiples relacionados con la recuperación de información utilizando técnicas de representación en espacios de baja dimensionalidad. Estudiamos las técnicas existentes y proponemos nuevas técnicas para solventar algunas de las limitaciones existentes. Presentamos formalmente el concepto de recuperación de información con escritura mixta, el cual trata las dificultades de los sistemas de recuperación de información cuando los textos contienen escrituras en distintos alfabetos debido a razones tecnológicas y socioculturales. Las palabras en escritura mixta son representadas en un espacio de características finito y reducido, compuesto por n-gramas de caracteres. Proponemos los auto-codificadores de vistas-múltiples (CAE, por sus siglas en inglés) para modelar dichas palabras en un espacio abstracto, y esta técnica produce resultados de vanguardia. En este sentido, estudiamos varios modelos para la recuperación de información entre lenguas diferentes (CLIR, por sus siglas en inglés) y proponemos un modelo basado en redes neuronales composicionales (XCNN, por sus siglas en inglés), el cual supera las limitaciones de los métodos existentes. El método de XCNN propuesto produce mejores resultados en diferentes tareas de CLIR tales como la recuperación de información ad-hoc, la identificación de oraciones equivalentes en lenguas distintas y la detección de plagio entre lenguas diferentes. Para tal efecto, realizamos pruebas experimentales para dichas tareas sobre conjuntos de datos disponibles públicamente, presentando los resultados y análisis correspondientes. En esta disertación, también exploramos un método eficiente para utilizar similitud semántica de contextos en el proceso de selección léxica en traducción automática. Específicamente, proponemos características extraídas de los contextos disponibles en las oraciones fuentes mediante el uso de auto-codificadores. El uso de las características propuestas demuestra mejoras estadísticamente significativas sobre sistemas de traducción robustos para las tareas de traducción entre inglés y español, e inglés e hindú. Finalmente, exploramos métodos para evaluar la calidad de las representaciones de datos de texto generadas por los auto-codificadores, a la vez que analizamos las propiedades de sus arquitecturas. Como resultado, proponemos dos nuevas métricas para cuantificar la calidad de las reconstrucciones generadas por los auto-codificadores: el índice de preservación de estructura (SPI, por sus siglas en inglés) y el índice de acumulación de similitud (SAI, por sus siglas en inglés). También presentamos el concepto de dimensión crítica de cuello de botella (CBD, por sus siglas en inglés), por debajo de la cual la información estructural se deteriora. Mostramos que, interesantemente, la CBD está relacionada con la perplejidad de la lengua.En aquesta dissertació estudiem els problemes de vistes-múltiples relacionats amb la recuperació d'informació utilitzant tècniques de representació en espais de baixa dimensionalitat. Estudiem les tècniques existents i en proposem unes de noves per solucionar algunes de les limitacions existents. Presentem formalment el concepte de recuperació d'informació amb escriptura mixta, el qual tracta les dificultats dels sistemes de recuperació d'informació quan els textos contenen escriptures en diferents alfabets per motius tecnològics i socioculturals. Les paraules en escriptura mixta són representades en un espai de característiques finit i reduït, composat per n-grames de caràcters. Proposem els auto-codificadors de vistes-múltiples (CAE, per les seves sigles en anglès) per modelar aquestes paraules en un espai abstracte, i aquesta tècnica produeix resultats d'avantguarda. En aquest sentit, estudiem diversos models per a la recuperació d'informació entre llengües diferents (CLIR , per les sevas sigles en anglès) i proposem un model basat en xarxes neuronals composicionals (XCNN, per les sevas sigles en anglès), el qual supera les limitacions dels mètodes existents. El mètode de XCNN proposat produeix millors resultats en diferents tasques de CLIR com ara la recuperació d'informació ad-hoc, la identificació d'oracions equivalents en llengües diferents, i la detecció de plagi entre llengües diferents. Per a tal efecte, realitzem proves experimentals per aquestes tasques sobre conjunts de dades disponibles públicament, presentant els resultats i anàlisis corresponents. En aquesta dissertació, també explorem un mètode eficient per utilitzar similitud semàntica de contextos en el procés de selecció lèxica en traducció automàtica. Específicament, proposem característiques extretes dels contextos disponibles a les oracions fonts mitjançant l'ús d'auto-codificadors. L'ús de les característiques proposades demostra millores estadísticament significatives sobre sistemes de traducció robustos per a les tasques de traducció entre anglès i espanyol, i anglès i hindú. Finalment, explorem mètodes per avaluar la qualitat de les representacions de dades de text generades pels auto-codificadors, alhora que analitzem les propietats de les seves arquitectures. Com a resultat, proposem dues noves mètriques per quantificar la qualitat de les reconstruccions generades pels auto-codificadors: l'índex de preservació d'estructura (SCI, per les seves sigles en anglès) i l'índex d'acumulació de similitud (SAI, per les seves sigles en anglès). També presentem el concepte de dimensió crítica de coll d'ampolla (CBD, per les seves sigles en anglès), per sota de la qual la informació estructural es deteriora. Mostrem que, de manera interessant, la CBD està relacionada amb la perplexitat de la llengua.Gupta, PA. (2017). Cross-view Embeddings for Information Retrieval [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/78457TESI

Crossref

RiuNet

Comparación de modelos de identificación automática de odio en comentarios de microtextos en español

Author: Navarro Murillo Noelia
Publication venue
Publication date: 01/09/2021
Field of study

Esta investigación se enfoca en la detección de odio en comentarios en español extraídos de Twitter. Se analiza la efectividad de los modelos de SVM (Support Vector Machine) y CNN (Convolutional Neural Network) en la identificación automática del odio en los textos. Se analizan los resultados obtenidos utilizando características de frecuencia de términos y word embeddings para SVM, así mismo el efecto de aplicar sobremuestro. Mientras, para las redes CNN se utilizaron los word embeddings. La investigación provee un corpus de textos anotados, para el cual se utilizó la guía de anotación de identificación de odio en el texto. Este trabajo busca colaborar con la investigación en español sobre la detección del odio, proporcionando el corpus anotado y el análisis de efectividad de los modelos SVM y CNN para la identificación automática del odio.This research focuses on detecting hate in comments in Spanish extracted from Twitter. The effectiveness of the SVM (Support Vector Machine) and CNN (Convolutional Neural Network) models in identifying hate in texts is analyzed. The results were analyzed using characteristics of term frequency and word embeddings for SVM, as well as the effect of oversampling. Meanwhile, for CNN word embeddings were used. The research provides a corpus of texts annotated by people following an annotation guide for the manual identification of hate speech. This work has the aim to collaborate with the Spanish research on hate speech detection. It provides the annotated corpus and the performance results analysis for the SVM and CNN models used to identify hate in text.UCR::Vicerrectoría de Investigación::Sistema de Estudios de Posgrado::Ingeniería::Maestría Profesional en Computación e Informátic

Repositorio Institucional de la Universidad de Costa Rica

Generación de un grafo de conocimiento de periódicos antiguos del Ecuador a través de procesos OCR.

Author: Torres Cordero Raul Sebastian
Valdez Llivisaca Jonnathan Andrés
Publication venue: 'Universidad de Cuenca'
Publication date: 26/07/2023
Field of study

La historia nos revela la existencia de una multitud de eventos que se desarrollan en el mundo día a día, dejando una huella en el tiempo. Antiguamente, la transmisión de ese conocimiento se realizaba de manera oral y se mantenía vivo a través de generaciones. No obstante, el avance de la tecnología ha revolucionado la forma en que accedemos a la información y nos ha permitido explorar registros históricos en una escala sin precedentes. En este contexto, surge un desafío, gran parte de esa información yace dormida en periódicos antiguos, los cuales se encuentran en un estado de deterioro y son difíciles de tratar. Estos periódicos contienen relatos de eventos de la historia del Ecuador en los siglos XIX y XX, pero acceder a esa información de manera rápida y eficiente es un desafío. Para abordar este problema, en este trabajo de titulación, se propone una solución basada en la digitalización de texto, el procesamiento texto y las tecnologías de la web semántica. El objetivo principal es extraer la información de los periódicos antiguos, organizarla de manera estructurada y generar un grafo de conocimiento que represente los eventos ocurridos en Ecuador durante ese período histórico. La solución propuesta implica la automatización de cada uno de los pasos del proceso. Para lograrlo, se han construido varios widgets en Orange, que permite realizar tareas específicas en cada etapa del proceso. Estos widgets trabajan en conjunto para extraer la información, identificar entidades y relaciones, obtener Word Embendings y generar un grafo de conocimiento.History reveals to us the existence of a multitude of events that unfold in the world day by day, leaving a footprint in time. In the past, the transmission of this knowledge was done orally and kept alive through generations. However, the advancement of technology has revolutionized the way we access information and has allowed us to explore historical records on an unprecedented scale. In this context, a challenge arises: a large portion of this valuable information lies dormant in old newspapers, which are in a state of deterioration and are difficult to handle. These newspapers contain detailed accounts of events that marked Ecuador’s history in the 19th and 20th centuries, but accessing that information quickly and efficiently has become a challenge. To address this problem, this thesis proposes a solution based on text digitization, text processing, and semantic web technologies. The main objective is to extract information from old newspapers, organize it in a structured manner, and generate a knowledge graph that represents the events that occurred in Ecuador during that historical period. As part of this solution, a prototype search engine has also been developed that utilizes the generated knowledge graph. This search engine is one of the many ways to exploit the graph and allows users to make specific queries and searches related to historical events, people, places, and topics in the context of old newspapers. The proposed solution involves the automation of each step of the process. To achieve this, several widgets have been built in Orange, a visual data analysis platform, that allows for specific tasks to be performed at each stage of the process. These widgets include text digitization tools, text processing techniques, and semantic web algorithms that work together to extract relevant information, identify entities and relationships, obtain Word Embeddings, and generate a knowledge graph enriched with historical events.0000-0002-2438-922

Repositorio de la Universidad de Cuenca

Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales

Author: Acuña Caicedo Roberto Wellington
Publication venue: 'Baishideng Publishing Group Inc.'
Publication date: 31/01/2023
Field of study

La presente tesis doctoral, con un enfoque cualicuantitativo (mixto), se enmarca en la línea del análisis de sentimientos en redes sociales, forma parte del proyecto Life, que busca crear una plataforma integral para detectar y brindar apoyo especializado a usuarios de redes sociales que publican textos con contenido suicida. Por ello se desarrolló el Corpus Life para realizar experimentos con algoritmos de aprendizaje automático, mismo que originalmente constaba de 102 mensajes suicidas (71 textos en inglés y 31 textos en español), 70 de estas muestras Sin Riesgo y 32 con Riesgo. Pero debido al escaso número de muestras y al desbalance entre ellas, los resultados generados no eran confiables. Por ello esta investigación tuvo como objetivo general desarrollar un método semi-supervisado para detectar, clasificar y anotar en el Corpus Life, textos extraídos de entornos digitales, con el fin de incrementar su número de anotaciones, mediante un proceso de evaluación automática de su calidad, previo a su inclusión o exclusión. Anotaciones que fueron evaluadas manualmente, utilizando para ello la medida de concordancia Cohen´s Kappa, con la participación de anotadores especializados quienes evaluaron los textos, alcanzando un nivel de acuerdo entre anotadores de 0,86, cercano al 0,78-0,81 de significancia estadística alcanzado automáticamente por medio del índice macro f1, con el método semi-supervisado. Lo que conllevo a alcanzar experimentos de un mayor grado de confiabilidad, por medio de un método estructurado con actividades, roles y procesos bien definidos y enlazados.This doctoral thesis with a qualitative-quantitative (mixed) approach is part of the analysis of feelings in social networks that publish texts with suicidal content. For this reason, Corpus life was developed to carry out experiments with machine learning algorithms, which originally consisted of 102 suicide messages (71 texts in English and 31 texts in Spanish), 70 of these samples without risk and 32 with risk. But due to the small number of samples and the imbalance between them, the generated outcome was not reliable. Therefore, this research had the general objective of developing a semi-supervised method to detect, classify and annotate in the Corpus Life, texts extracted from digital environments, in order to increase their number of annotations, through a process of automatic assessments of their quality, prior to their inclusion or exclusion. Records which were tested manually, using the Cohen's Kappa concordance measure, with the participation of specialized annotators who evaluated the texts, reaching a level of agreement between annotators of 0.86, close to 0.78-0.81 of statistically significant reaching automatically by means of the f1 macro index, with the semi-supervised method. This led to achieving experiments with a higher degree of reliability, through a structured method with well-defined and linked activities, roles and processes

Repositorio Digital de Tesis PUCP

Reconocimiento facial para la automatización del registro de asistencia a clases

Author: Legarda Delgado Diego Fernando
Loaiza Pabón Oscar Andrés
Publication venue: 'Association for Computing Machinery (ACM)'
Publication date: 01/01/2022
Field of study

En el presente trabajo se realizó el desarrollo del sistema piloto de registro automático de asistencia a clases presenciales FR-ARCA, basado en técnicas de detección y reconocimiento facial, utilizando modelos de aprendizaje profundo. Se diseñó el modelo del sistema con una arquitectura modular de diferentes herramientas integradas adecuadamente para resolver las consideraciones previstas. El uso y la integración de contenedores, el lenguaje de progra mación Python con los frameworks FastAPI y Django, el uso de frameworks para Machine Learning como Keras, TensorFlow, PyTorch, OpenCV y MXNet y protocolos de comunicación REST y MQTT permitieron superar retos que tiene la ingeniería de software para implementar inteligencia artificial (IA) en software de producción. Con la extracción de características principales de rostro y su almacenamiento en bases de datos (DB) se realiza la identifica ción de identidades a través del cálculo de similitud entre los vectores de características (embeddings) por lo cual no se necesita reentrenar las redes neuronales convolucionales cuando ingresan nuevos aprendices a la institución. Se probaron modelos preentrenados de detección de rostros como MTCNN, RetinaFace y SCRFD, y modelos de reconocimiento de rostros como VGG-Face, FaceNet y ArtFace, en el sistema FR-ARCA y fueron evaluados con experimentos que permitieron validar y configurar el sistema para lograr excelentes resultados en la exactitud del registro de asistencia a clases.MaestríaMagíster en Ingeniería de Sistemas y ComputaciónÍndice general 1. INTRODUCCIÓN 13 1.1. DESCRIPCIÓN DEL PROBLEMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2. FORMULAR EL PROBLEMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3. OBJETIVOS DE LA INVESTIGACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.3.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.3.2. Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.4. JUSTIFICACIÓN DE LA INVESTIGACIÓN . . . . . . . . . . . . . . . . . . . . . . . 18 2. ESTADO DEL ARTE 21 2.1. DATASET DE IMÁGENES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.1.1. LFW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.1.2. CFP-FP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1.3. AgeDB-30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1.4. CALFW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.1.5. CPLFW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.1.6. CASIA-WebFace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1.7. Glint360K . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1.8. WebFace600k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2. MODELOS DE DETECCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.1. RetinaFace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.2. SCRFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.3. MTCNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.4. Single Shot Detector (SSD) . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.5. Librerías Para Detección De Rostros . . . . . . . . . . . . . . . . . . . . . . 28 2.3. METODOS DE RECONOCIMIENTO . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.1. Arcface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.3.2. Partial FC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3 Capítulo 0 Universidad Tecnológica de Pereira 2.3.3. VPL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.4. DeepID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.5. Facenet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3.6. FbDeepFace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3.7. VGGFace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.4. SISTEMAS DE RECONOCIMIENTO . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.4.1. TIPOS DE SISTEMAS DE RECONOCIMIENTO . . . . . . . . . . . . . . . . 33 2.4.2. HERRAMIENTAS DE RECONOCIMIENTO FACIAL OPEN SOURCE . . . 35 2.4.2.1. Ageitgey/face_recognition . . . . . . . . . . . . . . . . . . . . . . 35 2.4.2.2. DeepFace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4.2.3. InsightFace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4.3. SISTEMAS DE RECONOCIMIENTO FACIAL . . . . . . . . . . . . . . . . . 36 2.4.3.1. Exadel CompreFace . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.4.3.2. InsightFace-REST . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.4.3.3. Amazon Rekognition . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.4.3.4. Azure Face . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.5. DESAFÍOS AL IMPLEMENTAR Y DESPLEGAR MODELOS DE MACHINE LEAR NING EN UN PRODUCTO DE SOFTWARE . . . . . . . . . . . . . . . . . . . . . . 38 2.5.1. Desarrollo de Software: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.5.2. Manejo de datos de gran volumen: . . . . . . . . . . . . . . . . . . . . . . . 39 2.5.3. Manejo de datos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.5.4. Comprender los algoritmos, las técnicas y las bibliotecas de ML: . . . . . 39 2.5.5. Manejo de modelos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.5.6. Tratar con las dependencias: . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.5.7. Modelos de reutilización: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.5.8. Entorno de desarrollo, las herramientas y la infraestructura: . . . . . . . 40 2.5.9. Rendimiento: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3. MARCO TEÓRICO 42 3.1. DETECCIÓN Y RECONOCIMIENTO DE ROSTROS . . . . . . . . . . . . . . . . . 42 3.1.1. DETECCIÓN DE ROSTROS . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.1.1.1. La detección de rostros usando procesamiento de imágenes . . 43 3.1.2. RECONOCIMIENTO DE ROSTROS . . . . . . . . . . . . . . . . . . . . . . 44 3.2. REDES NEURONALES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2.1. PERCEPTRÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4 Capítulo 0 Universidad Tecnológica de Pereira 3.2.2. PERCEPTRÓN MULTI-CAPA . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.3. REDES NEURONALES CONVOLUCIONALES (CNN) . . . . . . . . . . . . . . . . 50 3.3.1. CAPA DE ENTRADA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.3.2. CAPAS DE EXTRACCIÓN DE CARACTERÍSTICAS . . . . . . . . . . . . . . 51 3.3.2.1. Capas de convolución . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.3.2.2. Capas de pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.3.3. CAPA DE CLASIFICACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.3.4. FUNCIONES DE PÉRDIDA . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.3.4.1. Triplet Loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.3.4.2. ArcFace Loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.3.5. ONE-SHOT LEARNING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.3.6. MEDIDA DE SIMILITUD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.3.6.1. Similitud del coseno del espacio vectorial . . . . . . . . . . . . . 57 3.3.6.2. Coeficiente de correlación de Pearson . . . . . . . . . . . . . . . 58 3.3.6.3. Coeficiente de Jaccard . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4. TECNOLOGÍAS DE DESARROLLO DE SOFTWARE . . . . . . . . . . . . . . . . . 59 3.4.1. METODOLOGÍAS DE DESARROLLO . . . . . . . . . . . . . . . . . . . . . . 59 3.4.1.1. Metodología de desarrollo cascada . . . . . . . . . . . . . . . . . 60 3.4.1.2. Metodología de desarrollo iterativo . . . . . . . . . . . . . . . . . 61 3.4.1.3. Metodología de desarrollo RUP (Proceso Racional Unificado) . 62 3.4.2. PROTOCOLOS DE TRANSFERENCIA DE DATOS . . . . . . . . . . . . . . 63 3.4.2.1. Hypertext Transfer Protocol (HTTP) . . . . . . . . . . . . . . . . . 63 3.4.2.2. Representational State Transfer (REST) . . . . . . . . . . . . . . . 64 3.4.3. INFRAESTRUCTURA DE ALOJAMIENTO WEB . . . . . . . . . . . . . . . . 65 3.4.3.1. Tipos de Alojamiento . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4.3.2. Virtualización de entornos . . . . . . . . . . . . . . . . . . . . . . 66 4. MATERIALES Y MÉTODOS 69 4.1. METODOLOGÍA PARA EL ANÁLISIS, DISEÑO Y DESARROLLO DE FR-ARCA . . 69 4.2. CAJA DE HERRAMIENTAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.2.1. Dashboard UI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.2.2. API Gestión de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.2.3. API de Detección y Reconocimiento de Rostros . . . . . . . . . . . . . . . 71 4.2.4. Aplicación de Captura de Imagen . . . . . . . . . . . . . . . . . . . . . . . 74 4.2.5. Gestión de Datos y Embeddings . . . . . . . . . . . . . . . . . . . . . . . . 75 5 Capítulo 0 Universidad Tecnológica de Pereira 4.2.6. Aplicación Móvil (Captura imagen Offline) . . . . . . . . . . . . . . . . . . 76 4.3. PREPARACIÓN DE DATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.3.1. Software de recolección de rostros . . . . . . . . . . . . . . . . . . . . . . . 77 4.3.2. FR-ARCA Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.4. EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.4.1. Experimento 1. Reconocimiento de rostros con búsqueda de máxima si militud segmentada por grupos, para el cálculo de accuracy de diferentes métodos de detección y reconocimiento de rostros. . . . . . . . . . . . . 80 4.4.2. Experimento 2. Reconocimiento de rostros con búsqueda de máxima similitud en el conjunto completo de embeddings, para el cálculo de accuracy de diferentes métodos de detección y reconocimiento de rostros. 81 4.4.3. Experimento 3. Tasa de verificación de pares de imágenes. . . . . . . . . 81 4.4.4. Experimento 4. Prueba de comparación de FR-ARCA, CompreFace, Azure Face Recognition y Amazon Rekognition con respecto a la precisión en el test de tasa de verificación de pares de imágenes. . . . . . . . . . . . . 82 4.4.5. Experimento 5. Prueba de registro de asistencia a clases con FR-ARCA en ambientes de aprendizaje internos. . . . . . . . . . . . . . . . . . . . . 82 4.4.6. Experimento 6. Prueba de registro de asistencia a clases con FR-ARCA en ambientes de aprendizaje externos, usando la aplicación móvil. . . . 83 4.5. MÉTRICAS DE EVALUACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.5.1. Matriz de Confusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.5.2. Curvas ROC y AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5. DESARROLLO DE LA SOLUCIÓN 89 5.1. DISEÑO DEL MODELO DEL SISTEMA . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2. PRINCIPALES CONSIDERACIONES . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.3. SISTEMA DE RECONOCIMIENTO FACIAL SIN REENTRENAMIENTO DE DCNN PARA NUEVOS GRUPOS DE APRENDICES . . . . . . . . . . . . . . . . . . . . . . 94 5.3.1. Metodología para reconocimiento de rostros a través de cálculo de similitud . . . . . . . . . . . . . . . . . . . 95 5.3.2. Cálculo de similitud entre embeddings . . . . . . . . . . . . . . . . . . . . 96 5.4. SELECCIÓN DE MODELOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.4.1. Modelos de detección de rostros . . . . . . . . . . . . . . . . . . . . . . . . 96 5.4.2. Modelos de reconocimiento de rostros . . . . . . . . . . . . . . . . . . . . 97 5.4.3. Alineación y normalización de rostros . . . . . . . . . . . . . . . . . . . . . 98 6 Capítulo 0 Universidad Tecnológica de Pereira 5.5. ARQUITECTURA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.6. DISEÑO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.6.1. Usuarios del Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.6.2. Ingreso de rostros al sistema . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.6.3. Reconocimiento de rostros . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.6.4. Gestión de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 6. RESULTADOS 108 6.1. RESULTADOS DE LOS EXPERIMENTOS REALIZADOS . . . . . . . . . . . . . . . 109 6.1.1. Resultados Experimento 1. Reconocimiento de rostros con búsqueda de máxima similitud segmentada por grupos, para el cálculo de accuracy de diferentes métodos de detección y reconocimiento de rostros. . . . . 109 6.1.2. Resultados Experimento 2. Reconocimiento de rostros con búsqueda de máxima similitud en el conjunto completo de embeddings, para el cálculo de accuracy de diferentes métodos de detección y reconocimiento de rostros. . . . . . . . . . . . . . . . . . 111 6.1.3. Resultados Experimento 3. Tasa de verificación de pares de imágenes. . 113 6.1.4. Resultados Experimento 4. Prueba de comparación de FR-ARCA, CompreFace, Azure Face Recognition y Amazon Rekognition con respecto a la precisión en el test de tasa de verificación de pares de imágenes. . . . 117 6.1.5. Resultados Experimento 5. Prueba de registro de asistencia a clases con FR-ARCA en ambientes de aprendizaje internos. . . . . . . . . . . . . . . 118 6.1.6. Resultados Experimento 6. Prueba de registro de asistencia a clases con FR-ARCA en ambientes de aprendizaje externos, usando la aplicación móvil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.2. PRODUCTO FINAL FR-ARCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 6.2.1. Interfaz gráfica para gestión de datos. . . . . . . . . . . . . . . . . . . . . . 124 6.2.2. Interfaz gráfica para ingreso de características principales de rostros. . . 126 6.2.3. Interfaz gráfica del dispositivo de captura de imágenes. . . . . . . . . . . 127 6.2.4. Interfaz gráfica de la aplicación móvil. . . . . . . . . . . . . . . . . . . . . 128 7. CONCLUSIONES Y TRABAJOS FUTUROS ..................131 8. PUBLICACIONES.................. 134 Referencias ............... 13

Repositorio academico de la Universidad Tecnológica de Pereira

Detection of translingual plagiarism with semantic graphs: experimenting with open resources

Author: García-Serrano Ana
Menta Garuz Antonio
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2019
Field of study

Hoy en día el idioma ha dejado de ser una barrera para plagiar documentos disponibles en Internet. Tras enfoques probabilísticos ya clásicos que no alcanzan buenos resultados con documentos multilingües con paráfrasis (Barrón-Cedeño, 2012), aparecen trabajos que, utilizando grafos de conocimiento, aumentan la capacidad semántica del análisis de las oraciones y mejoran los resultados de detección de plagio. Además, actualmente hay recursos lingüísticos, basados en el conocimiento, o de desarrollo de software que están disponibles para la experimentación, una vez decidido cuál de ellos elegir, cuáles están realmente disponibles en abierto, qué eficiencia aportan si se integran en la experimentación planteada, o qué tipo de características debe tener el ordenador o el servidor necesario para la investigación. Este trabajo plantea una investigación experimental para la detección de plagio translingüe siguiendo una línea de investigación y utilizando recursos disponibles en abierto. Los resultados alcanzan el estado del arte, y esperamos que el planteamiento seguido, el análisis justificado y las dificultades técnicas reportadas, acercará a los lectores la metodología necesaria en este tipo de experimentaciones y permitirá planificar sus trabajos futuros. El software desarrollado está disponible en abierto.Today the language has ceased to be a barrier to plagiarize documents available on the Internet. After classic probabilistic approaches that do not achieve good results with multilingual documents with paraphrasing (Barrón-Cedeño, 2012), there are works that, using knowledge graphs, increase the semantic ability in the analysis of sentences and improve the results of plagiarism detection. In addition, currently in linguistic engineering there are linguistic or knowledge-based resources, or software development resources that are available to experimentation once decided, which ones to choose, which ones are available, what efficiency they provide if they are integrated into the proposed experimentation, or what kind of features the computer or server should have to the investigation. This work proposes an experimental investigation into a concrete problem, the detection of translingual plagiarism following a line of research and using open resources. The results reach the state of the art, and we hope that the followed approach, the justified analysis and the technical difficulties reported, will bring readers closer to the methodology needed in this type of experimentation and will allow planning their future works. The software developed is available in open.Este trabajo ha sido parcialmente financiado por los proyectos Musacces (S2015/HUM3494) y VEMODALEN (TIN2015-71785-R)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Modelos de aprendizaje automático para el apoyo en la clasificación de tipos de cáncer a partir de datos estructurados y no estructurados de expedientes clínicos

Author: Montelongo-González Erick Esteven
Publication venue: 'Universidad Autonoma Metropolitana'
Publication date: 01/07/2020
Field of study

103 páginas. Maestría en Ciencias de la Computación.La existencia de grandes volúmenes de datos generados por el área de la salud presenta una oportunidad importante para su análisis. Este puede obtener información que ayude a los médicos en el proceso de toma de decisiones para el diagnóstico o tratamiento de enfermedades, tales como el cáncer. El presente trabajo presenta una metodología para la clasificación de pacientes con cáncer de hígado, pulmón y pecho, a través de modelos de aprendizaje automático, para obtener el modelo que mejor se desempeña en la clasificación. La metodología considera tres modelos de la clasificación: Máquinas de Soporte Vectorial (SVM), Perceptrón Multi-Capa (MLP) y Ada- Boost utilizando tanto la información estructurada como no estructurada de los expedientes clínicos de los pacientes. Los resultados obtenidos muestran que el mejor modelo de clasificación fue el MLP utilizando solamente datos no estructurados, obteniendo un 89% de precisión, mostrando la utilidad de este tipo de datos en la clasificación de pacientes con cáncer.The existence of large volumes of data generated by the health area presents an important opportunity for analysis. This can obtain information to support physicians in the decisionmaking process for the diagnosis or treatment of diseases, such as cancer. The present work shows a methodology for the classification of patients with liver, lung and breast cancer, through machine learning models, to obtain the model that performs best in the classification. The methodology considers three classification models: Support Vector Machines (SVM), Multi-Layer Perceptron (MLP) and AdaBoost using both structured and unstructured information from the patient's clinical records. Results show that the best classification model is MLP using only unstructured data, obtaining 89% of precision, showing the usefulness of this type of data in the classification of cancer patients.Investigación realizada con el apoyo del Consejo Mexiquense de Ciencia y Tecnología (COMECYT)

Zaloamati

Incremental Learning Through Unsupervised Adaptation in Video Face Recognition

Author: López-López Eric
Publication venue
Publication date: 01/01/2021
Field of study

Programa Oficial de Doutoramento en Investigación en Tecnoloxías da Información. 524V01[Resumo] Durante a última década, os métodos baseados en deep learning trouxeron un salto significativo no rendemento dos sistemas de visión artificial. Unha das claves neste éxito foi a creación de grandes conxuntos de datos perfectamente etiquetados para usar durante o adestramento. En certa forma, as redes de deep learning resumen esta enorme cantidade datos en prácticos vectores multidimensionais. Por este motivo, cando as diferenzas entre os datos de adestramento e os adquiridos durante o funcionamento dos sistemas (debido a factores como o contexto de adquisición) son especialmente notorias, as redes de deep learning son susceptibles de sufrir degradación no rendemento. Mentres que a solución inmediata a este tipo de problemas sería a de recorrer a unha recolección adicional de imaxes, co seu correspondente proceso de etiquetado, esta dista moito de ser óptima. A gran cantidade de posibles variacións que presenta o mundo visual converten rápido este enfoque nunha tarefa sen fin. Máis aínda cando existen aplicacións específicas nas que esta acción é difícil, ou incluso imposible, de realizar debido a problemas de custos ou de privacidade. Esta tese propón abordar todos estes problemas usando a perspectiva da adaptación. Así, a hipótese central consiste en asumir que é posible utilizar os datos non etiquetados adquiridos durante o funcionamento para mellorar o rendemento que obteríamos con sistemas de recoñecemento xerais. Para isto, e como proba de concepto, o campo de estudo da tese restrinxiuse ao recoñecemento de caras. Esta é unha aplicación paradigmática na cal o contexto de adquisición pode ser especialmente relevante. Este traballo comeza examinando as diferenzas intrínsecas entre algúns dos contextos específicos nos que se pode necesitar o recoñecemento de caras e como estas afectan ao rendemento. Desta maneira, comparamos distintas bases de datos (xunto cos seus contextos) entre elas, usando algúns dos descritores de características máis avanzados e así determinar a necesidade real de adaptación. A partir desta punto, pasamos a presentar o método novo, que representa a principal contribución da tese: o Dynamic Ensemble of SVM (De-SVM). Este método implementa a capacidade de adaptación utilizando unha aprendizaxe incremental non supervisada na que as súas propias predicións se usan como pseudo-etiquetas durante as actualizacións (a estratexia de auto-adestramento). Os experimentos realizáronse baixo condicións de vídeo-vixilancia, un exemplo paradigmático dun contexto moi específico no que os procesos de etiquetado son particularmente complicados. As ideas claves de De-SVM probáronse en diferentes sub-problemas de recoñecemento de caras: a verificación de caras e recoñecemento de caras en conxunto pechado e en conxunto aberto. Os resultados acadados mostran un comportamento prometedor en termos de adquisición de coñecemento sen supervisión así como robustez contra impostores. Ademais, este rendemento é capaz de superar a outros métodos do estado da arte que non posúen esta capacidade de adaptación.[Resumen] Durante la última década, los métodos basados en deep learning trajeron un salto significativo en el rendimiento de los sistemas de visión artificial. Una de las claves en este éxito fue la creación de grandes conjuntos de datos perfectamente etiquetados para usar durante el entrenamiento. En cierta forma, las redes de deep learning resumen esta enorme cantidad datos en prácticos vectores multidimensionales. Por este motivo, cuando las diferencias entre los datos de entrenamiento y los adquiridos durante el funcionamiento de los sistemas (debido a factores como el contexto de adquisición) son especialmente notorias, las redes de deep learning son susceptibles de sufrir degradación en el rendimiento. Mientras que la solución a este tipo de problemas es recurrir a una recolección adicional de imágenes, con su correspondiente proceso de etiquetado, esta dista mucho de ser óptima. La gran cantidad de posibles variaciones que presenta el mundo visual convierten rápido este enfoque en una tarea sin fin. Más aún cuando existen aplicaciones específicas en las que esta acción es difícil, o incluso imposible, de realizar; debido a problemas de costes o de privacidad. Esta tesis propone abordar todos estos problemas usando la perspectiva de la adaptación. Así, la hipótesis central consiste en asumir que es posible utilizar los datos no etiquetados adquiridos durante el funcionamiento para mejorar el rendimiento que se obtendría con sistemas de reconocimiento generales. Para esto, y como prueba de concepto, el campo de estudio de la tesis se restringió al reconocimiento de caras. Esta es una aplicación paradigmática en la cual el contexto de adquisición puede ser especialmente relevante. Este trabajo comienza examinando las diferencias entre algunos de los contextos específicos en los que se puede necesitar el reconocimiento de caras y así como sus efectos en términos de rendimiento. De esta manera, comparamos distintas ba ses de datos (y sus contextos) entre ellas, usando algunos de los descriptores de características más avanzados para así determinar la necesidad real de adaptación. A partir de este punto, pasamos a presentar el nuevo método, que representa la principal contribución de la tesis: el Dynamic Ensemble of SVM (De- SVM). Este método implementa la capacidad de adaptación utilizando un aprendizaje incremental no supervisado en la que sus propias predicciones se usan cómo pseudo-etiquetas durante las actualizaciones (la estrategia de auto-entrenamiento). Los experimentos se realizaron bajo condiciones de vídeo-vigilancia, un ejemplo paradigmático de contexto muy específico en el que los procesos de etiquetado son particularmente complicados. Las ideas claves de De- SVM se probaron en varios sub-problemas del reconocimiento de caras: la verificación de caras y reconocimiento de caras de conjunto cerrado y conjunto abierto. Los resultados muestran un comportamiento prometedor en términos de adquisición de conocimiento así como de robustez contra impostores. Además, este rendimiento es capaz de superar a otros métodos del estado del arte que no poseen esta capacidad de adaptación.[Abstract] In the last decade, deep learning has brought an unprecedented leap forward for computer vision general classification problems. One of the keys to this success is the availability of extensive and wealthy annotated datasets to use as training samples. In some sense, a deep learning network summarises this enormous amount of data into handy vector representations. For this reason, when the differences between training datasets and the data acquired during operation (due to factors such as the acquisition context) are highly marked, end-to-end deep learning methods are susceptible to suffer performance degradation. While the immediate solution to mitigate these problems is to resort to an additional data collection and its correspondent annotation procedure, this solution is far from optimal. The immeasurable possible variations of the visual world can convert the collection and annotation of data into an endless task. Even more when there are specific applications in which this additional action is difficult or simply not possible to perform due to, among other reasons, cost-related problems or privacy issues. This Thesis proposes to tackle all these problems from the adaptation point of view. Thus, the central hypothesis assumes that it is possible to use operational data with almost no supervision to improve the performance we would achieve with general-purpose recognition systems. To do so, and as a proof-of-concept, the field of study of this Thesis is restricted to face recognition, a paradigmatic application in which the context of acquisition can be especially relevant. This work begins by examining the intrinsic differences between some of the face recognition contexts and how they directly affect performance. To do it, we compare different datasets, and their contexts, against each other using some of the most advanced feature representations available to determine the actual need for adaptation. From this point, we move to present the novel method, representing the central contribution of the Thesis: the Dynamic Ensembles of SVM (De-SVM). This method implements the adaptation capabilities by performing unsupervised incremental learning using its own predictions as pseudo-labels for the update decision (the self-training strategy). Experiments are performed under video surveillance conditions, a paradigmatic example of a very specific context in which labelling processes are particularly complicated. The core ideas of De-SVM are tested in different face recognition sub-problems: face verification and, the more complex, general closed- and open-set face recognition. In terms of the achieved results, experiments have shown a promising behaviour in terms of both unsupervised knowledge acquisition and robustness against impostors, surpassing the performances achieved by state-of-the-art non-adaptive methods.Funding and Technical Resources For the successful development of this Thesis, it was necessary to rely on series of indispensable means included in the following list: • Working material, human and financial support primarily by the CITIC and the Computer Architecture Group of the University of A Coruña and CiTIUS of University of Santiago de Compostela, along with a PhD grant funded by Xunta the Galicia and the European Social Fund. • Access to bibliographical material through the library of the University of A Coruña. • Additional funding through the following research projects: State funding by the Ministry of Economy and Competitiveness of Spain (project TIN2017-90135-R MINECO, FEDER)

Repositorio da Universidade da Coruña

Enriching information extraction pipelines in clinical decision support systems

Author: Almeida João Rafael
Publication venue
Publication date: 01/01/2023
Field of study

Programa Oficial de Doutoramento en Tecnoloxías da Información e as Comunicacións. 5032V01[Resumo] Os estudos sanitarios de múltiples centros son importantes para aumentar a repercusión dos resultados da investigación médica debido ao número de suxeitos que poden participar neles. Para simplificar a execución destes estudos, o proceso de intercambio de datos debería ser sinxelo, por exemplo, mediante o uso de bases de datos interoperables. Con todo, a consecución desta interoperabilidade segue sendo un tema de investigación en curso, sobre todo debido aos problemas de gobernanza e privacidade dos datos. Na primeira fase deste traballo, propoñemos varias metodoloxías para optimizar os procesos de estandarización das bases de datos sanitarias. Este traballo centrouse na estandarización de fontes de datos heteroxéneas nun esquema de datos estándar, concretamente o OMOP CDM, que foi desenvolvido e promovido pola comunidade OHDSI. Validamos a nosa proposta utilizando conxuntos de datos de pacientes con enfermidade de Alzheimer procedentes de distintas institucións. Na seguinte etapa, co obxectivo de enriquecer a información almacenada nas bases de datos de OMOP CDM, investigamos solucións para extraer conceptos clínicos de narrativas non estruturadas, utilizando técnicas de recuperación de información e de procesamento da linguaxe natural. A validación realizouse a través de conxuntos de datos proporcionados en desafíos científicos, concretamente no National NLP Clinical Challenges(n2c2). Na etapa final, propuxémonos simplificar a execución de protocolos de estudos provenientes de múltiples centros, propoñendo solucións novas para perfilar, publicar e facilitar o descubrimento de bases de datos. Algunhas das solucións desenvolvidas están a utilizarse actualmente en tres proxectos europeos destinados a crear redes federadas de bases de datos de saúde en toda Europa.[Resumen] Los estudios sanitarios de múltiples centros son importantes para aumentar la repercusión de los resultados de la investigación médica debido al número de sujetos que pueden participar en ellos. Para simplificar la ejecución de estos estudios, el proceso de intercambio de datos debería ser sencillo, por ejemplo, mediante el uso de bases de datos interoperables. Sin embargo, la consecución de esta interoperabilidad sigue siendo un tema de investigación en curso, sobre todo debido a los problemas de gobernanza y privacidad de los datos. En la primera fase de este trabajo, proponemos varias metodologías para optimizar los procesos de estandarización de las bases de datos sanitarias. Este trabajo se centró en la estandarización de fuentes de datos heterogéneas en un esquema de datos estándar, concretamente el OMOP CDM, que ha sido desarrollado y promovido por la comunidad OHDSI. Validamos nuestra propuesta utilizando conjuntos de datos de pacientes con enfermedad de Alzheimer procedentes de distintas instituciones. En la siguiente etapa, con el objetivo de enriquecer la información almacenada en las bases de datos de OMOP CDM, hemos investigado soluciones para extraer conceptos clínicos de narrativas no estructuradas, utilizando técnicas de recuperación de información y de procesamiento del lenguaje natural. La validación se realizó a través de conjuntos de datos proporcionados en desafíos científicos, concretamente en el National NLP Clinical Challenges (n2c2). En la etapa final, nos propusimos simplificar la ejecución de protocolos de estudios provenientes de múltiples centros, proponiendo soluciones novedosas para perfilar, publicar y facilitar el descubrimiento de bases de datos. Algunas de las soluciones desarrolladas se están utilizando actualmente en tres proyectos europeos destinados a crear redes federadas de bases de datos de salud en toda Europa.[Abstract] Multicentre health studies are important to increase the impact of medical research findings due to the number of subjects that they are able to engage. To simplify the execution of these studies, the data-sharing process should be effortless, for instance, through the use of interoperable databases. However, achieving this interoperability is still an ongoing research topic, namely due to data governance and privacy issues. In the first stage of this work, we propose several methodologies to optimise the harmonisation pipelines of health databases. This work was focused on harmonising heterogeneous data sources into a standard data schema, namely the OMOP CDM which has been developed and promoted by the OHDSI community. We validated our proposal using data sets of Alzheimer’s disease patients from distinct institutions. In the following stage, aiming to enrich the information stored in OMOP CDM databases, we have investigated solutions to extract clinical concepts from unstructured narratives, using information retrieval and natural language processing techniques. The validation was performed through datasets provided in scientific challenges, namely in the National NLP Clinical Challenges (n2c2). In the final stage, we aimed to simplify the protocol execution of multicentre studies, by proposing novel solutions for profiling, publishing and facilitating the discovery of databases. Some of the developed solutions are currently being used in three European projects aiming to create federated networks of health databases across Europe

Repositorio da Universidade da Coruña