slides

Marco de Descubrimiento de Conocimiento para Datos Estructuralmente Complejos con Énfasis en el Análisis de Eventos en Series Temporales

Abstract

El proceso de Descubrimiento de Conocimiento en Bases de Datos (mas conocido por su nombre en ingles, Knowledge Discovery in Databases) es el proceso de extracción de conocimiento util, implícito y previamente desconocido a partir de grandes volúmenes de datos. Dicho proceso se compone de diferentes etapas entre las que cabe destacar la etapa de Data Mining, en la que se analizan los datos y se extrae conocimiento util de ellos haciendo uso de un conjunto de algoritmos. Data Mining ofrece una gran variedad de técnicas para resolver diferentes tipos de problemas. En los últimos anos, dichas técnicas han sido empleadas en multitud de dominios en los que el análisis se ha centrado en individuos cuya informacion se representa habitualmente mediante una tabla de atributos univaluados de tipo entero, real o enumerado. Sin embargo, existen muchos dominios en los que cada individuo no se representa mediante una simple tabla de atributos sino mediante un conjunto de datos con estructura más compleja, incluyendo tanto atributos univaluados como series temporales. El análisis de esos datos requiere nuevos enfoques. En esta Tesis se ha propuesto un marco de trabajo para el descubrimiento de conocimiento útil a partir de datos estructuralmente complejos, que pueden contener tanto series temporales como datos univaluados. Dicho marco consta de herramientas para la modelización conceptual, comparación y obtención de modelos de referencia a partir de esos datos. En particular, se han propuesto algoritmos para el análisis de series temporales en las que la informacion relevante de las mismas se concentra solo en aquellas regiones que se corresponden con eventos de interés para los expertos de cada dominio. El marco de extracción de conocimiento propuesto ha sido probado sobre datos estructuralmente complejos procedentes de dos áreas medicas: la Estabilometria, una disciplina que estudia el equilibrio de los seres humanos, y la Neurología, un área medica que estudia las enfermedades del sistema nervioso y los músculos. La obtencion de resultados satisfactorios en dominios tan complejos y diferentes entre si confirma la generalidad del marco propuesto. Abstract The analysis of large volumes of data with the aim of extracting interesting knowledge is an important challenge in the area of Computer Science. The extraction of useful, implicit and previously unknown knowledge from large amount of data is a process called Knowledge Discovery in Databases. Data Mining is a stage of that process in which data are analysed and useful knowledge is extracted by using a set of techniques and tools. Nowadays there is a great variety of Data Mining techniques that can be used to solve different kinds of problems. Over the last decades, these techniques have been applied on a great number of domains, where each object under analysis is represented by a number of attributes of type integer, float or enumerated. Nevertheless, there are a growing number of domains where data have a more complex structure and, therefore, new approaches are needed. In those domains, each object under analysis might not be represented by a number of attributes but by a complex set of data, which makes the analysis much more difficult. Moreover, those data might not have a trivial type but a complex structure such as time series, which are series of data recorded in a period of time. In this Thesis, we have proposed a framework for extracting useful knowledge from a set of structurally complex data. This framework provides with tools for data conceptual modelling and, at the same time, proposes a set of techniques for the analysis of structurally complex data with a hierarchical organization. Particularly, we have proposed algorithms for the analysis of time series where the relevant information is concentrated in certain regions of interest for the experts in each domain, known as events. The proposed framework has been tested on data from the medical domain obtaining very satisfactory results. The presented techniques have been applied on structurally complex data from the field of Stabilometry, an area of medicine studying balance-related functionalities in human beings, and Neurology, a branch of medicine studying pathologies linked to nervous system and muscles. The good results obtained in both cases confirm the validity of the framework described in this Thesis

    Similar works