12 research outputs found

    Detecting change via competence model

    Full text link
    In real world applications, interested concepts are more likely to change rather than remain stable, which is known as concept drift. This situation causes problems on predictions for many learning algorithms including case-base reasoning (CBR). When learning under concept drift, a critical issue is to identify and determine "when" and "how" the concept changes. In this paper, we developed a competence-based empirical distance between case chunks and then proposed a change detection method based on it. As a main contribution of our work, the change detection method provides an approach to measure the distribution change of cases of an infinite domain through finite samples and requires no prior knowledge about the case distribution, which makes it more practical in real world applications. Also, different from many other change detection methods, we not only detect the change of concepts but also quantify and describe this change. © 2010 Springer-Verlag

    D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark

    Get PDF
    En este trabajo se presenta una prueba de concepto de un algoritmo de clustering basado en densidad, denominado D3CAS, el cual fue implementado para ser ejecutado bajo el framework Spark Streaming y que permite el procesamiento de flujos de datos. La principal característica del algoritmo presentado es que es dinámico, es decir selecciona automáticamente el número de clusters del flujo de datos. El algoritmo fue probado datasets de CLUTO, midiendo la calidad de los clusters obtenidos. Los resultados, obtenidos en un ambiente virtualizado, fueron comparados con otro algoritmo de clustering (CluStream), demostrando que D3CAS arroja mejores resultados.XV Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

    D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark

    Get PDF
    En este trabajo se presenta una prueba de concepto de un algoritmo de clustering basado en densidad, denominado D3CAS, el cual fue implementado para ser ejecutado bajo el framework Spark Streaming y que permite el procesamiento de flujos de datos. La principal característica del algoritmo presentado es que es dinámico, es decir selecciona automáticamente el número de clusters del flujo de datos. El algoritmo fue probado datasets de CLUTO, midiendo la calidad de los clusters obtenidos. Los resultados, obtenidos en un ambiente virtualizado, fueron comparados con otro algoritmo de clustering (CluStream), demostrando que D3CAS arroja mejores resultados.XV Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

    D3CAS: un algoritmo de clustering para el procesamiento de flujos de datos en spark

    Get PDF
    En este trabajo se presenta una prueba de concepto de un algoritmo de clustering basado en densidad, denominado D3CAS, el cual fue implementado para ser ejecutado bajo el framework Spark Streaming y que permite el procesamiento de flujos de datos. La principal característica del algoritmo presentado es que es dinámico, es decir selecciona automáticamente el número de clusters del flujo de datos. El algoritmo fue probado datasets de CLUTO, midiendo la calidad de los clusters obtenidos. Los resultados, obtenidos en un ambiente virtualizado, fueron comparados con otro algoritmo de clustering (CluStream), demostrando que D3CAS arroja mejores resultados.XV Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

    A concept drift-tolerant case-base editing technique

    Full text link
    © 2015 Elsevier B.V. All rights reserved. The evolving nature and accumulating volume of real-world data inevitably give rise to the so-called "concept drift" issue, causing many deployed Case-Based Reasoning (CBR) systems to require additional maintenance procedures. In Case-base Maintenance (CBM), case-base editing strategies to revise the case-base have proven to be effective instance selection approaches for handling concept drift. Motivated by current issues related to CBR techniques in handling concept drift, we present a two-stage case-base editing technique. In Stage 1, we propose a Noise-Enhanced Fast Context Switch (NEFCS) algorithm, which targets the removal of noise in a dynamic environment, and in Stage 2, we develop an innovative Stepwise Redundancy Removal (SRR) algorithm, which reduces the size of the case-base by eliminating redundancies while preserving the case-base coverage. Experimental evaluations on several public real-world datasets show that our case-base editing technique significantly improves accuracy compared to other case-base editing approaches on concept drift tasks, while preserving its effectiveness on static tasks

    An Aggregate Ensemble for Mining Concept Drifting Data Streams with Noise

    No full text
    Recent years have witnessed a large body of research work on mining concept drifting data streams, where a primary assumption is that the up-to-date data chunk and the yet-to-come data chunk share identical distributions, so classifiers with good performance on the up-to-date chunk would also have a good prediction accuracy on the yet-to-come data chunk. This "stationary assumption", however, does not capture the concept drifting reality in data streams. More recently, a "learnable assumption" has been proposed and allows the distribution of each data chunk to evolve randomly. Although this assumption is capable of describing the concept drifting in data streams, it is still inadequate to represent realworld data streams which usually suffer from noisy data as well as the drifting concepts. In this paper, we propose a Realistic Assumption which asserts that the difficulties of mining data streams are mainly caused by both concept drifting and noisy data chunks. Consequently, we present a new Aggregate Ensemble (AE) framework, which trains base classifiers using different learning algorithms on different data chunks. All the base classifiers are then combined to form a classifier ensemble through model averaging. Experimental results on synthetic and real-world data show that AE is superior to other ensemble methods under our new realistic assumption for noisy data streams. © Springer-Verlag Berlin Heidelberg 2009

    Estudio e implementación de una técnica de clustering dinámico para trabajar con flujos de datos 

    Get PDF
    El objetivo general de esta tesina es estudiar y analizar las técnicas y problemáticas existentes de clustering (agrupamiento) aplicadas sobre los flujos de datos, buscando técnicas que permitan un agrupamiento dinámico. También, se realizará una investigación y estudio sobre los frameworks o plataformas de procesamiento de flujos de datos actuales con el fin de analizar la viabilidad para generar técnicas de clustering sobre estos entornos. Tras los resultados de las investigaciones y estudios previos, se propone como objetivo particular para esta tesina, el desarrollo, implementación, evaluación y comparación de un algoritmo de clustering dinámico aplicado al tratamiento de flujos de datos.Facultad de Informátic

    Estudio e implementación de una técnica de clustering dinámico para trabajar con flujos de datos 

    Get PDF
    El objetivo general de esta tesina es estudiar y analizar las técnicas y problemáticas existentes de clustering (agrupamiento) aplicadas sobre los flujos de datos, buscando técnicas que permitan un agrupamiento dinámico. También, se realizará una investigación y estudio sobre los frameworks o plataformas de procesamiento de flujos de datos actuales con el fin de analizar la viabilidad para generar técnicas de clustering sobre estos entornos. Tras los resultados de las investigaciones y estudios previos, se propone como objetivo particular para esta tesina, el desarrollo, implementación, evaluación y comparación de un algoritmo de clustering dinámico aplicado al tratamiento de flujos de datos.Facultad de Informátic

    Estudio e implementación de una técnica de clustering dinámico para trabajar con flujos de datos 

    Get PDF
    El objetivo general de esta tesina es estudiar y analizar las técnicas y problemáticas existentes de clustering (agrupamiento) aplicadas sobre los flujos de datos, buscando técnicas que permitan un agrupamiento dinámico. También, se realizará una investigación y estudio sobre los frameworks o plataformas de procesamiento de flujos de datos actuales con el fin de analizar la viabilidad para generar técnicas de clustering sobre estos entornos. Tras los resultados de las investigaciones y estudios previos, se propone como objetivo particular para esta tesina, el desarrollo, implementación, evaluación y comparación de un algoritmo de clustering dinámico aplicado al tratamiento de flujos de datos.Facultad de Informátic

    A comparison of statistical machine learning methods in heartbeat detection and classification

    Get PDF
    In health care, patients with heart problems require quick responsiveness in a clinical setting or in the operating theatre. Towards that end, automated classification of heartbeats is vital as some heartbeat irregularities are time consuming to detect. Therefore, analysis of electro-cardiogram (ECG) signals is an active area of research. The methods proposed in the literature depend on the structure of a heartbeat cycle. In this paper, we use interval and amplitude based features together with a few samples from the ECG signal as a feature vector. We studied a variety of classification algorithms focused especially on a type of arrhythmia known as the ventricular ectopic fibrillation (VEB). We compare the performance of the classifiers against algorithms proposed in the literature and make recommendations regarding features, sampling rate, and choice of the classifier to apply in a real-time clinical setting. The extensive study is based on the MIT-BIH arrhythmia database. Our main contribution is the evaluation of existing classifiers over a range sampling rates, recommendation of a detection methodology to employ in a practical setting, and extend the notion of a mixture of experts to a larger class of algorithms
    corecore