2 research outputs found

    PRODANALYSIS, un sistema para el aseguramiento de ingresos basado en minería de outliers

    Get PDF
    El aseguramiento de ingresos es una de las técnicas que se aplica hoy desde las pequeñas hasta las grandes empresas para disminuir las pérdidas económicas por causa de fraudes, fugas o fallas en sus sistemas. Desde su inicio, el aseguramiento de ingresos ha ido aumentando su campo de aplicación y hoy es considerado como un campo inter-disciplinario que combina técnicas de estadística, bases de datos, inteligencia artificial, reconocimiento de patrones y minería de datos. En este trabajo se presenta un sistema que incluye facilidades para el aseguramiento de ingresos. El sistema llamado PRODanalysis 15.05 incluye técnicas de softcomputing que permiten el tratamiento de la imprecisión y la vaguedad en los conceptos para la detección automática de anomalías ante la prevención de posi-bles fraudes, fugas o fallas en el sistema. Los datos analizados corresponden a los dos entornos donde ha sido apli-cada la plataforma: en uno los datos se corresponden a los registros de llamadas telefónicas de la Empresa Nacional de Telecomunicaciones de Ecuador; en otro se corresponde a los datos registrados de los proyectos que fueron montados en la plataforma para su gestión

    Copula-based anomaly scoring and localization for large-scale, high-dimensional continuous data

    Full text link
    The anomaly detection method presented by this paper has a special feature: it does not only indicate whether an observation is anomalous or not but also tells what exactly makes an anomalous observation unusual. Hence, it provides support to localize the reason of the anomaly. The proposed approach is model-based; it relies on the multivariate probability distribution associated with the observations. Since the rare events are present in the tails of the probability distributions, we use copula functions, that are able to model the fat-tailed distributions well. The presented procedure scales well; it can cope with a large number of high-dimensional samples. Furthermore, our procedure can cope with missing values, too, which occur frequently in high-dimensional data sets. In the second part of the paper, we demonstrate the usability of the method through a case study, where we analyze a large data set consisting of the performance counters of a real mobile telecommunication network. Since such networks are complex systems, the signs of sub-optimal operation can remain hidden for a potentially long time. With the proposed procedure, many such hidden issues can be isolated and indicated to the network operator.Comment: 27 pages, 12 figures, accepted at ACM Transactions on Intelligent Systems and Technolog
    corecore