4 research outputs found

    Statistical Detection of Collective Data Fraud

    Full text link
    Statistical divergence is widely applied in multimedia processing, basically due to regularity and interpretable features displayed in data. However, in a broader range of data realm, these advantages may no longer be feasible, and therefore a more general approach is required. In data detection, statistical divergence can be used as a similarity measurement based on collective features. In this paper, we present a collective detection technique based on statistical divergence. The technique extracts distribution similarities among data collections, and then uses the statistical divergence to detect collective anomalies. Evaluation shows that it is applicable in the real world.Comment: 6 pages, 6 figures and tables, submitted to ICME 202

    Continuous Outlier Mining of Streaming Data in Flink

    Get PDF
    In this work, we focus on distance-based outliers in a metric space, where the status of an entity as to whether it is an outlier is based on the number of other entities in its neighborhood. In recent years, several solutions have tackled the problem of distance-based outliers in data streams, where outliers must be mined continuously as new elements become available. An interesting research problem is to combine the streaming environment with massively parallel systems to provide scalable streambased algorithms. However, none of the previously proposed techniques refer to a massively parallel setting. Our proposal fills this gap and investigates the challenges in transferring state-of-the-art techniques to Apache Flink, a modern platform for intensive streaming analytics. We thoroughly present the technical challenges encountered and the alternatives that may be applied. We show speed-ups of up to 117 (resp. 2076) times over a naive parallel (resp. non-parallel) solution in Flink, by using just an ordinary four-core machine and a real-world dataset. When moving to a three-machine cluster, due to less contention, we manage to achieve both better scalability in terms of the window slide size and the data dimensionality, and even higher speed-ups, e.g., by a factor of 510. Overall, our results demonstrate that oulier mining can be achieved in an efficient and scalable manner. The resulting techniques have been made publicly available as open-source software

    Détection et analyse de données aberrantes pour l'adaptation de ressources dans des environnements virtualisés

    Get PDF
    L'intégration de l’infonuagique aux technologies de télécommunications a apporté plusieurs avantages aux opérateurs des réseaux et les fournisseurs de services de communication. En effet, l’utilisation de plusieurs noeuds virtuels d’une plateforme de services déployés sur une même machine physique permet de réduire considérablement les coûts et la consummation d’énergie. Avec l’élasticité et l’extensibilité offertes par cette nouvelle technologie, le contrôle des charges de travail dans les systèmes virtualisés est devenu une nécessité afin d’assurer une bonne qualité de service. Dans ce travail de recherche, nous abordons le problème de gestion de la charge de travail dans des infrastructures déployées dans des environnements virtualisés. Notre objectif est de proposer et valider un mécanisme d'adaptation qui assure une gestion dynamique et efficace des ressources dans des environnements virtualisés. L’approche proposée consiste tout d’abord, à tester et analyser les performances d’une plateforme IMS virtualisée que nous avons installée en nous basant sur OpenIMS Core. Ensuite, à analyser les données collectées d’IMS afin de détecter les données aberrantes « Outliers potentiels ». Nous proposons également d’effectuer la mise en correspondance entre les métriques de niveau service et celles de niveau ressource à travers l’analyse de leur variation en utilisant la method de Modified z-score. Cette analyse est basée aussi sur des données extraites d’autres environnements virtualisés tels que Google Cluster et le cloud de l’ÉTS afin d’avoir une solution générique adaptée à plusieurs systèmes virtualisés. En plus, nous effectuons une comparaison entre les deux méthodes de détection des « Outliers » à savoir le « Modified zscore » et le « Mahalanobis ». Notre analyse montre que le « Mahalanobis » donne de meilleurs résultats par rapport au « Modified z-score ». Les résultats obtenus permettent de repérer les variations importantes pouvant nécessiter une adaptation de ressources dans le système. Ces résultats nous ont permis de concevoir et de développer un algorithme d’adaptation des ressources en nous basant sur la méthode de Mahalanobis

    Détection et analyse de données aberrantes pour l'adaptation de ressources dans des environnements virtualisés

    Get PDF
    L'intégration de l’infonuagique aux technologies de télécommunications a apporté plusieurs avantages aux opérateurs des réseaux et les fournisseurs de services de communication. En effet, l’utilisation de plusieurs noeuds virtuels d’une plateforme de services déployés sur une même machine physique permet de réduire considérablement les coûts et la consummation d’énergie. Avec l’élasticité et l’extensibilité offertes par cette nouvelle technologie, le contrôle des charges de travail dans les systèmes virtualisés est devenu une nécessité afin d’assurer une bonne qualité de service. Dans ce travail de recherche, nous abordons le problème de gestion de la charge de travail dans des infrastructures déployées dans des environnements virtualisés. Notre objectif est de proposer et valider un mécanisme d'adaptation qui assure une gestion dynamique et efficace des ressources dans des environnements virtualisés. L’approche proposée consiste tout d’abord, à tester et analyser les performances d’une plateforme IMS virtualisée que nous avons installée en nous basant sur OpenIMS Core. Ensuite, à analyser les données collectées d’IMS afin de détecter les données aberrantes « Outliers potentiels ». Nous proposons également d’effectuer la mise en correspondance entre les métriques de niveau service et celles de niveau ressource à travers l’analyse de leur variation en utilisant la method de Modified z-score. Cette analyse est basée aussi sur des données extraites d’autres environnements virtualisés tels que Google Cluster et le cloud de l’ÉTS afin d’avoir une solution générique adaptée à plusieurs systèmes virtualisés. En plus, nous effectuons une comparaison entre les deux méthodes de détection des « Outliers » à savoir le « Modified zscore » et le « Mahalanobis ». Notre analyse montre que le « Mahalanobis » donne de meilleurs résultats par rapport au « Modified z-score ». Les résultats obtenus permettent de repérer les variations importantes pouvant nécessiter une adaptation de ressources dans le système. Ces résultats nous ont permis de concevoir et de développer un algorithme d’adaptation des ressources en nous basant sur la méthode de Mahalanobis
    corecore