Search CORE

4 research outputs found

Statistical Detection of Collective Data Fraud

Author: Chen Shiping
Hu Xiaobo
Li Guoqiang
Liu Jianquan
Sun Daniel
Wang Ruoyu
Wong Raymond
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 17/11/2020
Field of study

Statistical divergence is widely applied in multimedia processing, basically due to regularity and interpretable features displayed in data. However, in a broader range of data realm, these advantages may no longer be feasible, and therefore a more general approach is required. In data detection, statistical divergence can be used as a similarity measurement based on collective features. In this paper, we present a collective detection technique based on statistical divergence. The technique extracts distribution similarities among data collections, and then uses the statistical divergence to detect collective anomalies. Evaluation shows that it is applicable in the real world.Comment: 6 pages, 6 figures and tables, submitted to ICME 202

arXiv.org e-Print Archive

Crossref

Continuous Outlier Mining of Streaming Data in Flink

Author: Gounaris Anastasios
Papadopoulos Apostolos
Sampaio Sandra
Toliopoulos Theodoros
Tsichlas Kostas
Publication venue
Publication date: 21/02/2019
Field of study

In this work, we focus on distance-based outliers in a metric space, where the status of an entity as to whether it is an outlier is based on the number of other entities in its neighborhood. In recent years, several solutions have tackled the problem of distance-based outliers in data streams, where outliers must be mined continuously as new elements become available. An interesting research problem is to combine the streaming environment with massively parallel systems to provide scalable streambased algorithms. However, none of the previously proposed techniques refer to a massively parallel setting. Our proposal fills this gap and investigates the challenges in transferring state-of-the-art techniques to Apache Flink, a modern platform for intensive streaming analytics. We thoroughly present the technical challenges encountered and the alternatives that may be applied. We show speed-ups of up to 117 (resp. 2076) times over a naive parallel (resp. non-parallel) solution in Flink, by using just an ordinary four-core machine and a real-world dataset. When moving to a three-machine cluster, due to less contention, we manage to achieve both better scalability in terms of the window slide size and the data dimensionality, and even higher speed-ups, e.g., by a factor of 510. Overall, our results demonstrate that oulier mining can be achieved in an efficient and scalable manner. The resulting techniques have been made publicly available as open-source software

arXiv.org e-Print Archive

The University of Manchester - Institutional Repository

Détection et analyse de données aberrantes pour l'adaptation de ressources dans des environnements virtualisés

Author: Boulares Manel
Publication venue: École de technologie supérieure
Publication date: 17/11/2013
Field of study

L'intégration de l’infonuagique aux technologies de télécommunications a apporté plusieurs avantages aux opérateurs des réseaux et les fournisseurs de services de communication. En effet, l’utilisation de plusieurs noeuds virtuels d’une plateforme de services déployés sur une même machine physique permet de réduire considérablement les coûts et la consummation d’énergie. Avec l’élasticité et l’extensibilité offertes par cette nouvelle technologie, le contrôle des charges de travail dans les systèmes virtualisés est devenu une nécessité afin d’assurer une bonne qualité de service. Dans ce travail de recherche, nous abordons le problème de gestion de la charge de travail dans des infrastructures déployées dans des environnements virtualisés. Notre objectif est de proposer et valider un mécanisme d'adaptation qui assure une gestion dynamique et efficace des ressources dans des environnements virtualisés. L’approche proposée consiste tout d’abord, à tester et analyser les performances d’une plateforme IMS virtualisée que nous avons installée en nous basant sur OpenIMS Core. Ensuite, à analyser les données collectées d’IMS afin de détecter les données aberrantes « Outliers potentiels ». Nous proposons également d’effectuer la mise en correspondance entre les métriques de niveau service et celles de niveau ressource à travers l’analyse de leur variation en utilisant la method de Modified z-score. Cette analyse est basée aussi sur des données extraites d’autres environnements virtualisés tels que Google Cluster et le cloud de l’ÉTS afin d’avoir une solution générique adaptée à plusieurs systèmes virtualisés. En plus, nous effectuons une comparaison entre les deux méthodes de détection des « Outliers » à savoir le « Modified zscore » et le « Mahalanobis ». Notre analyse montre que le « Mahalanobis » donne de meilleurs résultats par rapport au « Modified z-score ». Les résultats obtenus permettent de repérer les variations importantes pouvant nécessiter une adaptation de ressources dans le système. Ces résultats nous ont permis de concevoir et de développer un algorithme d’adaptation des ressources en nous basant sur la méthode de Mahalanobis

OpenEdition

Espace ÉTS

Détection et analyse de données aberrantes pour l'adaptation de ressources dans des environnements virtualisés

Author: Boulares Manel
Publication venue: École de technologie supérieure
Publication date
Field of study

Espace ÉTS