Search CORE

9 research outputs found

Parallel and Distributed Stream Processing: Systems Classification and Specific Issues

Author: Caniou Yves
Kotto-Kombi Roland
Lamarre Philippe
Lumineau Nicolas
Publication venue: HAL CCSD
Publication date: 05/10/2015
Field of study

Deploying an infrastructure to execute queries on distributed data streams sources requires to identify a scalable and robust solution able to provide results which can be qualified. Last decade, different Data Stream Management Systems have been designed by exploiting new paradigm and technologies to improve performances of solutions facing specific features of data streams and their growing number. However, some tradeoffs are often achieved between performance of the processing, resources consumption and quality of results. This survey 5 suggests an overview of existing solutions among distributed and parallel systems classified according to criteria able to allow readers to efficiently identify relevant existing Distributed Stream Management Systems according to their needs ans resources

HAL-ENS-LYON

INRIA a CCSD electronic archive server

HAL

Hal-Diderot

Traitement distribué de requêtes sur des flux variants

Author: Kotto Kombi Roland
Publication venue: HAL CCSD
Publication date: 29/06/2018
Field of study

In a Big Data context, stream processing has become a very active research domain. In order to manage ephemeral data (Velocity) arriving at important rates (Volume), some specific solutions, denoted data stream management systems (DSMSs),have been developed. DSMSs take as inputs some queries, called continuous queries,defined on a set of data streams. Acontinuous query generates new results as long as new data arrive in input. In many application domains, data streams haveinput rates and distribution of values which change over time. These variations may impact significantly processingrequirements for each continuous query.This thesis takes place in the ANR project Socioplug (ANR-13-INFR-0003). In this context, we consider a collaborative platformfor stream processing. Each user can submit multiple continuous queries and contributes to the execution support of theplatform. However, as each processing unit supporting treatments has limited resources in terms of CPU and memory, asignificant increase in input rate may cause the congestion of the system. The problem is then how to adjust dynamicallyresource usage to processing requirements for each continuous query ? It raises several challenges : i) how to detect a need ofreconfiguration ? ii) when reconfiguring the system to avoid its congestion at runtime ?In this work, we are interested by the different processing steps involved in the treatment of a continuous query over adistributed infrastructure. From this global analysis, we extract mechanisms enabling dynamic adaptation of resource usage foreach continuous query. We focus on automatic parallelization, or auto-parallelization, of operators composing the executionplan of a continuous query. We suggest an original approach based on the monitoring of operators and an estimation ofprocessing requirements in near future. Thus, we can increase (scale-out), or decrease (scale-in) the parallelism degree ofoperators in a proactive many such as resource usage fits to processing requirements dynamically. Compared to a staticconfiguration defined by an expert, we show that it is possible to avoid the congestion of the system in many cases or to delay itin most critical cases. Moreover, we show that resource usage can be reduced significantly while delivering equivalentthroughput and result quality. We suggest also to combine this approach with complementary mechanisms for dynamic adaptation of continuous queries at runtime. These differents approaches have been implemented within a widely used DSMS and have been tested over multiple and reproductible micro-benchmarks.Le traitement de flux de données est au cœur des problématiques actuelles liées au Big Data. Face à de grandes quantités de données (Volume) accessibles de manière éphémère (Vélocité), des solutions spécifiques tels que les systèmes de gestion de flux de données (SGFD) ont été développés. Ces SGFD reçoivent des flux et des requêtes continues pour générer de nouveaux résultats aussi longtemps que des données arrivent en entrée. Dans le contexte de cette thèse, qui s’est réalisée dans le cadre du projet ANR Socioplug (ANR-13-INFR-0003), nous considérons une plateforme collaborative de traitement de flux de données à débit variant en termes de volume et de distribution des valeurs. Chaque utilisateur peut soumettre des requêtes continues et contribue aux ressources de traitement de la plateforme. Cependant, chaque unité de traitement traitant les requêtes dispose de ressources limitées ce qui peut engendrer la congestion du système en fonction des variations des flux en entrée. Le problème est alors de savoir comment adapter dynamiquement les ressources utilisées par chaque requête continue par rapport aux besoins de traitement. Cela soulève plusieurs défis : i) comment détecter un besoin de reconfiguration ? ii) quand reconfigurer le système pour éviter sa congestion ? Durant ces travaux de thèse, nous nous sommes intéressés à la gestion automatique de la parallélisation des opérateurs composant une requête continue. Nous proposons une approche originale basée sur une estimation des besoins de traitement dans un futur proche. Ainsi, nous pouvons adapter le niveau de parallélisme des opérateurs de manière proactive afin d’ajuster les ressources utilisées aux besoins des traitements. Nous montrons qu’il est possible d’éviter la congestion du système mais également de réduire significativement la consommation de ressources à performance équivalente. Ces différents travaux ont été implémentés et validés dans un SGFD largement utilisé avec différents jeux de tests reproductibles

Approche préventive pour une gestion élastique du traitement parallèle et distribué de flux de données

Author: Kotto-Kombi Roland
Lamarre Philippe
Lumineau Nicolas
Publication venue: HAL CCSD
Publication date: 23/01/2017
Field of study

National audienceDans un contexte de traitement de flux de données, il est important de garantir à l'utilisateur des propriétés de performance, qualité des résultats et passage à l'échelle. Mettre en adéquation ressources et besoins, pour n'allouer que les ressources nécessaires au traitement efficace des flux, est un défi d'ac-tualité majeur au croisement des problématiques du Big Data et du Green IT. L'approche que nous suggérons permet d'adapter dynamiquement et automati-quement le degré de parallélisme des différents opérateurs composant une re-quête continue selon l'évolution du débit des flux traités. Nous proposons i) une métrique permettant d'estimer l'activité future des opérateurs selon l'évolution des flux en entrée, ii) l'approche AUTOSCALE évaluant a priori l'intérêt d'une modification du degré de parallélisme des opérateurs en prenant en compte l'im-pact sur le traitement des données dans sa globalité iii) grâce à une intégration de notre proposition à Apache Storm, nous exposons des tests de performance comparant notre approche par rapport à la solution native de cet outil

HAL

A Preventive Auto-Parallelization Approach for Elastic Stream Processing

Author: Kotto-Kombi Roland
Lamarre Philippe
Lumineau Nicolas
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 05/06/2017
Field of study

International audienceNowadays, more and more sources (connected devices, social networks, etc.) emit real-time data with fluctuating rates over time. Existing distributed stream processing engines (SPE) have to resolve a difficult problem: deliver results satisfying end-users in terms of quality and latency without over-consuming resources. This paper focuses on parallelization of operators to adapt their throughput to their input rate. We suggest an approach which prevents operator congestion in order to limit degradation of results quality. This approach relies on an automatic and dynamic adaptation of resource consumption for each continuous query. This solution takes advantage of i) a metric estimating the activity level of operators in the near future ii) the AUTOSCALE approach which evaluates the need to modify parallelism degrees at local and global scope iii) an integration into the Apache Storm solution. We show performance tests comparing our approach to the native solution of this SPE

Crossref

HAL

Hal-Diderot

A Preventive Auto-Parallelization Approach for Elastic Stream Processing

Author: Kotto-Kombi Roland
Lamarre Philippe
Lumineau Nicolas
Publication venue: HAL CCSD
Publication date: 05/06/2017
Field of study

HAL

Approche préventive pour une gestion élastique du traitement parallèle et distribué de flux de données

Author: Kotto-Kombi Roland
Lamarre Philippe
Lumineau Nicolas
Publication venue: HAL CCSD
Publication date: 23/01/2017
Field of study

Forum Jeunes Chercheurs à Inforsid 2016

Author: Artaud Chloé
Duffau Clément
Favre Cécile
Fraisier Ophélie
Kotto-Kombi Roland
Publication venue: 'Lavoisier'
Publication date: 01/01/2017
Field of study

National audienceLa 8ème édition du Forum Jeunes Chercheurs du congrès INFORSID s'est déroulée en 2016 à Grenoble. Cette édition a accueilli 19 doctorant.es sélectionné.es parmi 32 candidat.es, de première ou deuxième année, effectuant leur recherche dans le domaine des systèmes d'information. Cet article coordonné par Cécile Favre (responsable de l'organisation du Forum) présente une sélection des quatre meilleures contributions à ce forum

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

HAL

Hal-Diderot

Forum Jeunes Chercheurs à Inforsid 2016

Author: Artaud Chloé
Duffau Clément
Favre Cécile
Fraisier Ophélie
Kotto-Kombi Roland
Publication venue: 'Lavoisier'
Publication date: 01/01/2017
Field of study

Hal-Diderot

Forum Jeunes Chercheurs à Inforsid 2016

Author: Chloé ARTAUD
Clément DUFFAU
Cécile FAVRE
Ophélie FRAISIER
Roland KOTTO KOMBI
Publication venue: 'Lavoisier'
Publication date
Field of study

Crossref