254 research outputs found

    Virtualization Technologies for Hadoop-based applications

    Get PDF
    International audienceToday, consumers request virtual resources like CPU, RAM, disk (etc.) supplied by the service providers (like Amazon) and they pay on a " pay-as-you-go " basis. Generally, the supervisors adopt virtualization technologies, which optimize resources usage and limit the operating cost. The virtualiza-tion technologies are classified in two categories. The first one concerns the heavy virtualization, which is based on virtual machines (VM) concept. Each VM emulates hardware and embeds its own operating system (OS) that is completely isolated from the host OS. The second one concerns the light virtualization, which is based on the management of containers. The containers share the host OS kernel [5] while ensuring isolation. In this paper, we benchmark the performance and the energy consumption of an infrastructure that is based on the software Hadoop regarding the two technologies of virtual-ization. At first, we will identify the points to be improved concerning Hadoop performances and then we will reduce the deployment cost on the cloud. Second, the Hadoop community finds an in-depth study of the resources consumption depending on the environment of deployment. Our experiments are based on the comparison of the Docker technology (light virtualization) and VMware technology R (heavy vir-tualization). We come to the point that in most experiments the light technology offers better performances in completion time of workloads and it is more adapted to be used with the Hadoop software

    Problème d'ordonnancement dans Hadoop, ordonnancement sur des machines parallèles équivalentes et distribuées

    Get PDF
    International audienceLes outils de gestion de gros volumes de données sont connus pour leur capacité à exécuter un grand nombre de travaux sur des volumes de données énormes (de l'ordre de plusieurs Pétaoctets). De ce fait, ces outils utilisent de grandes infrastructures capables de fournir la puissance de calcul demandée de manière à effectuer les traitements dans un temps raisonnable.Dans ce papier, on s'intéresse à l'amélioration des performances du logiciel "Hadoop", le logiciel libre de référence dans l'univers des logiciels de traitement de gros volumes de données. Dans une première partie, on modélise le problème d'ordonnancement à l'aide de la programmation linéaire, on évalue le modèle et on calcule ainsi une borne inférieure pour la version hors ligne du problème. On propose une heuristique et on évalue la solution qu'on propose sur des instances de taille moyenne

    Benchmarking Hadoop Performance in the Cloud - An in Depth Study of Resource Management and Energy Consumption

    Get PDF
    International audienceVirtual technologies have proven their capabilities to ensure good performance in the context of high performance computing (HPC). During the last decade, the big data tools have been emerging, they have their own needs in performance and infrastructure. Having a wide breadth of experience in the HPC domain, the experts can evaluate the infrastructures used to run big data tools easily. The outcome of this paper is the evaluation of two technologies of virtualization in the context of big data tools. We compare the performance and the energy consumption of two technologies of virtualization (Docker containers and VMware) and benchmark the software Hadoop (JoshBaer, 2015) using these environments. Firstly, the aim is the reduction of the Hadoop deployment cost using the cloud. Secondly, we discuss and analyze the assumptions learned from the HPC experiments and their applicability in the big data context. Thirdly, the Hadoop community finds an in-depth study of the resource consumption depending on the deployment environment. We come to the point that the use of the Docker container gives better performance in most experiments. Besides, the energy consumption varies according to the executed workload

    Offline Scheduling of Map and Reduce Tasks on Hadoop Systems

    Get PDF
    International audienceMapReduce is a model to manage quantities massive of data. It is based on the distributed and parallel execution of tasks over the cluster of machines. Hadoop is an implementation of MapReduce model, it is used to offer BigData services on the cloud. In this paper, we expose the scheduling problem on Hadoop systems. We focus on the offline-scheduling, expose the problem in a mathematic model and use the time-indexed formulation. We aim consider the maximum of constraints of the MapReduce environment. Solutions for the presented model would be a reference for the on-line Schedules in the case of low and medium instances. Our work is useful in term of the problem definition: constraints are based on observations and take into account resources consumption, data locality, heterogeneous machines and workflow management; this paper defines boundaries references to evaluate the online model

    A Back-reaction Induced Lower Bound on the Tensor-to-Scalar Ratio

    Full text link
    There are large classes of inflationary models, particularly popular in the context of string theory and brane world approaches to inflation, in which the ratio of linearized tensor to scalar metric fluctuations is very small. In such models, however, gravitational waves produced by scalar modes cannot be neglected. We derive the lower bound on the tensor-to-scalar ratio by considering the back-reaction of the scalar perturbations as a source of gravitational waves. These results show that no cosmological model that is compatible with a metric scalar amplitude of 105\approx 10^{-5} can have a ratio of the tensor to scalar power spectra less than 108\approx 10^{-8} at recombination and that higher-order terms leads to logarithmic growth for r during radiation domination. Our lower bound also applies to non-inflationary models which produce an almost scale-invariant spectrum of coherent super-Hubble scale metric fluctuations.Comment: 5 pages, version 3, minor changes from version

    Optimisation du Probìème d'Ordonnancement à Machines Parallèles dans Hadoop

    Get PDF
    National audienceOn s’intéresse dans ce travail `a l’amélioration du fonctionnement d’un logiciel de traitement distribué de gros volumes de données nommé Hadoop. Notre objective est l’optimisation de l’ordonnancement d’un ensemble de travaux sur une architecture `a machines parallèles, en se restreignant aux travaux du type Map / Reduce. Puisque le problème est NP-difficile et les instances considérées sont de grande taille, on propose deux heuristiques de résolution basées sur des algorithmes de listes.Le modèle Map / Reduce est un modèle de développement introduit par Google en 2004 dont l’objectif est de faciliter le développement et l’exécution d’applications parallèles. Ce modèle impose un cadre de développement : (1) Un travail Map / Reduce est composé de deux types de tâches : les tâches Map et les tâches Reduce. Les tâches Map s’exécutent avant les tâches Reduce. Les tâches Map s’occupent d’effectuer les calculs alors que les tâches Reduce les agrègent. Implicitement, les données de sortie des tâches Map sont transférées à travers le réseau aux machines exécutant les tâches Reduce associées. (2) Les tâches Map et les tâches Reduce ne supportent pas d’être interrompues : si une tache est interrompue, elle sera relancée comme si elle s’exécutait pour la première fois

    Gouvernance et ressources minières : le cas de la filière Colombo-Tantalite

    Get PDF
    Dans le cadre de cette étude, notre but était de répondre à la question suivante: « à qui profite la filière "coltan" (un combo de minerai), qui la dirige et quelles sont les conséquences pour les acteurs concernés, notamment ceux de la République démocratique du Congo? ». Notre hypothèse suggère que la compréhension de cette économie politique renvoie à des mécanismes de gouvernance au centre desquels les formes et les rapports de pouvoir se manifestent dans les domaines de la sécurité, de la production, de la finance et du savoir. Avec la perspective filière, nous avons proposé une analyse de tout un système généré par un minerai et déterminé toutes les étapes de sa chaîne de valeur. Cette méthode a permis de mettre en évidence le poids des relations hiérarchiques dans l'analyse commerciale d'une filière minière et la manière dont les acteurs influent sur les systèmes de production. Notre tableau révèle que les premiers circuits commerciaux sont plutôt étroits, que l'économie financière est très profitable et que les acteurs de l'économie de la production sont peu nombreux. L'entrée du « coltan » dans les circuits mondiaux profite à un nombre limité d'acteurs, surtout américains. Toutefois, nous avons observé que les États-Unis ont perdu en autorité au sein de la filière au bénéfice des acteurs asiatiques et ceux non étatiques. Le « coltan » profite aussi à des milliers de travailleurs congolais, mais leurs bénéfices restent le plus bas de la chaîne de valeur. À un niveau régional, le « coltan » congolais profite surtout à certains individus et réseaux commerciaux, militaires et politiques qui, dans leur déploiement, commettent parfois des crimes en violation directe des droits humains. La puissance matérielle et militaire des acteurs locaux et régionaux est au coeur des principes régulateurs de la filière congolaise et le « coltan », quant à lui, demeure un facteur de puissance susceptible d'animer d'autres conflits. Cet examen a par ailleurs révélé le pouvoir normatif des institutions intergouvernementales et celui mobilisateur de la société civile. Ainsi, pour essentiels qu'ils soient, on note que les États ne sont pas les seuls acteurs producteurs des normes politiques de la mondialisation. Afin d'éviter que du « coltan » congolais obtenu indûment ou commercialisé en violation des droits humains se retrouve dans la filière globale, les entreprises de la filière, tenues et supportées par les États et les institutions intergouvernementales, devraient notamment renforcer le « certificat d'origine »; créer un système de traçabilité et exiger de leurs partenaires commerciaux qu'ils adérent à des normes de conduite qui sous-tendent un engagement envers les droits humains, tels les Principes directeurs de l'OCDE ou les Normes des Nations Unies sur la responsabilité en matière de droits de l'Homme des sociétés transnationales et autres entreprises. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Coltan, Tantalite, Filière, République démocratique du Congo (RDC), Mine

    An Exact Graph Edit Distance Algorithm for Solving Pattern Recognition Problems

    Get PDF
    International audienceGraph edit distance is an error tolerant matching technique emerged as a powerful and flexible graph matching paradigm that can be used to address different tasks in pattern recognition, machine learning and data mining; it represents the minimum-cost sequence of basic edit operations to transform one graph into another by means of insertion, deletion and substitution of vertices and/or edges. A widely used method for exact graph edit distance computation is based on the A* algorithm. To overcome its high memory load while traversing the search tree for storing pending solutions to be explored, we propose a depth-first graph edit distance algorithm which requires less memory and searching time. An evaluation of all possible solutions is performed without explicitly enumerating them all. Candidates are discarded using an upper and lower bounds strategy. A solid experimental study is proposed; experiments on a publicly available database empirically demonstrated that our approach is better than the A* graph edit distance computation in terms of speed, accuracy and classification rate

    Biomechanical Performance of Variable and Fixed Angle Locked Volar Plates for the Dorsally Comminuted Distal Radius

    Get PDF
    Background The ideal treatment strategy for the dorsally comminuted distal radius fracture continues to evolve. Newer plate designs allow for variable axis screw placement while maintaining the advantages of locked technology. The purpose of this study is to compare the biomechanical properties of one variable axis plate with two traditional locked constructs. Methods Simulated fractures were created via a distal 1 cm dorsal wedge osteotomy in radius bone analogs. The analogs were of low stiffness and rigidity to create a worst-case strength condition for the subject radius plates. This fracture-gap model was fixated using one of three different locked volar distal radius plates: a variable axis plate (Stryker VariAx) or fixed axis (DePuy DVR, Smith & Nephew Peri-Loc) designs. The constructs were then tested at physiologic loading levels in axial compression and bending (dorsal and volar) modes. Construct stiffness was assessed by fracture gap motion during the different loading conditions. As a within-study control, intact bone analogs were similarly tested. Results All plated constructs were significantly less stiff than the intact control bone models in all loading modes (p\u3c0.040). Amongst the plated constructs, the VariAx was stiffest axially (p=0.032) and the Peri-Loc was stiffest in bending (p\u3c0.024). Conclusion In this analog bone fracture gap model, the variable axis locking technology was stiffer in axial compression than other plates, though less stiff in bending

    The Effects of Gravitational Back-Reaction on Cosmological Perturbations

    Full text link
    Because of the non-linearity of the Einstein equations, the cosmological fluctuations which are generated during inflation on a wide range of wavelengths do not evolve independently. In particular, to second order in perturbation theory, the first order fluctuations back-react both on the background geometry and on the perturbations themselves. I this paper, the gravitational back-reaction of long wavelength (super-Hubble) scalar metric fluctuations on the perturbations themselves is investigated for a large class of inflationary models. Specifically, the equations describing the evolution of long wavelength cosmological metric and matter perturbations in an inflationary universe are solved to second order in both the amplitude of the perturbations and in the slow roll expansion parameter. Assuming that the linear fluctuations have random phases, we show that the fractional correction to the power spectrum due to the leading infrared back-reaction terms does not change the shape of the spectrum. The amplitude of the effect is suppressed by the product of the inflationary slow-roll parameter and the amplitude of the linear power spectrum. The non-gaussianity of the spectrum induced by back-reaction is commented upon.Comment: 9 page
    corecore