19 research outputs found

    Enseigner la statistique pour l'analyse de mégadonnées

    Get PDF
    National audienceL'objectif de cette communication est un retour d' expérience sur l'introduction d'un cours ou de notions liés a l'analyse des mégadonnées « Big Data » et abordant les notions d'exploration, apprentissage et parallélisme dans ce contexte. Plus précisément , nous décrirons deux cours de ce type que nous avons conçus conjointement mais dont les contextes, contenus et organisations différents. Il s'agit, d'une part, des modules d'Exploration et Logiciels Statistiques (4ème année) et d'Apprentissage Statistique (5ème année) du cursus « Génie Mathématique et Modélisation » de l'INSA de Toulouse 1 et, d'autre part, d'un cours de « Multivariate data analysis - Big data analytics » dispensé en 1ère année des masters « Economics » et « Economics and Statistics » de Toulouse School of Economics 2. Notre objectif, outre une introduction basique à la problématique enseignée, est de montrer les difficultés , matérielles et pédagogiques , auxquelles se heurte l'enseignant statisticien pour aborder ces concepts et de présenter quelques choix que nous avons faits et la manière dont ces choix ont été reçus par les étudiants

    Statistique et Big Data Analytics; Volumétrie, L'Attaque des Clones

    Get PDF
    This article assumes acquired the skills and expertise of a statistician in unsupervised (NMF, k-means, SVD) and supervised learning (regression, CART, random forest). What skills and knowledge do a statistician must acquire to reach the "Volume" scale of big data? After a quick overview of the different strategies available and especially of those imposed by Hadoop, the algorithms of some available learning methods are outlined in order to understand how they are adapted to the strong stresses of the Map-Reduce functionalitie

    De Statisticien à Data Scientist: Développements pédagogiques à l'INSA de Toulouse

    Get PDF
    International audienceAccording to a recent report from the European Commission, the world generates every minute 1.7 million of billions of data bytes, the equivalent of 360,000 DVDs, and companies that build their decision-making processes by exploiting these data increase their productivity. The treatment and valorization of massive data has consequences on the employment of graduate students in statistics. Which additional skills do students trained in statistics need to acquire to become data scientists ? How to evolve training so that future graduates can adapt to rapid changes in this area, without neglecting traditional jobs and the fundamental and lasting foundation for the training? After considering the notion of big data and questioning the emergence of a "new" science: Data Science, we present the current developments in the training of engineers in Mathematical and Modeling at INSA Toulouse.Selon un rapport récent de la commission européenne, le monde génère chaque minute 1,7 millions de milliards d'octets de données, soit l'équivalent de 360 000 DVD, et les entreprises qui bâtissent leur processus décisionnels en exploitant ces données accroissent leur productivité. Le traitement et la valorisation de données massives a des conséquence en matière d'emploi pour les diplômés des filières statistiques. Quelles compétences nouvelles les étudiants formés en statistique doivent-ils acquérir devenir des scientifiques des données ? Comment faire évoluer les formations pour permettre aux futurs diplômés de s'adapter aux évolutions rapides dans ce domaine, sans pour autant négliger les métiers traditionnels et le socle fondamental et pérenne de la formation? Après nous être interrogés sur la notion de données massives et l'émergence d'une "nouvelle" science : la science des données, nous présenterons les évolutions en cours dans la formation d'ingénieurs en Génie Mathématique et Modélisation à l'INSA de Toulouse

    Random Forests for Big Data

    Get PDF
    Big Data is one of the major challenges of statistical science and has numerous consequences from algorithmic and theoretical viewpoints. Big Data always involve massive data but they also often include online data and data heterogeneity. Recently some statistical methods have been adapted to process Big Data, like linear regression models, clustering methods and bootstrapping schemes. Based on decision trees combined with aggregation and bootstrap ideas, random forests were introduced by Breiman in 2001. They are a powerful nonparametric statistical method allowing to consider in a single and versatile framework regression problems, as well as two-class and multi-class classification problems. Focusing on classification problems, this paper proposes a selective review of available proposals that deal with scaling random forests to Big Data problems. These proposals rely on parallel environments or on online adaptations of random forests. We also describe how related quantities -- such as out-of-bag error and variable importance -- are addressed in these methods. Then, we formulate various remarks for random forests in the Big Data context. Finally, we experiment five variants on two massive datasets (15 and 120 millions of observations), a simulated one as well as real world data. One variant relies on subsampling while three others are related to parallel implementations of random forests and involve either various adaptations of bootstrap to Big Data or to "divide-and-conquer" approaches. The fifth variant relates on online learning of random forests. These numerical experiments lead to highlight the relative performance of the different variants, as well as some of their limitations
    corecore