134 research outputs found

    Apprentissage sur Données Massives; trois cas d'usage avec R, Python et Spark.

    Get PDF
    International audienceManagement and analysis of big data are systematically associated with a data distributed architecture in the Hadoop and now Spark frameworks. This article offers an introduction for statisticians to these technologies by comparing the performance obtained by the direct use of three reference environments: R, Python Scikit-learn, Spark MLlib on three public use cases: character recognition, recommending films, categorizing products. As main result, it appears that, if Spark is very efficient for data munging and recommendation by collaborative filtering (non-negative factorization), current implementations of conventional learning methods (logistic regression, random forests) in MLlib or SparkML do not ou poorly compete habitual use of these methods (R, Python Scikit-learn) in an integrated or undistributed architectureLa gestion et l'analyse de données massives sont systématiquement associées à une architecture de données distribuées dans des environnements Hadoop et maintenant Spark. Cet article propose aux statisticiens une introduction à ces technologies en comparant les performances obtenues par l'utilisation élémentaire de trois environnements de référence : R, Python Scikit-learn, Spark MLlib sur trois cas d'usage publics : reconnaissance de caractères, recommandation de films, catégorisation de produits. Comme principal résultat, il en ressort que si Spark est très performant pour la préparation des données et la recommandation par filtrage collaboratif (factorisation non négative), les implémentations actuelles des méthodes classiques d'apprentissage (régression logistique, forêts aléatoires) dans MLlib ou SparkML ne concurrencent pas ou mal une utilisation habituelle de ces méthodes (R, Python Scikit-learn) dans une architecture intégrée au sens de non distribuée

    Factorisation matricielle, application à la recommandation personnalisée de préférences

    Get PDF
    Cette thèse s'articule autour des problèmes d'optimisation à grande échelle, et plus particulièrement autour des méthodes de factorisation matricielle sur des problèmes de grandes tailles. L'objectif des méthodes de factorisation de grandes matrices est d'extraire des variables latentes qui permettent d'expliquer les données dans un espace de dimension réduite. Nous nous sommes intéressés au domaine d'application de la recommandation et plus particulièrement au problème de prédiction de préférences d'utilisateurs.Dans une contribution, nous nous sommes intéressés à l'application de méthodes de factorisation dans un environnement de recommandation contextuelle et notamment dans un contexte social.Dans une seconde contribution, nous nous sommes intéressés au problème de sélection de modèle pour la factorisation où l'on cherche à déterminer de façon automatique le rang de la factorisation par estimation de risque.This thesis focuses on large scale optimization problems and especially on matrix factorization methods for large scale problems. The purpose of such methods is to extract some latent variables which will explain the data in smaller dimension space. We use our methods to address the problem of preference prediction in the framework of the recommender systems. Our first contribution focuses on matrix factorization methods applied in context-aware recommender systems problems, and particularly in socially-aware recommandation.We also address the problem of model selection for matrix factorization which ails to automatically determine the rank of the factorization.ROUEN-INSA Madrillet (765752301) / SudocSudocFranceF

    Statistique et Big Data Analytics; Volumétrie, L'Attaque des Clones

    Get PDF
    This article assumes acquired the skills and expertise of a statistician in unsupervised (NMF, k-means, SVD) and supervised learning (regression, CART, random forest). What skills and knowledge do a statistician must acquire to reach the "Volume" scale of big data? After a quick overview of the different strategies available and especially of those imposed by Hadoop, the algorithms of some available learning methods are outlined in order to understand how they are adapted to the strong stresses of the Map-Reduce functionalitie

    Data Science : une formation internationale de niveau Master en science des données

    Get PDF
    International audienceWe present the international training program in Data Science at master 2 level. This program is supported by both Grenoble Alpes University and Grenoble INP. In this article, we elaborate on the specific features of the program, its strategic position, operating and historical features, the detailed contents of courses and perspectives of evolution.Nous présentons la formation internationale de niveau master 2 en Data Science de l'Université Grenoble Alpes et de Grenoble INP : spécificités et positionnement de la formation, fonctionnement et aspects historiques de sa création, programme de cours détaillé et perspectives d'évolution

    De Statisticien à Data Scientist: Développements pédagogiques à l'INSA de Toulouse

    Get PDF
    International audienceAccording to a recent report from the European Commission, the world generates every minute 1.7 million of billions of data bytes, the equivalent of 360,000 DVDs, and companies that build their decision-making processes by exploiting these data increase their productivity. The treatment and valorization of massive data has consequences on the employment of graduate students in statistics. Which additional skills do students trained in statistics need to acquire to become data scientists ? How to evolve training so that future graduates can adapt to rapid changes in this area, without neglecting traditional jobs and the fundamental and lasting foundation for the training? After considering the notion of big data and questioning the emergence of a "new" science: Data Science, we present the current developments in the training of engineers in Mathematical and Modeling at INSA Toulouse.Selon un rapport récent de la commission européenne, le monde génère chaque minute 1,7 millions de milliards d'octets de données, soit l'équivalent de 360 000 DVD, et les entreprises qui bâtissent leur processus décisionnels en exploitant ces données accroissent leur productivité. Le traitement et la valorisation de données massives a des conséquence en matière d'emploi pour les diplômés des filières statistiques. Quelles compétences nouvelles les étudiants formés en statistique doivent-ils acquérir devenir des scientifiques des données ? Comment faire évoluer les formations pour permettre aux futurs diplômés de s'adapter aux évolutions rapides dans ce domaine, sans pour autant négliger les métiers traditionnels et le socle fondamental et pérenne de la formation? Après nous être interrogés sur la notion de données massives et l'émergence d'une "nouvelle" science : la science des données, nous présenterons les évolutions en cours dans la formation d'ingénieurs en Génie Mathématique et Modélisation à l'INSA de Toulouse

    Recommandations conversationnelles dans le domaine des films

    Get PDF
    Au delà des systèmes de recommandations basés sur les préférences passées des utilisateurs, une discussion avec un ami ou un libraire peut souvent ajouter de la richesse dans les recommandations obtenues, en plus d’être plus naturelle et agréable. Les recommandations conversationnelles sont un problème qui a attiré peu d’attention dans la recherche. Toutefois, les performances des nouvelles architectures de réseaux de neurones dans le domaine du dialogue permettent de s’attaquer à des problèmes aussi complexes que celui-ci. Une des raisons pour lesquelles ce problème n’a pas reçu beaucoup d’attention est le manque de données. Les jeux de données existant dans ce domaine sont souvent synthétiques ou très peu volumineux. Au cours de ce projet de recherche, nous cherchons à créer un nouveau jeu de données pour les recommandations conversationnelles, et à l’exploiter pour développer un chatbot de recommandation. Nous choisissons le domaine cinématographique puisque c’est une application très classique des systèmes de recommandation. Le nouveau jeu de données proposé comprend un ensemble d’entraînement de 10000 conversations, ainsi qu’un ensemble de test de 1300 conversations, dont les utilisateurs sont tous distincts de ceux de l’ensemble d’entraînement. Ces données ont été récoltées via Amazon Mechanical Turk. Dans chaque dialogue, un participant est censé demander des recommandations de films, tandis que l’autre doit les donner. Nous proposons une architecture de réseaux de neurones basée sur le Hierarchical Recurrent Encoder-Decoder utilisant ces données. Le jeu de données de 10000 dialogues est vraisemblablement très petit en comparaison d’autres corpus de dialogues utilisés en apprentissage profond, contenant jusqu’à plusieurs millions de dialogues. Ces données ne suffisent pas à entraîner un modèle comme le Hierarchical Recurrent Encoder-Decoder sans qu’il ne fasse du sur-apprentissage. Notre approche inclut donc deux sous-composantes qui peuvent être pré-entraînées, utilisant ainsi d’autres sources de données pour compenser la faible taille de notre jeu de données. Un premier module analyse le sentiment par rapport à chacun des films mentionnés dans la conversation. Ce sentiment servira d’entrée pour le module de recommandation. Ces deux modules sont entraînés en utilisant les étiquettes associées à chaque mention de film dans nos données, ainsi que le jeu de données MovieLens. Enfin, notre décodeur a une structure spéciale qui lui permet d’inclure ces recommandations explicites.----------ABSTRACT: Beyond classical recommendation systems, a discussion with a friend or a librarian will often add richness in recommandations, and be more natural and enjoyable. Conversational recommendations have not drawn a lot of attention in research. But the recent advances in deep learning allow to tackle more and more complex problems. One reason why few works have dealt with conversational recommendations is the lack of data. Indeed, existing data sets of recommendation dialogues are often synthetic or too small. During this research project, we gather a new data set of conversational recommendations, and use it to develop a recommendation chatbot. We chose to focus on movies, since it is a standard application of recommendation systems. The newly gathered data set comprises a training set of 10000 conversations and a test set of 1300 conversations. The test set was collected with a distinct pool of workers. These dialogues were collected via Amazon Mechanical Turk. In each dialogue, one participant is the movie seeker and has to ask for recommendations, the other is the recommender. We propose a neural network architecture based on a Hierarchical Recurrent Encoder-Decoder and train it using our data set. 10000 dialogues is quite small in comparison to other corpora used in deep learning, that may contain up to several million conversations. 10000 conversations is not enough to train a vanilla Hierarchical Recurrent Encoder-Decoder without overfitting. We adress this issue by including sub-components that can be pre-trained using other data sources, thus compensating for the small size of the data set. A first module analyzes the sentiment with respect to each movie mentioned in the conversation. This sentiment will provide the input to the recommender module. These two modules are trained using the liked/disliked labels associated with each movie mention in our data set, and the MovieLens data set. We modify the decoder so it can make use of those explicit recommendations when generating sentences. We also experiment with more complex variants of this architecure. We introduce a latent variable, or additional connections. It seems that the small size of the data doesn’t allow us to correctly train such complex models, and our first model gives the best results
    • …
    corecore