1,650 research outputs found

    Apprentissage sur Données Massives; trois cas d'usage avec R, Python et Spark.

    Get PDF
    International audienceManagement and analysis of big data are systematically associated with a data distributed architecture in the Hadoop and now Spark frameworks. This article offers an introduction for statisticians to these technologies by comparing the performance obtained by the direct use of three reference environments: R, Python Scikit-learn, Spark MLlib on three public use cases: character recognition, recommending films, categorizing products. As main result, it appears that, if Spark is very efficient for data munging and recommendation by collaborative filtering (non-negative factorization), current implementations of conventional learning methods (logistic regression, random forests) in MLlib or SparkML do not ou poorly compete habitual use of these methods (R, Python Scikit-learn) in an integrated or undistributed architectureLa gestion et l'analyse de données massives sont systématiquement associées à une architecture de données distribuées dans des environnements Hadoop et maintenant Spark. Cet article propose aux statisticiens une introduction à ces technologies en comparant les performances obtenues par l'utilisation élémentaire de trois environnements de référence : R, Python Scikit-learn, Spark MLlib sur trois cas d'usage publics : reconnaissance de caractères, recommandation de films, catégorisation de produits. Comme principal résultat, il en ressort que si Spark est très performant pour la préparation des données et la recommandation par filtrage collaboratif (factorisation non négative), les implémentations actuelles des méthodes classiques d'apprentissage (régression logistique, forêts aléatoires) dans MLlib ou SparkML ne concurrencent pas ou mal une utilisation habituelle de ces méthodes (R, Python Scikit-learn) dans une architecture intégrée au sens de non distribuée

    Opportunisme et traitement des contraintes dans MADS

    Get PDF
    RÉSUMÉ: Dans le domaine de l’optimisation de boites noires, l’utilisateur n’a pas d’expressions analytiques de la fonction objectif et des contraintes. De fait, il n’a pas accès aux gradients. Le gradient est une information importante en optimisation étant donné qu’il permet de fournir une direction de montée de la fonction. De plus, pour récupérer les différentes valeurs de la fonction objectif et des contraintes, des simulations informatiques ou des tests en laboratoires doivent être effectués. Ceci rajoute de nombreuses difficultés supplémentaires : temps de calculs importants pour récupérer les données, bruitage des données et certaines simulations peuvent échouer. Pour résoudre ce genre de problèmes, des algorithmes ont été développés. Parmi eux, MADS a été proposé par Audet et Dennis en 2006. C’est un algorithme itératif de recherche directe qui évalue des points de proche en proche sur un treillis. Il offrait à la base un traitement rudimentaire des contraintes, en associant une valeur infinie à tous points non -réalisables. Il a depuis été étoffé pour offrir un traitement plus souple à des contraintes de plus en plus hétéroclites. Cette thèse propose trois nouvelles fonctionnalités à l’algorithme MADS. Premièrement, MADS calcule des modèles des contraintes afin d’ordonner les points du plus prometteur au moins prometteur. Cependant, un traitement adéquat des contraintes binaires, qui ne retournent que deux valeurs, manque dans MADS. Pour pallier cette absence, des modèles des contraintes binaires seront proposés en utilisant des outils de régression, issus de la classification supervisée. Deuxièmement, ces mêmes outils permettent de proposer un ordonnancement nouveau des points à évaluer quand aucune fonction substitut n’est accessible dans MADS. Les points qui ont le plus de chance d’être réalisables seront évalués en premier pour favoriser la recherche de solutions réalisables de qualité. Cette stratégie sera comparée à une méthode favorisant les points les plus éloignés des points déjà évalués et à la méthode par défaut dans ce cas dans MADS, qui favorise les points qui sont le plus dans la direction du dernier succès par rapport au centre du treillis. Enfin, il peut être noté que la mise à l’échelle des contraintes choisie par l’utilisateur au moment de définir le problème a un impact sur le fonctionnement de MADS. MADS propose un traitement de mise à l’échelle des variables en entrée de la boite noire, mais rien pour les contraintes en sortie. Cette thèse propose une façon de les mettre à l’échelle, de sorte qu’elles prennent des valeurs de même ordre de grandeur. Cela permettra qu’elles aient globalement la même importance.----------ABSTRACT: In the field of blackbox optimization, the user does not have access to the analytical expressions of the objective function and of the constraints. Thus, there is no access to the gradient. But the gradient is an important piece of information since it gives an increasing direction of the function. Moreover, in order to obtain those values, computer simulations or experiments in laboratory have to be done. This adds further difficulties: heavy computational times to get the data, noisy data and some simulations may fail. To solve this kind of problems, algorithms have been developed. Among them, MADS has been proposed by Audet and Dennis in 2006. It is a direct search iterative algorithm that evaluates points on a mesh. At first, it offered a basic management of the constraints by associating an infinite value to all infeasible elements. Since then, more flexible ways have been proposed to handle various types of constraints. There are for example models for most of the constraints in order to sort points from the most to the least promising. However, in MADS, there is no specific management of binary constraints, which can return only two different values. Thus, models of binary constraints will be offered using tools of regression from supervised classification. Those tools also offer new ordering methods to sort the points that need to be evaluated when no models are available in MADS. The points which are the most likely to be feasible will be evaluated first in order to look most likely for feasible solutions. This strategy will be compared to one evaluating first the elements the furthest from the ones already evaluated and to the default, in that situation, in MADS which sorts the points according to the direction of last success. Finally, it should be pointed out that the scaling of the constraints provided by the user chosen while defining the problem has an impact on MADS’s behaviour. MADS deals with the scaling of the input variables of the blackbox, but nothing is done for the constraints in the output. This thesis offers to handle the scaling of the output so that they take values of about the same range so that they have more or less the same influence

    Classification Ă©videntielle avec contraintes d'Ă©tiquettes

    Get PDF
    International audienceCe papier propose une version améliorée de l'algorithme de classification automatique évidentielle semi-supervisée SECM. Celui-ci bénéficie de l'introduction de données étiquetées pour améliorer la pertinence de ses résul-tats et utilise la théorie des fonctions de croyance afin de produire une partition crédale qui généralise notamment les concepts de partitions dures et floues. Le pendant de ce gain d'expressivité est une complexité qui est exponentielle avec le nombre de classes, ce qui impose en retour l'utilisation de schémas ef-ficaces pour optimiser la fonction objectif. Nous proposons dans cet article une heuristique qui relâche la contrainte classique de positivité liée aux masses de croyances des méthodes évidentielles. Nous montrons sur un ensemble de jeux de données de test que notre méthode d'optimisation permet d'accélérer sensi-blement l'algorithme SECM avec un schéma d'optimisation classique, tout en améliorant également la qualité de la fonction objectif

    Le logiciel MIXMOD d'analyse de mélange pour la classification et l'analyse discriminante

    Get PDF
    National audienceLe logiciel mixmod est dévolu à l'analyse de mélanges de lois de probabilité sur des données multidimensionnelles dans un but d'estimation de densité, de classification ou d'analyse discriminante. Il propose un choix important d'algorithmes pour estimer les paramètres d'un mélange (EM, Classification EM, Stochastic EM). Il est possible de combiner ces algorithmes de multiples façons pour obtenir un maximum local pertinent de la vraisemblance ou de la vraisemblance complétée d'un modèle. Pour des variables quantitatives, mixmod utilise des mélanges de lois normales multidimensionnelles. Il propose ainsi quatorze modèles gaussiens différents selon des hypothèses faites sur les éléments spectraux des matrices de variance des composants. Pour des variables qualitatives, mixmod utilise des mélanges de lois multinomiales multidimensionnelles sous une hypothèse d'indépendance conditionnelle des variables sachant le composant du mélange. Grâce à une reparamétrisation des probabilités multinomiales, il propose cinq modélisations différentes. Par ailleurs, différents critères d'information sont proposés pour choisir un modèle parcimonieux et permettent notamment de choisir un nombre de composants pertinents. L'emploi de l'un ou l'autre de ces critères dépend de l'objectif poursuivi (estimation de densité, classification supervisée ou non). Écrit en C++, mixmod possède des interfaces avec Scilab et Matlab. Le logiciel, sa documentation statistique et son guide d'utilisation sont disponibles à l'adresse suivante : http://www-math.univ-fcomte.fr/mixmod/index.php

    Classification Supervisée de Questions : Rôle de l'Expansion Sémantique

    Get PDF
    http://asso-aria.org/coria/2010/147.pdfInternational audienc

    Conception itérative et semi-supervisée d'assistants conversationnels par regroupement interactif des questions

    Get PDF
    National audienceThe design of a dataset needed to train a chatbot is most often the result of manual and tedious step. To guarantee the efficiency and objectivity of the annotation, we propose an active learning method based on constraints annotation. It’s an iterative approach, relying on a clustering algorithm to segment data and using annotator knowledge to lead clustering from unlabeled question to relevant intents structure. In this paper, we study the optimal modeling parameters to get an exploitable dataset with a minimum of annotations, and show that this approach allows to make a coherent structure for the training of a chatbot.La création d’un jeu de données pour l’entrainement d’un chatbot repose sur un a priori de connaissance du domaine. En conséquence, cette étape est le plus souvent manuelle, fastidieuse et soumise aux biais. Pour garantir l’efficacité et l’objectivité de l’annotation, nous proposons une méthodologie d’apprentissage actif par annotation de contraintes. Il s’agit d’une approche itérative, reposant sur un algorithme de clustering pour segmenter les données et tirant parti de la connaissance de l’annotateur pour guider le regroupement des questions en une structure d’intentions. Dans cet article, nous étudions les paramètres optimaux de modélisation pour réaliser une segmentation exploitable en un minimum d’annotations, et montrons que cette approche permet d’aboutir à une structure cohérente pour l’entrainement d’un assistant conversationnel

    Structuration de données par apprentissage non-supervisé : applications aux données textuelles

    Get PDF
    En fouille de données, le succès d'une méthode tient au fait qu'elle permet de répondre par un algorithme intuitif à un besoin pratique bien théorisé. C'est avec cet éclairage que nous présentons un ensemble de contributions, élaborées durant ces dix dernières années, et répondant au besoin pratique de structurer automatiquement un ensemble de données. Dans un premier temps nous proposons de nouveaux modèles théoriques de structuration complexe en classes d’individus ; il s’agit alors d'extraire automatiquement d'un ensemble de données, des structures de classification plus proches de leur organisation réelle telle qu’observée (classification recouvrante, formes symétriques), de rendre ces structures à la fois robustes (tolérance au bruit) et manipulables par l’homme (visualisation, paramétrage) et enfin d’être en mesure de les expliquer (sémantique des classes). Dans un second temps nous nous intéressons aux données textuelles via la mise en oeuvre de modèles rendant compte de la structure thématique d’une collection de textes courts dans un contexte de recherche d’information ; enfin, nous présentons un méta-modèle permettant d’apprendre automatiquement un modèle de structuration sémantique d’un ensemble de termes

    Détermination de la signature acoustique de la corrosion des composites SVR (stratifiés verre résine)

    Get PDF
    Since the 1980, Glass Reinforced Plastic (GRP) has been used for construction of pipes and tanks in the chemical industry, including the storage of mineral acids. This composite material offers superior and cost effective corrosion resistance. However, authors found accidental breakage of tanks (horizontal and vertical) containing mineral acids (hydrochloric and sulphuric). These failures are attributed to environmental stress-corrosion cracking (ESCC) mechanism. The corrosion of glass fibers in mineral acid solution is less known but very important. The mechanism of the corrosion, called leaching, is thought to induce tensile stresses in the surface of the glass. These stresses could be large enough to cause cracking of the fiber glass.Corrosion tests have been performed on GRP specimen. Aggressive environments used are hydrochloric acid (37%) This environment is known to react with E-glass. Corrosion tests have been monitored by acoustic emission.SEM observations and physicochemical analysis confirm the corrosion of glass fibers in HCl solution. The use of micro - tomography allows to have information on the depth of degradation of the material.Statistical approaches are used to characterize hit’s parameters. Clustering is made by using k-mean’s method. Three distinct acoustic emission classes are identified. Thanks to SEM observations and acoustic emission results, clusters can be assigned to the appearance of minor defects in the material.Depuis les années 80, Les matériaux composites stratifié verre résine (SVR) ont été utilisés pour la construction des tuyaux et des réservoirs dans l'industrie chimique, y compris pour le stockage d’acides. Ce matériau composite présente une résistance supérieure à la corrosion. Cependant, des auteurs ont observé des ruptures accidentelles de réservoirs (horizontaux et verticaux) contenant des acides (chlorhydrique et sulfurique). Ces ruptures sont attribuées au mécanisme de corrosion sous contrainte (CSC). La corrosion des fibres de verre dans une solution acide est moins connue mais reste très importante. Ce mécanisme de corrosion, appelée désalcalinisation de la fibre peut provoquer la fissuration de la fibre de verre.Des essais de corrosion avec de l’acide chlorhydrique (37%) ont été effectués sur éprouvette SVR. Ces essais de corrosion ont été suivis par émission acoustique. Les observations au microscope électroniques à balayage (MEB) et les analyses physico-chimiques confirment la corrosion de fibres de verre dans une solution de HCl. L’utilisation de la micro-tomographie nous montre que cette technique permet d’avoir une information sur la profondeur d’attaque du matériau.Une approche statistique est utilisée pour caractériser les paramètres de la salve d’émission acoustique afin de les séparer. Le Clustering est fait en utilisant la méthode des k-moyennes. Trois classes d’émission acoustique distinctes ont ainsi été identifiées. L’analyse croisée de l’émission acoustique et des observations ont permis de relier les classes observées aux conséquences de la corrosion du SVR
    • …
    corecore