1,711 research outputs found

    Prédiction de mots et saisie de requêtes sur interfaces limitées : dispositifs mobiles et aide au handicap

    Get PDF
    chapitre 10Ce chapitre fait le tour de la question des techniques de prédiction lexicale utilisées aussi bien dans les systèmes d'aide à la communication pour personnes handicapées que dans les systèmes d'aide à la saisie de texte sur dispositifs limités tels que les téléphones mobiles

    Modélisation numérique de la coupe orthogonale en UGV

    Get PDF
    L'usinage par enlèvement de matière est le procédé le plus utilisé dans la production de composants pour l'industrie mécanique.AIRBUS France utilise l’usinage mécanique par outils coupants sur de nombreuses pièces sollicitées en fatigue. Ce procédé tend à évoluer vers l’Usinage Grande Vitesse (UGV) car il permet d’améliorer sensiblement la productivité. L’objectif de l’étude présentée ici est de réaliser des simulations numériques du procédé d’usinage en faisant varier certains paramètres, afin d’obtenir un modèle fidèle de la sollicitation vue par la pièce et d’évaluer la pertinence et les limites de l’outil numérique choisi. Les simulations numériques sont menées à l’aide du code hydrodynamique de calcul non linéaire par éléments finis LS-DYNA en utilisant la méthode Smoothed Particle Hydrodynamics (SPH) 2D dans le cadre de la coupe orthogonale. La validation des modèles numériques est effectuée sur la base de la comparaison avec des résultats expérimentaux collectés dans la littérature. Les trois critères retenus sont la morphologie de copeaux, la répartition de contrainte et les efforts de coupe

    Le lasso linéaire : une méthode pour des données de petites et grandes dimensions en régression linéaire

    Full text link
    Dans ce mémoire, nous nous intéressons à une façon géométrique de voir la méthode du Lasso en régression linéaire. Le Lasso est une méthode qui, de façon simultanée, estime les coefficients associés aux prédicteurs et sélectionne les prédicteurs importants pour expliquer la variable réponse. Les coefficients sont calculés à l’aide d’algorithmes computationnels. Malgré ses vertus, la méthode du Lasso est forcée de sélectionner au maximum n variables lorsque nous nous situons en grande dimension (p > n). De plus, dans un groupe de variables corrélées, le Lasso sélectionne une variable “au hasard”, sans se soucier du choix de la variable. Pour adresser ces deux problèmes, nous allons nous tourner vers le Lasso Linéaire. Le vecteur réponse est alors vu comme le point focal de l’espace et tous les autres vecteurs de variables explicatives gravitent autour du vecteur réponse. Les angles formés entre le vecteur réponse et les variables explicatives sont supposés fixes et nous serviront de base pour construire la méthode. L’information contenue dans les variables explicatives est projetée sur le vecteur réponse. La théorie sur les modèles linéaires normaux nous permet d’utiliser les moindres carrés ordinaires (MCO) pour les coefficients du Lasso Linéaire. Le Lasso Linéaire (LL) s’effectue en deux étapes. Dans un premier temps, des variables sont écartées du modèle basé sur leur corrélation avec la variable réponse; le nombre de variables écartées (ou ordonnées) lors de cette étape dépend d’un paramètre d’ajustement γ. Par la suite, un critère d’exclusion basé sur la variance de la distribution de la variable réponse est introduit pour retirer (ou ordonner) les variables restantes. Une validation croisée répétée nous guide dans le choix du modèle final. Des simulations sont présentées pour étudier l’algorithme en fonction de différentes valeurs du paramètre d’ajustement γ. Des comparaisons sont effectuées entre le Lasso Linéaire et des méthodes compétitrices en petites dimensions (Ridge, Lasso, SCAD, etc.). Des améliorations dans l’implémentation de la méthode sont suggérées, par exemple l’utilisation de la règle du 1se nous permettant d’obtenir des modèles plus parcimonieux. Une implémentation de l’algorithme LL est fournie dans la fonction R intitulée linlasso, disponible au https://github.com/yanwatts/linlasso.In this thesis, we are interested in a geometric way of looking at the Lasso method in the context of linear regression. The Lasso is a method that simultaneously estimates the coefficients associated with the predictors and selects the important predictors to explain the response variable. The coefficients are calculated using computational algorithms. Despite its virtues, the Lasso method is forced to select at most n variables when we are in highdimensional contexts (p > n). Moreover, in a group of correlated variables, the Lasso selects a variable “at random”, without caring about the choice of the variable. To address these two problems, we turn to the Linear Lasso. The response vector is then seen as the focal point of the space and all other explanatory variables vectors orbit around the response vector. The angles formed between the response vector and the explanatory variables are assumed to be fixed, and will be used as a basis for constructing the method. The information contained in the explanatory variables is projected onto the response vector. The theory of normal linear models allows us to use ordinary least squares (OLS) for the coefficients of the Linear Lasso. The Linear Lasso (LL) is performed in two steps. First, variables are dropped from the model based on their correlation with the response variable; the number of variables dropped (or ordered) in this step depends on a tuning parameter γ. Then, an exclusion criterion based on the variance of the distribution of the response variable is introduced to remove (or order) the remaining variables. A repeated cross-validation guides us in the choice of the final model. Simulations are presented to study the algorithm for different values of the tuning parameter γ. Comparisons are made between the Linear Lasso and competing methods in small dimensions (Ridge, Lasso, SCAD, etc.). Improvements in the implementation of the method are suggested, for example the use of the 1se rule allowing us to obtain more parsimonious models. An implementation of the LL algorithm is provided in the function R entitled linlasso available at https://github.com/yanwatts/linlasso

    Vers une nouvelle approche basée sur l'apprentissage profond pour la classification des changements du code source par activités de maintenance

    Get PDF
    « Le domaine du développement logiciel possède une vraie mine d'information qui est sous forme d'historique de changements appliqués aux logiciels pendant leur cycle de vie. En effet, cet historique dont une partie importante est publiquement accessible à partir des systèmes de contrôle de versions fait l'objet d'exploration et d'analyse scientifique à travers le domaine du forage des référentiels de logiciels (MSR pour Mining Software Repositories en anglais) dont le but est d'améliorer plusieurs aspects rencontrés par les parties prenantes pendant le développement d'un logiciel. Dans ce travail, nous nous sommes intéressés à la détermination des types d'activité de maintenance qui sont présents dans une modification du code source. Plusieurs études se sont intéressées à ce sujet, et l'ont traité en exploitant les informations fournies par un programmeur comme le message décrivant les changements effectués ainsi que le code modifié qui est sous forme d'ajout et suppression de lignes de code. Cependant, la majorité d'entre elles considèrent qu'un changement comprend un seul type d'activité de maintenance, ce qui n'est pas toujours vrai en pratique. Ensuite, dans leurs exploitations des données textuelles, ces études se limitent au message alors que ce dernier comprend souvent seulement une description du code modifié et non la raison du changement. Et puis, dans leurs approches, elles se limitent à étudier des projets utilisant le même langage de programmation. À travers cette étude, nous répondons à ces enjeux en proposant un modèle de classification par activités de maintenance basé sur des modèles en apprentissage profond, qui seront également responsables de l'extraction de caractéristiques, que ce soit à partir d'une information textuelle (le message et la proposition de changement) ou du code modifié, indépendamment de son langage de programmation. Nous proposons également un nouveau jeu de données pour cette tâche afin de répondre à un autre enjeu qui est la rareté des jeux de données disponibles. Ce jeu de données tient compte du fait qu'un changement peut appartenir à plusieurs classes de changements. L'architecture de notre modèle est composée d'un modèle préentrainé permettant la génération des représentations distribuées des données textuelles, en plus d'un classificateur sous forme d'un réseau de neurones qui prendra en entrée la sortie du modèle préentrainé en plus des caractéristiques qui concernent le code modifié. Notre approche, dont l'entraînement est basé sur un apprentissage par transfert, a donné des résultats encourageants non seulement sur notre jeu de données, mais aussi en ce qui concerne le support des jeux de données des travaux reliés.-- Mots-clés : Activités de maintenance, systèmes de contrôle de version, forage des référentiels de logiciels, apprentissage. »-- « Software development has a wealth of information in the form of a history of changes applied to software during its life cycle. Indeed, a part of this history, publicly accessible from version control systems, is the subject of exploration and scientific analysis through mining software repositories (MSR). MSR aims to facilitate and improve several aspects stakeholders encounter during software development. In this work, we are interested in determining the types of maintenance activity present in modifying the source code. Several studies have been interested in this subject and have dealt with it by exploiting the information provided by a programmer, like a message describing the changes made and the modified code in the form of added and removed lines of code. However, most consider that a change includes only one type of maintenance activity, which is not always accurate in practice. Also, in using textual data, these studies limit themselves to the message, which often includes only a description of the modified code and not the reason for the change. Additionally, their approaches limit themselves to studying projects that use the same programming language. Through this study, we respond to these challenges by proposing a classification model by maintenance activities based on deep learning models. It will also be responsible for feature extraction, whether from textual information (message and issue description) or modified code, regardless of its programming language. We also provide a new dataset for this task to address another issue: the scarcity of available datasets. This dataset takes into account the fact that a change can belong to several classes of changes. The architecture of our model is composed of a pre-trained model allowing the generation of distributed representations of textual data, in addition to a classifier in the form of a neural network. This network inputs are the output of the pre-trained model and the characteristics related to the modified code. Our approach, whose training is based on transfer learning, has given encouraging results not only on our dataset but also on the support of related work datasets.-- Keywords : Maintenance activities, version control systems, software repository mining, deep learning, transfer learning, distributed representation, classification. »-

    RELIEFS : un système d'inspiration cognitive pour le filtrage adaptatif de documents textuels

    No full text
    International audienceL'objet de cet article est la présentation d'un nouveau système nommé RELIEFS (pour RELevance Information Extraction Fuzzy System) pour le filtrage adaptatif de documents textuels. Les grands principes de fonctionnement de ce système s'inspirent de mécanismes cognitifs intervenant dans les processus de sélection de l'information. Plus précisément, notre recherche part de l'analyse de modèles de la mémoire sémantique (accès et organisation des connaissances en mémoire) et de modèles qui rendent compte de phénomènes attentionnels (sélection des informations provenant de l'environnement). Des liens forts sont tissés entre ces modèles et des modèles traditionnellement utilisés en RI. Une nouvelle interprétation de la notion de pertinence est proposée. L'analyse nous conduit à extraire un ensemble de mécanismes de base renvoyant aux notions d'activation et de propagation d'activation pour la sélection d'information " pertinentes ". Ces mécanismes sont implémentés et testés avec succès dans la tâche de filtrage adaptatif de TREC9

    Pronostic industriel : étude de l'erreur de prédiction du système ANFIS.

    No full text
    International audienceLe travail porte globalement sur le développement d'un outil de pronostic de défaillances basé sur l'utilisation d'un système de prédiction neuro-flou. Plus particulièrement, cet article vise la proposition d'une architecture de prédiction basée sur l'utilisation du système ANFIS (système d'inférence floue paramétré par apprentissage neuronal), et pour laquelle différents axes d'améliorations des prédictions sont proposés. La stabilité des erreurs de prédictions en fonction de l'horizon de prédiction est étudiée expérimentalement et une solution visant à intégrer les sollicitations "futures" connues dans le modèle prédictif est proposée. L'ensemble est illustré sur un benchmark de prédiction : la série de données dite de Box-Jenkins

    Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

    Get PDF
    This thesis focuses on machine learning for data classification. To reduce the labelling cost, active learning allows to query the class label of only some important instances from a human labeller. We propose a new uncertainty measure that characterizes the importance of data and improves the performance of active learning compared to the existing uncertainty measures. This measure determines the smallest instance weight to associate with new data, so that the classifier changes its prediction concerning this data. We then consider a setting where the data arrives continuously from an infinite length stream. We propose an adaptive uncertainty threshold that is suitable for active learning in the streaming setting and achieves a compromise between the number of classification errors and the number of required labels. The existing stream-based active learning methods are initialized with some labelled instances that cover all possible classes. However, in many applications, the evolving nature of the stream implies that new classes can appear at any time. We propose an effective method of active detection of novel classes in a multi-class data stream. This method incrementally maintains a feature space area which is covered by the known classes, and detects those instances that are self-similar and external to that area as novel classes. Finally, it is often difficult to get a completely reliable labelling because the human labeller is subject to labelling errors that reduce the performance of the learned classifier. This problem was solved by introducing a measure that reflects the degree of disagreement between the manually given class and the predicted class, and a new informativeness measure that expresses the necessity for a mislabelled instance to be re-labeled by an alternative labeller.Cette thèse traite de l'apprentissage automatique pour la classification de données. Afin de réduire le coût de l'étiquetage, l'apprentissage actif permet de formuler des requêtes pour demander à un opérateur d'étiqueter seulement quelques données choisies selon un critère d'importance. Nous proposons une nouvelle mesure d'incertitude qui permet de caractériser l'importance des données et qui améliore les performances de l'apprentissage actif par rapport aux mesures existantes. Cette mesure détermine le plus petit poids nécessaire à associer à une nouvelle donnée pour que le classifieur change sa prédiction concernant cette donnée. Nous intégrons ensuite le fait que les données à traiter arrivent en continu dans un flux de longueur infinie. Nous proposons alors un seuil d'incertitude adaptatif qui convient pour un apprentissage actif à partir d'un flux de données et qui réalise un compromis entre le nombre d'erreurs de classification et le nombre d'étiquettes de classes demandées. Les méthodes existantes d'apprentissage actif à partir de flux de données, sont initialisées avec quelques données étiquetées qui couvrent toutes les classes possibles. Cependant, dans de nombreuses applications, la nature évolutive du flux fait que de nouvelles classes peuvent apparaître à tout moment. Nous proposons une méthode efficace de détection active de nouvelles classes dans un flux de données multi-classes. Cette méthode détermine de façon incrémentale une zone couverte par les classes connues, et détecte les données qui sont extérieures à cette zone et proches entre elles, comme étant de nouvelles classes. Enfin, il est souvent difficile d'obtenir un étiquetage totalement fiable car l'opérateur humain est sujet à des erreurs d'étiquetage qui réduisent les performances du classifieur appris. Cette problématique a été résolue par l'introduction d'une mesure qui reflète le degré de désaccord entre la classe donnée manuellement et la classe prédite et une nouvelle mesure d'"informativité" permettant d'exprimer la nécessité pour une donnée mal étiquetée d'être ré-étiquetée par un opérateur alternatif

    Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

    Get PDF
    This thesis focuses on machine learning for data classification. To reduce the labelling cost, active learning allows to query the class label of only some important instances from a human labeller. We propose a new uncertainty measure that characterizes the importance of data and improves the performance of active learning compared to the existing uncertainty measures. This measure determines the smallest instance weight to associate with new data, so that the classifier changes its prediction concerning this data. We then consider a setting where the data arrives continuously from an infinite length stream. We propose an adaptive uncertainty threshold that is suitable for active learning in the streaming setting and achieves a compromise between the number of classification errors and the number of required labels. The existing stream-based active learning methods are initialized with some labelled instances that cover all possible classes. However, in many applications, the evolving nature of the stream implies that new classes can appear at any time. We propose an effective method of active detection of novel classes in a multi-class data stream. This method incrementally maintains a feature space area which is covered by the known classes, and detects those instances that are self-similar and external to that area as novel classes. Finally, it is often difficult to get a completely reliable labelling because the human labeller is subject to labelling errors that reduce the performance of the learned classifier. This problem was solved by introducing a measure that reflects the degree of disagreement between the manually given class and the predicted class, and a new informativeness measure that expresses the necessity for a mislabelled instance to be re-labeled by an alternative labeller.Cette thèse traite de l'apprentissage automatique pour la classification de données. Afin de réduire le coût de l'étiquetage, l'apprentissage actif permet de formuler des requêtes pour demander à un opérateur d'étiqueter seulement quelques données choisies selon un critère d'importance. Nous proposons une nouvelle mesure d'incertitude qui permet de caractériser l'importance des données et qui améliore les performances de l'apprentissage actif par rapport aux mesures existantes. Cette mesure détermine le plus petit poids nécessaire à associer à une nouvelle donnée pour que le classifieur change sa prédiction concernant cette donnée. Nous intégrons ensuite le fait que les données à traiter arrivent en continu dans un flux de longueur infinie. Nous proposons alors un seuil d'incertitude adaptatif qui convient pour un apprentissage actif à partir d'un flux de données et qui réalise un compromis entre le nombre d'erreurs de classification et le nombre d'étiquettes de classes demandées. Les méthodes existantes d'apprentissage actif à partir de flux de données, sont initialisées avec quelques données étiquetées qui couvrent toutes les classes possibles. Cependant, dans de nombreuses applications, la nature évolutive du flux fait que de nouvelles classes peuvent apparaître à tout moment. Nous proposons une méthode efficace de détection active de nouvelles classes dans un flux de données multi-classes. Cette méthode détermine de façon incrémentale une zone couverte par les classes connues, et détecte les données qui sont extérieures à cette zone et proches entre elles, comme étant de nouvelles classes. Enfin, il est souvent difficile d'obtenir un étiquetage totalement fiable car l'opérateur humain est sujet à des erreurs d'étiquetage qui réduisent les performances du classifieur appris. Cette problématique a été résolue par l'introduction d'une mesure qui reflète le degré de désaccord entre la classe donnée manuellement et la classe prédite et une nouvelle mesure d'"informativité" permettant d'exprimer la nécessité pour une donnée mal étiquetée d'être ré-étiquetée par un opérateur alternatif

    Planification adaptative d'expériences numériques par paquets en contexte non stationnaire pour une étude de fissuration mécanique

    Get PDF
    La prise en compte des incertitudes fait aujourd'hui partie intégrante des analyses de risque industriel, en particulier dans le domaine de la mécanique des matériaux et des structures. Il s'agit notamment de savoir si les variations des paramètres d'entrée d'un code de calcul ne peuvent pas faire basculer le système vers un comportement très différent de celui obtenu quand les paramètres sont fixés à leur valeur de référence (présence de saut ou de forts gradients dans la réponse). Pour cela, des méthodes de planification d'expériences à base de processus gaussiens peuvent être utilisées. Toutefois, elles reposent le plus souvent sur une hypothèse de stationnarité et sur un critère de planification qui ne dépend pas de la réponse, conduisant à une exploration globale de l'espace d'entrée sans favoriser les régions de fortes variations. Afin de contourner ces limitations, un nouveau modèle de processus gaussien non stationnaire a été développé dans [1]. Il est rappelés ici et couplés avec une stratégie d'ajout de points par paquet dans l'algorithme de planification afin de réduire le coût numérique pour des applications industrielles. Ces nouvelles méthodes sont validées et comparées avec des approches classiques sur la fissuration d'un matériau biphasé dans le cadre des activités de l'IRSN au sein du laboratoire commun MIST
    • …
    corecore