Search CORE

131 research outputs found

Détection non-supervisée d’observations atypiques en contrôle de qualité : un survol

Author: Archimbaud Aurore
Publication venue
Publication date: 01/01/2018
Field of study

Numérisation de Documents Anciens Mathématiques

Applications de méthodes de classification non supervisées à la détection d'anomalies

Author: Jabiri Fouad
Publication venue: Bibliotheque de l' Universite Laval
Publication date: 01/01/2020
Field of study

Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux.In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms

CorpusUL

Méthodes statistiques de détection d’observations atypiques pour des données en grande dimension

Author: Archimbaud Aurore
Publication venue
Publication date: 26/01/2018
Field of study

La détection d’observations atypiques de manière non-supervisée est un enjeu crucial dans la pratique de la statistique. Dans le domaine de la détection de défauts industriels, cette tâche est d’une importance capitale pour assurer une production de haute qualité. Avec l’accroissement exponentiel du nombre de mesures effectuées sur les composants électroniques, la problématique de la grande dimension se pose lors de la recherche d’anomalies. Pour relever ce challenge, l’entreprise ippon innovation, spécialiste en statistique industrielle et détection d’anomalies, s’est associée au laboratoire de recherche TSE-R en finançant ce travail de thèse. Le premier chapitre commence par présenter le contexte du contrôle de qualité et les différentes procédures déjà mises en place, principalement dans les entreprises de semi-conducteurs pour l’automobile. Comme ces pratiques ne répondent pas aux nouvelles attentes requises par le traitement de données en grande dimension, d’autres solutions doivent être envisagées. La suite du chapitre résume l’ensemble des méthodes multivariées et non supervisées de détection d’observations atypiques existantes, en insistant tout particulièrement sur celles qui gèrent des données en grande dimension. Le Chapitre 2 montre théoriquement que la très connue distance de Mahalanobis n’est pas adaptée à la détection d’anomalies si celles-ci sont contenues dans un sous-espace de petite dimension alors que le nombre de variables est grand.Dans ce contexte, la méthode Invariant Coordinate Selection (ICS) est alors introduite comme une alternative intéressante à la mise en évidence de la structure des données atypiques. Une méthodologie pour sélectionner seulement les composantes d’intérêt est proposée et ses performances sont comparées aux standards habituels sur des simulations ainsi que sur des exemples réels industriels. Cette nouvelle procédure a été mise en oeuvre dans un package R, ICSOutlier, présenté dans le Chapitre 3 ainsi que dans une application R shiny (package ICSShiny) qui rend son utilisation plus simple et plus attractive.Une des conséquences directes de l’augmentation du nombre de dimensions est la singularité des estimateurs de dispersion multivariés, dès que certaines variables sont colinéaires ou que leur nombre excède le nombre d’individus. Or, la définition d’ICS par Tyler et al. (2009) se base sur des estimateurs de dispersion définis positifs. Le Chapitre 4 envisage différentes pistes pour adapter le critère d’ICS et investigue de manière théorique les propriétés de chacune des propositions présentées. La question de l’affine invariance de la méthode est en particulier étudiée. Enfin le dernier chapitre, se consacre à l’algorithme développé pour l’entreprise. Bien que cet algorithme soit confidentiel, le chapitre donne les idées générales et précise les challenges relevés, notamment numériques.The unsupervised outlier detection is a crucial issue in statistics. More specifically, in the industrial context of fault detection, this task is of great importance for ensuring a high quality production. With the exponential increase in the number of measurements on electronic components, the concern of high dimensional data arises in the identification of outlying observations. The ippon innovation company, an expert in industrial statistics and anomaly detection, wanted to deal with this new situation. So, it collaborated with the TSE-R research laboratory by financing this thesis work. The first chapter presents the quality control context and the different procedures mainly used in the automotive industry of semiconductors. However, these practices do not meet the new expectations required in dealing with high dimensional data, so other solutions need to be considered. The remainder of the chapter summarizes unsupervised multivariate methods for outlier detection, with a particular emphasis on those dealing with high dimensional data. Chapter 2 demonstrates that the well-known Mahalanobis distance presents some difficulties to detect the outlying observations that lie in a smaller subspace while the number of variables is large. In this context, the Invariant Coordinate Selection (ICS) method is introduced as an interesting alternative for highlighting the structure of outlierness. A methodology for selecting only the relevant components is proposed. A simulation study provides a comparison with benchmark methods. The performance of our proposal is also evaluated on real industrial data sets. This new procedure has been implemented in an R package, ICSOutlier, presented in Chapter 3, and in an R shiny application (package ICSShiny) that makes it more user-friendly. When the number of dimensions increases, the multivariate scatter matrices turn out to be singular as soon as some variables are collinear or if their number exceeds the number of individuals. However, in the presentation of ICS by Tyler et al. (2009), the scatter estimators are defined as positive definite matrices. Chapter 4 proposes three different ways for adapting the ICS method to singular scatter matrices and theoretically investigates their properties. The question of affine invariance is analyzed in particular. Finally, the last chapter is dedicated to the algorithm developed for the company. Although the algorithm is confidential, the chapter presents the main ideas and the challenges, mostly numerical, encountered during its development

Toulouse Capitole Publications

Méthodes statistiques de détection d’observations atypiques pour des données en grande dimension

Author: Archimbaud Aurore
Publication venue
Publication date: 26/01/2018
Field of study

Toulouse Capitole Publications

Toulouse 1 Capitole Publications

Clustering incrémental et méthodes de détection de nouveauté : application à l'analyse intelligente d'informations évoluant au cours du temps

Author: Cuxac Pascal
Lamirel Jean-Charles
Publication venue: 'Lavoisier'
Publication date: 13/10/2011
Field of study

Série Environnements et services numériques d'information Bibliographie en fin de chapitres. Notes bibliogr. IndexNational audienceLearning algorithms proved their ability to deal with large amount of data. Most of the statistical approaches use defined size learning sets and produce static models. However in specific situations: active or incremental learning, the learning task starts with only very few data. In that case, looking for algorithms able to produce models with only few examples becomes necessary. The literature's classifiers are generally evaluated with criteria such as: accuracy, ability to order data (ranking)... But this classifiers' taxonomy can really change if the focus is on the ability to learn with just few examples. To our knowledge, just few studies were performed on this problem. This study aims to study a larger panel of both algorithms (9 different kinds) and data sets (17 UCI bases)

INRIA a CCSD electronic archive server

Méthode d'analyse de données pour le diagnostic a posteriori de défauts de production - Application au secteur de la microélectronique

Author: Yahyaoui Hasna
Publication venue: HAL CCSD
Publication date: 21/10/2015
Field of study

Controlling the performance of a manufacturing site and the rapid identification of quality loss causes remain a daily challenge for manufacturers, who face continuing competition. In this context, this thesis aims to provide an analytical approach for the rapid identification of defect origins, by exploring data available thanks to different quality control systems, such FDC, metrology, parametric tests PT and the Electrical Wafer Sorting EWS. The proposed method, named CLARIF, combines three complementary data mining techniques namely clustering, association rules and decision trees induction. This method is based on unsupervised generation of a set of potentially problematic production modes, which are characterized by specific manufacturing conditions. Thus, we provide an analysis which descends to the level of equipment operating parameters. The originality of this method consists on (1) a pre-treatment step to identify spatial patterns from quality control data, (2) an unsupervised generation of manufacturing modes candidates to explain the quality loss case. We optimize the generation of association rules through the proposed ARCI algorithm, which is an adaptation of the famous association rules mining algorithm, APRIORI to integrate the constraints specific to our issue and filtering quality indicators, namely confidence, contribution and complexity, in order to identify the most interesting rules. Finally, we defined a Knowledge Discovery from Databases process, enabling to guide the user in applying CLARIF to explain both local and global quality loss problems.La maîtrise du rendement d’un site de fabrication et l’identification rapide des causes de perte de qualité restent un défi quotidien pour les industriels, qui font face à une concurrence continue. Dans ce cadre, cette thèse a pour ambition de proposer une démarche d’analyse permettant l’identification rapide de l’origine d’un défaut, à travers l’exploitation d’un maximum des données disponibles grâce aux outils de contrôle qualité, tel que la FDC, la métrologie, les tests paramétriques PT, et le tri électriques EWS. Nous avons proposé une nouvelle méthode hybride de fouille de données, nommée CLARIF, qui combine trois méthodes de fouille de données à savoir, le clustering, les règles d’association et l’induction d’arbres de décision. Cette méthode se base sur la génération non supervisée d’un ensemble de modes de production potentiellement problématiques, qui sont caractérisés par des conditions particulières de production. Elle permet, donc, une analyse qui descend au niveau des paramètres de fonctionnement des équipements. L’originalité de la méthode consiste dans (1) une étape de prétraitement pour l’identification de motifs spatiaux à partir des données de contrôle, (2) la génération non supervisée de modes de production candidats pour expliquer le défaut. Nous optimisons la génération des règles d’association à travers la proposition de l’algorithme ARCI, qui est une adaptation du célèbre algorithme de fouille de règles d’association, APRIORI, afin de permettre d’intégrer les contraintes spécifiques à la problématique de CLARIF, et des indicateurs de qualité de filtrage des règles à identifier, à savoir la confiance, la contribution et la complexité. Finalement, nous avons défini un processus d’Extraction de Connaissances à partir des Données, ECD permettant de guider l’utilisateur dans l’application de CLARIF pour expliquer une perte de qualité locale ou globale

Thèses en Ligne

HAL-EMSE

Représentation et reconnaissance des signaux acoustiques sous-marins

Author: Ouelha Samir
Publication venue: HAL CCSD
Publication date: 11/12/2014
Field of study

This thesis aims to identify and develop new representation methods of the underwater acoustic signals. Ourgoal is to interpret, recognize and automatically identify underwater signals from sonar system. The idea hereis not to replace the machine petty officer, whose experience and hearing finesse make it indispensable for thisposition, but to automate certain processing information to relieve the analyst and offer support to the decision.In this thesis, we are inspired by what is best in this area: the human. On board a submarine, they are experts inthe analysis of sounds that are entrusted to the listening task signals to identify suspicious sounds. Whatinterests us is the ability of the human to determine the class of a sound signal on the basis of his hearing.Indeed, the human ear has the power to differentiate two distinct sounds through psychoacoustic perceptualcriteria such as tone, pitch, intensity. The operator is also helped by representations of the sound signal in thetime-frequency plane coming displayed on the workstation. So we designed a representation that approximatesthe physiology of the human ear, i.e how humans hear and perceive frequencies. To construct thisrepresentation space, we will use an algorithm that we called the Hearingogram and a denoised version theDenoised Hearingoram. All these representations will input an automatic identification system, which wasdesigned during this thesis and is based on the use of SVM.Cette thèse a pour but de définir et concevoir de nouvelles techniques de représentation des signauxacoustiques sous-marins. Notre objectif est d’interpréter, reconnaître et identifier de façon automatique lessignaux sous-marins émanant du système sonar. L’idée ici n’est pas de substituer la machine à l’officiermarinier, dont l’expérience et la finesse d’ouïe le rendent indispensable à ce poste, mais d’automatiser certainstraitements de l’information pour soulager l’analyste et lui offrir une aide à la décision.Dans cette thèse, nous nous inspirons de ce qui se fait de mieux dans ce domaine : l’humain. A bord d’un sousmarin,ce sont des experts de l’analyse des sons à qui l’on confie la tâche d'écoute des signaux afin de repérerles sons suspects. Ce qui nous intéresse, c’est cette capacité de l’humain à déterminer la classe d’un signalsonore sur la base de son acuité auditive. En effet, l’oreille humaine a le pouvoir de différencier deux sonsdistincts à travers des critères perceptuels psycho-acoustiques tels que le timbre, la hauteur, l’intensité.L’opérateur est également aidé par des représentations du signal sonore dans le plan temps-fréquence quiviennent s’afficher sur son poste de travail. Ainsi nous avons conçu une représentation qui se rapproche de laphysiologie de l’oreille humaine, autrement dit de la façon dont l’homme entend et perçoit les fréquences. Pourconstruire cet espace de représentation, nous utiliserons un algorithme que nous avons appelé l’Hearingogramet sa version débruitée le Denoised Hearingoram. Toutes ces représentations seront en entrée d’un systèmed’identification automatique, qui a été conçu durant cette thèse et qui est basé sur l’utilisation des SVM

Thèses en Ligne

HAL AMU

Radiorésistance de lignées cellulaires humaines de gliobastomes : recherche de bloqueurs par métabolomique, lipidomique et transcriptomique

Author: Desoubzdanne-Dumont Denis
Publication venue
Publication date: 25/06/2010
Field of study

Les glioblastomes (GBM) sont les tumeurs cérébrales humaines les plus agressives. Les personnes atteintes de cette maladie meurent généralement dans l'année suivant le diagnostic. La radiothérapie, qui est de plus en plus utilisée en présence d'un agent radiosensibilisant, est systématiquement appliquée afin de diminuer la progression tumorale. Néanmoins, elle se heurte au phénomène de radiorésistance. Afin de proposer dans un avenir proche une thérapie adaptée à chaque patient, une classification moléculaire des GBM est en train de naître. Celle-ci tient notamment compte d'un biomarqueur prédictif de chimiorésistance, mais non de radiorésistance. Dans ce contexte, nous avons cherché, dans un premier temps, à identifier in vitro de potentiels biomarqueurs de radiorésistance dans quatre lignées cellulaires humaines de GBM de radiosensibilité différente. Pour cela, nous avons eu recours à des méthodes analytiques holistiques et robustes telles que la RMN 1H métabolomique, la lipidomique et la transcriptomique. Une accumulation de composés à choline dans les deux lignées les plus radiorésistantes a ainsi été mise en évidence. Une méthode d'analyse du métabolisme des phosphatidylcholines par marquage deutéré et quantification par HILIC-ESI-MS/MS a été mise au point afin de confirmer ces résultats. Dans une seconde partie, nous avons cherché à identifier in vitro de potentiels biomarqueurs de mort radio-induite dans des lignées cellulaires humaines de GBM radiosensibilisées. La RMN 1H métabolomique a été privilégiée pour cette investigation et complétée par des études lipidomique et de mort cellulaire par cytométrie en flux pour l'un des projets. La taurine a ainsi été identifiée comme potentiel biomarqueur de mort cellulaire.Glioblastomas (GBM) are the most aggressive human brain tumors. Indeed, patients most often die within the year after the diagnostic. Radiotherapy generally associated to radiosensitizers is currently systematically used to reduce tumor progression. Nevertheless, a radioresistance phenomenon still occurs. An individual treatment is hoped for each patient. For this purpose, a molecular classification of GBM has been created, taking into account biomarkers such as a predictive chimioresistance factor, but not radioresistance one. In this context, we have searched for in vitro radioresistance biomarkers in four human GBM cell lines with different radiosensitivity profiles. This corresponds to the first part of the PhD manuscript. Comprehensive and robust analytical methods such as 1H NMR metabolomics, lipidomics and transcriptomics have been used. An accumulation of choline compounds has been observed in the two more radioresistant cell lines. An analytical method using deuterated labelling and HILIC-ESI-MS/MS has been developed to study the metabolism of phosphatidylcholines in the four cell lines. In the second part of the PhD project, we have focused on potential in vitro biomarkers of radio-induced cell death in radiosensitized human GBM cell lines. For this, NMR 1H metabolomics has been chosen. Taurine has been found as a good candidate in a cell line. Lipidomics and FACS analyses have then been used to confirm this result

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Développement d'une approche opérationnelle pour l'identification automatique des peupleraies à large échelle par télédétection hypertemporelle. : De l'adaptation de domaine à la création d'un indice spectral dédié

Author: Hamrouni Yousra
Publication venue
Publication date: 08/10/2021
Field of study

Le peuplier cultivé constitue la première essence de feuillus plantée en France. Il joue un rôle économique de premier plan, notamment pour la production de bois-matériau, contreplaqués et emballages légers. Il est également valorisé dans l’industrie papetière. Pourtant, malgré l'importance de la filière, les surfaces couvertes en peupleraies à l'échelle nationale sont encore très incertaines. Selon la source de données utilisée (BD Forêt IGN, cadastre, inventaire forestier), les estimations montrent des écarts de plus de 50 000 ha. La fréquence de mise à jour de ces sources est inadaptée pour suivre le peuplier cultivé dont le cycle de rotation est court (15-20 ans). La télédétection satellitaire est utilisée depuis longtemps pour cartographier les milieux forestiers, qu'il s'agisse de forêts naturelles ou de plantations. Avec l'amélioration constante des caractéristiques spatiale, spectrale et temporelle des capteurs, il est possible d'envisager son appropriation dans un contexte opérationnel, pour un suivi régulier de la ressource sur de grandes étendues. L'objectif de cette thèse est double. Le premier est d'explorer le potentiel des séries temporelles d'images optiques Sentinel-2 pour distinguer automatiquement les peupleraies des autres essences de feuillus en tenant compte de la diversité des contextes populicoles. Le second est de proposer une stratégie de classification à l'échelle nationale en tenant compte de la nonstationnarité spatiale de la réponse spectrale des peupleraies, de l’hétérogénéité des acquisitions, et du nombre limité de données de référence. La démarche adoptée a consisté à étudier différentes techniques d'adaptation de domaine disponibles dans le champ de l'apprentissage automatique. Ces techniques, non supervisées ou semi-supervisées, ont permis de répondre aux contraintes de passage à l'échelle avec un nombre limité d'échantillons de référence supplémentaires. Cette étude a débouché sur la création d'une chaîne de traitement opérationnelle permettant de produire la première carte des plantations de peuplier à l'échelle nationale à partir d'images satellitaires. Elle s'appuie sur un nouvel indice spectral proposé -- le Poplar Index (PI) -- qui exploite les bandes du SWIR et du Red edge des données Sentinel-2. Cet indice, et son évolution annuelle, ont permis de reconnaître les peupleraies avec une précision producteur de près de 95%. Le résultat de ce travail offre à la filière populicole une méthode robuste pour assurer une production annuelle d'une carte des peupleraies avec un niveau de fiabilité adapté

Thèses en Ligne

Open Archive Toulouse Archive Ouverte

Conception et réalisation d’un système d’évaluation des comportements anormaux des opérateurs dans un milieu industriel

Author: Amamou Houssem
Publication venue
Publication date: 01/01/2017
Field of study

Avec la disponibilité grandissante des capteurs et des réseaux de capteurs à coûts réduits, la reconnaissance d’activités humaines, grâce à des vêtements intelligents, fait l’objet de nombreuses recherches dans le domaine de l’intelligence artificielle et plus particulièrement la sécurité et la surveillance non-invasif dans les milieux intelligents dont les maisons intelligentes, les villes intelligentes et, plus récemment, les industries intelligentes. Dans ces travaux de recherche, une nouvelle approche de détection de comportements anormaux utilisant des capteurs sans fil a été présentée et évaluée. De ce fait, il s’avère nécessaire de concevoir une méthode permettant d’analyser et de comprendre le comportement humain dans ses activités industrielles et d’interpréter les caractéristiques qui y sont liées afin d’évaluer un risque d’accident en temps réel. L’approche proposée est divisée en deux étapes afin de répondre aux problèmes des approches traditionnelles qui souffrent d’un taux élevé de faux positifs car les événements anormaux sont rares par rapport aux activités normales. D’une part, nous avons investigué les algorithmes de reconnaissance d’activités utilisant des capteurs de mouvement portés sur le corps humain. D’autre part, nous avons étudié les méthodes proposées afin de segmenter les données des capteurs. Ces lectures nous ont permis d’effectuer des choix judicieux permettant la réalisation de notre méthode. Comme notre problème se caractérise par la rareté des activités anormales, nous ne pouvons effectuer une méthode d’entraînement traditionnel d’apprentissage automatique de notre algorithme sur ce type d’activités. Afin de résoudre ce problème, l’approche adoptée utilise en premier lieu une machine à vecteurs de support entraînée sur des activités normales, ce qui nous permet de filtrer les activités ayant une forte probabilité d’être normales. Dans un second lieu, on dérive des modèles d’activités anormales à partir d’un modèle générale d’activité normale via une régression à noyau non-linéaire afin de réduire le taux de faux positifs. Afin d’évaluer et de démontrer la fonctionnalité de l’approche suggérée dans ces travaux, des expériences ont permis d’avoir des résultats qui ont été analysés. Ces résultats montrent un bon compromis entre la détection d’activités anormales et le taux de fausses alertes. Cette approche bénéficie du fait qu’elle permet automatiquement de générer les modèles d’activités anormales sans avoir le besoin de les connaître en avance. Ces expérimentations démontrent l’efficacité de l’approche utilisée avec des vêtements de protection individuelle conçus dans le cadre de ce projet de recherche

Constellation