131 research outputs found

    Applications de méthodes de classification non supervisées à la détection d'anomalies

    Get PDF
    Dans ce prĂ©sent mĂ©moire, nous prĂ©senterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forĂȘt d’isolation. Les arbres binaires sont des classificateurs trĂšs populaires dans le domaine de l’apprentissage automatique supervisĂ©. La forĂȘt d’isolation appartient Ă  la famille des mĂ©thodes non supervisĂ©es. Il s’agit d’un ensemble d’arbres binaires employĂ©s en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous prĂ©senterons l’approche que nous avons nommĂ©e "Exponential smoothig" (ou "pooling"). Cette technique consiste Ă  encoder des sĂ©quences de variables de longueurs diffĂ©rentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mĂ©moire est d’appliquer l’algorithme des forĂȘts d’isolation pour identifier les anomalies dans les rĂ©clamations et les formulaires d’assurances disponibles dans la base de donnĂ©es d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une sĂ©quence de rĂ©clamations. Chaque rĂ©clamation est caractĂ©risĂ©e par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forĂȘts d’isolation directement sur ce genre de donnĂ©es. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement Ă  isoler des rĂ©clamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances Ă  ĂȘtre auditĂ©s parla compagnie que les formulaires normaux.In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms

    MĂ©thodes statistiques de dĂ©tection d’observations atypiques pour des donnĂ©es en grande dimension

    Get PDF
    La dĂ©tection d’observations atypiques de maniĂšre non-supervisĂ©e est un enjeu crucial dans la pratique de la statistique. Dans le domaine de la dĂ©tection de dĂ©fauts industriels, cette tĂąche est d’une importance capitale pour assurer une production de haute qualitĂ©. Avec l’accroissement exponentiel du nombre de mesures effectuĂ©es sur les composants Ă©lectroniques, la problĂ©matique de la grande dimension se pose lors de la recherche d’anomalies. Pour relever ce challenge, l’entreprise ippon innovation, spĂ©cialiste en statistique industrielle et dĂ©tection d’anomalies, s’est associĂ©e au laboratoire de recherche TSE-R en finançant ce travail de thĂšse. Le premier chapitre commence par prĂ©senter le contexte du contrĂŽle de qualitĂ© et les diffĂ©rentes procĂ©dures dĂ©jĂ  mises en place, principalement dans les entreprises de semi-conducteurs pour l’automobile. Comme ces pratiques ne rĂ©pondent pas aux nouvelles attentes requises par le traitement de donnĂ©es en grande dimension, d’autres solutions doivent ĂȘtre envisagĂ©es. La suite du chapitre rĂ©sume l’ensemble des mĂ©thodes multivariĂ©es et non supervisĂ©es de dĂ©tection d’observations atypiques existantes, en insistant tout particuliĂšrement sur celles qui gĂšrent des donnĂ©es en grande dimension. Le Chapitre 2 montre thĂ©oriquement que la trĂšs connue distance de Mahalanobis n’est pas adaptĂ©e Ă  la dĂ©tection d’anomalies si celles-ci sont contenues dans un sous-espace de petite dimension alors que le nombre de variables est grand.Dans ce contexte, la mĂ©thode Invariant Coordinate Selection (ICS) est alors introduite comme une alternative intĂ©ressante Ă  la mise en Ă©vidence de la structure des donnĂ©es atypiques. Une mĂ©thodologie pour sĂ©lectionner seulement les composantes d’intĂ©rĂȘt est proposĂ©e et ses performances sont comparĂ©es aux standards habituels sur des simulations ainsi que sur des exemples rĂ©els industriels. Cette nouvelle procĂ©dure a Ă©tĂ© mise en oeuvre dans un package R, ICSOutlier, prĂ©sentĂ© dans le Chapitre 3 ainsi que dans une application R shiny (package ICSShiny) qui rend son utilisation plus simple et plus attractive.Une des consĂ©quences directes de l’augmentation du nombre de dimensions est la singularitĂ© des estimateurs de dispersion multivariĂ©s, dĂšs que certaines variables sont colinĂ©aires ou que leur nombre excĂšde le nombre d’individus. Or, la dĂ©finition d’ICS par Tyler et al. (2009) se base sur des estimateurs de dispersion dĂ©finis positifs. Le Chapitre 4 envisage diffĂ©rentes pistes pour adapter le critĂšre d’ICS et investigue de maniĂšre thĂ©orique les propriĂ©tĂ©s de chacune des propositions prĂ©sentĂ©es. La question de l’affine invariance de la mĂ©thode est en particulier Ă©tudiĂ©e. Enfin le dernier chapitre, se consacre Ă  l’algorithme dĂ©veloppĂ© pour l’entreprise. Bien que cet algorithme soit confidentiel, le chapitre donne les idĂ©es gĂ©nĂ©rales et prĂ©cise les challenges relevĂ©s, notamment numĂ©riques.The unsupervised outlier detection is a crucial issue in statistics. More specifically, in the industrial context of fault detection, this task is of great importance for ensuring a high quality production. With the exponential increase in the number of measurements on electronic components, the concern of high dimensional data arises in the identification of outlying observations. The ippon innovation company, an expert in industrial statistics and anomaly detection, wanted to deal with this new situation. So, it collaborated with the TSE-R research laboratory by financing this thesis work. The first chapter presents the quality control context and the different procedures mainly used in the automotive industry of semiconductors. However, these practices do not meet the new expectations required in dealing with high dimensional data, so other solutions need to be considered. The remainder of the chapter summarizes unsupervised multivariate methods for outlier detection, with a particular emphasis on those dealing with high dimensional data. Chapter 2 demonstrates that the well-known Mahalanobis distance presents some difficulties to detect the outlying observations that lie in a smaller subspace while the number of variables is large. In this context, the Invariant Coordinate Selection (ICS) method is introduced as an interesting alternative for highlighting the structure of outlierness. A methodology for selecting only the relevant components is proposed. A simulation study provides a comparison with benchmark methods. The performance of our proposal is also evaluated on real industrial data sets. This new procedure has been implemented in an R package, ICSOutlier, presented in Chapter 3, and in an R shiny application (package ICSShiny) that makes it more user-friendly. When the number of dimensions increases, the multivariate scatter matrices turn out to be singular as soon as some variables are collinear or if their number exceeds the number of individuals. However, in the presentation of ICS by Tyler et al. (2009), the scatter estimators are defined as positive definite matrices. Chapter 4 proposes three different ways for adapting the ICS method to singular scatter matrices and theoretically investigates their properties. The question of affine invariance is analyzed in particular. Finally, the last chapter is dedicated to the algorithm developed for the company. Although the algorithm is confidential, the chapter presents the main ideas and the challenges, mostly numerical, encountered during its development

    MĂ©thodes statistiques de dĂ©tection d’observations atypiques pour des donnĂ©es en grande dimension

    Get PDF
    La dĂ©tection d’observations atypiques de maniĂšre non-supervisĂ©e est un enjeu crucial dans la pratique de la statistique. Dans le domaine de la dĂ©tection de dĂ©fauts industriels, cette tĂąche est d’une importance capitale pour assurer une production de haute qualitĂ©. Avec l’accroissement exponentiel du nombre de mesures effectuĂ©es sur les composants Ă©lectroniques, la problĂ©matique de la grande dimension se pose lors de la recherche d’anomalies. Pour relever ce challenge, l’entreprise ippon innovation, spĂ©cialiste en statistique industrielle et dĂ©tection d’anomalies, s’est associĂ©e au laboratoire de recherche TSE-R en finançant ce travail de thĂšse. Le premier chapitre commence par prĂ©senter le contexte du contrĂŽle de qualitĂ© et les diffĂ©rentes procĂ©dures dĂ©jĂ  mises en place, principalement dans les entreprises de semi-conducteurs pour l’automobile. Comme ces pratiques ne rĂ©pondent pas aux nouvelles attentes requises par le traitement de donnĂ©es en grande dimension, d’autres solutions doivent ĂȘtre envisagĂ©es. La suite du chapitre rĂ©sume l’ensemble des mĂ©thodes multivariĂ©es et non supervisĂ©es de dĂ©tection d’observations atypiques existantes, en insistant tout particuliĂšrement sur celles qui gĂšrent des donnĂ©es en grande dimension. Le Chapitre 2 montre thĂ©oriquement que la trĂšs connue distance de Mahalanobis n’est pas adaptĂ©e Ă  la dĂ©tection d’anomalies si celles-ci sont contenues dans un sous-espace de petite dimension alors que le nombre de variables est grand.Dans ce contexte, la mĂ©thode Invariant Coordinate Selection (ICS) est alors introduite comme une alternative intĂ©ressante Ă  la mise en Ă©vidence de la structure des donnĂ©es atypiques. Une mĂ©thodologie pour sĂ©lectionner seulement les composantes d’intĂ©rĂȘt est proposĂ©e et ses performances sont comparĂ©es aux standards habituels sur des simulations ainsi que sur des exemples rĂ©els industriels. Cette nouvelle procĂ©dure a Ă©tĂ© mise en oeuvre dans un package R, ICSOutlier, prĂ©sentĂ© dans le Chapitre 3 ainsi que dans une application R shiny (package ICSShiny) qui rend son utilisation plus simple et plus attractive.Une des consĂ©quences directes de l’augmentation du nombre de dimensions est la singularitĂ© des estimateurs de dispersion multivariĂ©s, dĂšs que certaines variables sont colinĂ©aires ou que leur nombre excĂšde le nombre d’individus. Or, la dĂ©finition d’ICS par Tyler et al. (2009) se base sur des estimateurs de dispersion dĂ©finis positifs. Le Chapitre 4 envisage diffĂ©rentes pistes pour adapter le critĂšre d’ICS et investigue de maniĂšre thĂ©orique les propriĂ©tĂ©s de chacune des propositions prĂ©sentĂ©es. La question de l’affine invariance de la mĂ©thode est en particulier Ă©tudiĂ©e. Enfin le dernier chapitre, se consacre Ă  l’algorithme dĂ©veloppĂ© pour l’entreprise. Bien que cet algorithme soit confidentiel, le chapitre donne les idĂ©es gĂ©nĂ©rales et prĂ©cise les challenges relevĂ©s, notamment numĂ©riques.The unsupervised outlier detection is a crucial issue in statistics. More specifically, in the industrial context of fault detection, this task is of great importance for ensuring a high quality production. With the exponential increase in the number of measurements on electronic components, the concern of high dimensional data arises in the identification of outlying observations. The ippon innovation company, an expert in industrial statistics and anomaly detection, wanted to deal with this new situation. So, it collaborated with the TSE-R research laboratory by financing this thesis work. The first chapter presents the quality control context and the different procedures mainly used in the automotive industry of semiconductors. However, these practices do not meet the new expectations required in dealing with high dimensional data, so other solutions need to be considered. The remainder of the chapter summarizes unsupervised multivariate methods for outlier detection, with a particular emphasis on those dealing with high dimensional data. Chapter 2 demonstrates that the well-known Mahalanobis distance presents some difficulties to detect the outlying observations that lie in a smaller subspace while the number of variables is large. In this context, the Invariant Coordinate Selection (ICS) method is introduced as an interesting alternative for highlighting the structure of outlierness. A methodology for selecting only the relevant components is proposed. A simulation study provides a comparison with benchmark methods. The performance of our proposal is also evaluated on real industrial data sets. This new procedure has been implemented in an R package, ICSOutlier, presented in Chapter 3, and in an R shiny application (package ICSShiny) that makes it more user-friendly. When the number of dimensions increases, the multivariate scatter matrices turn out to be singular as soon as some variables are collinear or if their number exceeds the number of individuals. However, in the presentation of ICS by Tyler et al. (2009), the scatter estimators are defined as positive definite matrices. Chapter 4 proposes three different ways for adapting the ICS method to singular scatter matrices and theoretically investigates their properties. The question of affine invariance is analyzed in particular. Finally, the last chapter is dedicated to the algorithm developed for the company. Although the algorithm is confidential, the chapter presents the main ideas and the challenges, mostly numerical, encountered during its development

    Clustering incrémental et méthodes de détection de nouveauté : application à l'analyse intelligente d'informations évoluant au cours du temps

    Get PDF
    Série Environnements et services numériques d'information Bibliographie en fin de chapitres. Notes bibliogr. IndexNational audienceLearning algorithms proved their ability to deal with large amount of data. Most of the statistical approaches use defined size learning sets and produce static models. However in specific situations: active or incremental learning, the learning task starts with only very few data. In that case, looking for algorithms able to produce models with only few examples becomes necessary. The literature's classifiers are generally evaluated with criteria such as: accuracy, ability to order data (ranking)... But this classifiers' taxonomy can really change if the focus is on the ability to learn with just few examples. To our knowledge, just few studies were performed on this problem. This study aims to study a larger panel of both algorithms (9 different kinds) and data sets (17 UCI bases)

    Méthode d'analyse de données pour le diagnostic a posteriori de défauts de production - Application au secteur de la microélectronique

    Get PDF
    Controlling the performance of a manufacturing site and the rapid identification of quality loss causes remain a daily challenge for manufacturers, who face continuing competition. In this context, this thesis aims to provide an analytical approach for the rapid identification of defect origins, by exploring data available thanks to different quality control systems, such FDC, metrology, parametric tests PT and the Electrical Wafer Sorting EWS. The proposed method, named CLARIF, combines three complementary data mining techniques namely clustering, association rules and decision trees induction. This method is based on unsupervised generation of a set of potentially problematic production modes, which are characterized by specific manufacturing conditions. Thus, we provide an analysis which descends to the level of equipment operating parameters. The originality of this method consists on (1) a pre-treatment step to identify spatial patterns from quality control data, (2) an unsupervised generation of manufacturing modes candidates to explain the quality loss case. We optimize the generation of association rules through the proposed ARCI algorithm, which is an adaptation of the famous association rules mining algorithm, APRIORI to integrate the constraints specific to our issue and filtering quality indicators, namely confidence, contribution and complexity, in order to identify the most interesting rules. Finally, we defined a Knowledge Discovery from Databases process, enabling to guide the user in applying CLARIF to explain both local and global quality loss problems.La maĂźtrise du rendement d’un site de fabrication et l’identification rapide des causes de perte de qualitĂ© restent un dĂ©fi quotidien pour les industriels, qui font face Ă  une concurrence continue. Dans ce cadre, cette thĂšse a pour ambition de proposer une dĂ©marche d’analyse permettant l’identification rapide de l’origine d’un dĂ©faut, Ă  travers l’exploitation d’un maximum des donnĂ©es disponibles grĂące aux outils de contrĂŽle qualitĂ©, tel que la FDC, la mĂ©trologie, les tests paramĂ©triques PT, et le tri Ă©lectriques EWS. Nous avons proposĂ© une nouvelle mĂ©thode hybride de fouille de donnĂ©es, nommĂ©e CLARIF, qui combine trois mĂ©thodes de fouille de donnĂ©es Ă  savoir, le clustering, les rĂšgles d’association et l’induction d’arbres de dĂ©cision. Cette mĂ©thode se base sur la gĂ©nĂ©ration non supervisĂ©e d’un ensemble de modes de production potentiellement problĂ©matiques, qui sont caractĂ©risĂ©s par des conditions particuliĂšres de production. Elle permet, donc, une analyse qui descend au niveau des paramĂštres de fonctionnement des Ă©quipements. L’originalitĂ© de la mĂ©thode consiste dans (1) une Ă©tape de prĂ©traitement pour l’identification de motifs spatiaux Ă  partir des donnĂ©es de contrĂŽle, (2) la gĂ©nĂ©ration non supervisĂ©e de modes de production candidats pour expliquer le dĂ©faut. Nous optimisons la gĂ©nĂ©ration des rĂšgles d’association Ă  travers la proposition de l’algorithme ARCI, qui est une adaptation du cĂ©lĂšbre algorithme de fouille de rĂšgles d’association, APRIORI, afin de permettre d’intĂ©grer les contraintes spĂ©cifiques Ă  la problĂ©matique de CLARIF, et des indicateurs de qualitĂ© de filtrage des rĂšgles Ă  identifier, Ă  savoir la confiance, la contribution et la complexitĂ©. Finalement, nous avons dĂ©fini un processus d’Extraction de Connaissances Ă  partir des DonnĂ©es, ECD permettant de guider l’utilisateur dans l’application de CLARIF pour expliquer une perte de qualitĂ© locale ou globale

    Représentation et reconnaissance des signaux acoustiques sous-marins

    Get PDF
    This thesis aims to identify and develop new representation methods of the underwater acoustic signals. Ourgoal is to interpret, recognize and automatically identify underwater signals from sonar system. The idea hereis not to replace the machine petty officer, whose experience and hearing finesse make it indispensable for thisposition, but to automate certain processing information to relieve the analyst and offer support to the decision.In this thesis, we are inspired by what is best in this area: the human. On board a submarine, they are experts inthe analysis of sounds that are entrusted to the listening task signals to identify suspicious sounds. Whatinterests us is the ability of the human to determine the class of a sound signal on the basis of his hearing.Indeed, the human ear has the power to differentiate two distinct sounds through psychoacoustic perceptualcriteria such as tone, pitch, intensity. The operator is also helped by representations of the sound signal in thetime-frequency plane coming displayed on the workstation. So we designed a representation that approximatesthe physiology of the human ear, i.e how humans hear and perceive frequencies. To construct thisrepresentation space, we will use an algorithm that we called the Hearingogram and a denoised version theDenoised Hearingoram. All these representations will input an automatic identification system, which wasdesigned during this thesis and is based on the use of SVM.Cette thĂšse a pour but de dĂ©finir et concevoir de nouvelles techniques de reprĂ©sentation des signauxacoustiques sous-marins. Notre objectif est d’interprĂ©ter, reconnaĂźtre et identifier de façon automatique lessignaux sous-marins Ă©manant du systĂšme sonar. L’idĂ©e ici n’est pas de substituer la machine Ă  l’officiermarinier, dont l’expĂ©rience et la finesse d’ouĂŻe le rendent indispensable Ă  ce poste, mais d’automatiser certainstraitements de l’information pour soulager l’analyste et lui offrir une aide Ă  la dĂ©cision.Dans cette thĂšse, nous nous inspirons de ce qui se fait de mieux dans ce domaine : l’humain. A bord d’un sousmarin,ce sont des experts de l’analyse des sons Ă  qui l’on confie la tĂąche d'Ă©coute des signaux afin de repĂ©rerles sons suspects. Ce qui nous intĂ©resse, c’est cette capacitĂ© de l’humain Ă  dĂ©terminer la classe d’un signalsonore sur la base de son acuitĂ© auditive. En effet, l’oreille humaine a le pouvoir de diffĂ©rencier deux sonsdistincts Ă  travers des critĂšres perceptuels psycho-acoustiques tels que le timbre, la hauteur, l’intensitĂ©.L’opĂ©rateur est Ă©galement aidĂ© par des reprĂ©sentations du signal sonore dans le plan temps-frĂ©quence quiviennent s’afficher sur son poste de travail. Ainsi nous avons conçu une reprĂ©sentation qui se rapproche de laphysiologie de l’oreille humaine, autrement dit de la façon dont l’homme entend et perçoit les frĂ©quences. Pourconstruire cet espace de reprĂ©sentation, nous utiliserons un algorithme que nous avons appelĂ© l’Hearingogramet sa version dĂ©bruitĂ©e le Denoised Hearingoram. Toutes ces reprĂ©sentations seront en entrĂ©e d’un systĂšmed’identification automatique, qui a Ă©tĂ© conçu durant cette thĂšse et qui est basĂ© sur l’utilisation des SVM

    Radiorésistance de lignées cellulaires humaines de gliobastomes : recherche de bloqueurs par métabolomique, lipidomique et transcriptomique

    Get PDF
    Les glioblastomes (GBM) sont les tumeurs cérébrales humaines les plus agressives. Les personnes atteintes de cette maladie meurent généralement dans l'année suivant le diagnostic. La radiothérapie, qui est de plus en plus utilisée en présence d'un agent radiosensibilisant, est systématiquement appliquée afin de diminuer la progression tumorale. Néanmoins, elle se heurte au phénomÚne de radiorésistance. Afin de proposer dans un avenir proche une thérapie adaptée à chaque patient, une classification moléculaire des GBM est en train de naßtre. Celle-ci tient notamment compte d'un biomarqueur prédictif de chimiorésistance, mais non de radiorésistance. Dans ce contexte, nous avons cherché, dans un premier temps, à identifier in vitro de potentiels biomarqueurs de radiorésistance dans quatre lignées cellulaires humaines de GBM de radiosensibilité différente. Pour cela, nous avons eu recours à des méthodes analytiques holistiques et robustes telles que la RMN 1H métabolomique, la lipidomique et la transcriptomique. Une accumulation de composés à choline dans les deux lignées les plus radiorésistantes a ainsi été mise en évidence. Une méthode d'analyse du métabolisme des phosphatidylcholines par marquage deutéré et quantification par HILIC-ESI-MS/MS a été mise au point afin de confirmer ces résultats. Dans une seconde partie, nous avons cherché à identifier in vitro de potentiels biomarqueurs de mort radio-induite dans des lignées cellulaires humaines de GBM radiosensibilisées. La RMN 1H métabolomique a été privilégiée pour cette investigation et complétée par des études lipidomique et de mort cellulaire par cytométrie en flux pour l'un des projets. La taurine a ainsi été identifiée comme potentiel biomarqueur de mort cellulaire.Glioblastomas (GBM) are the most aggressive human brain tumors. Indeed, patients most often die within the year after the diagnostic. Radiotherapy generally associated to radiosensitizers is currently systematically used to reduce tumor progression. Nevertheless, a radioresistance phenomenon still occurs. An individual treatment is hoped for each patient. For this purpose, a molecular classification of GBM has been created, taking into account biomarkers such as a predictive chimioresistance factor, but not radioresistance one. In this context, we have searched for in vitro radioresistance biomarkers in four human GBM cell lines with different radiosensitivity profiles. This corresponds to the first part of the PhD manuscript. Comprehensive and robust analytical methods such as 1H NMR metabolomics, lipidomics and transcriptomics have been used. An accumulation of choline compounds has been observed in the two more radioresistant cell lines. An analytical method using deuterated labelling and HILIC-ESI-MS/MS has been developed to study the metabolism of phosphatidylcholines in the four cell lines. In the second part of the PhD project, we have focused on potential in vitro biomarkers of radio-induced cell death in radiosensitized human GBM cell lines. For this, NMR 1H metabolomics has been chosen. Taurine has been found as a good candidate in a cell line. Lipidomics and FACS analyses have then been used to confirm this result

    Développement d'une approche opérationnelle pour l'identification automatique des peupleraies à large échelle par télédétection hypertemporelle. : De l'adaptation de domaine à la création d'un indice spectral dédié

    Get PDF
    Le peuplier cultivĂ© constitue la premiĂšre essence de feuillus plantĂ©e en France. Il joue un rĂŽle Ă©conomique de premier plan, notamment pour la production de bois-matĂ©riau, contreplaquĂ©s et emballages lĂ©gers. Il est Ă©galement valorisĂ© dans l’industrie papetiĂšre. Pourtant, malgrĂ© l'importance de la filiĂšre, les surfaces couvertes en peupleraies Ă  l'Ă©chelle nationale sont encore trĂšs incertaines. Selon la source de donnĂ©es utilisĂ©e (BD ForĂȘt IGN, cadastre, inventaire forestier), les estimations montrent des Ă©carts de plus de 50 000 ha. La frĂ©quence de mise Ă  jour de ces sources est inadaptĂ©e pour suivre le peuplier cultivĂ© dont le cycle de rotation est court (15-20 ans). La tĂ©lĂ©dĂ©tection satellitaire est utilisĂ©e depuis longtemps pour cartographier les milieux forestiers, qu'il s'agisse de forĂȘts naturelles ou de plantations. Avec l'amĂ©lioration constante des caractĂ©ristiques spatiale, spectrale et temporelle des capteurs, il est possible d'envisager son appropriation dans un contexte opĂ©rationnel, pour un suivi rĂ©gulier de la ressource sur de grandes Ă©tendues. L'objectif de cette thĂšse est double. Le premier est d'explorer le potentiel des sĂ©ries temporelles d'images optiques Sentinel-2 pour distinguer automatiquement les peupleraies des autres essences de feuillus en tenant compte de la diversitĂ© des contextes populicoles. Le second est de proposer une stratĂ©gie de classification Ă  l'Ă©chelle nationale en tenant compte de la nonstationnaritĂ© spatiale de la rĂ©ponse spectrale des peupleraies, de l’hĂ©tĂ©rogĂ©nĂ©itĂ© des acquisitions, et du nombre limitĂ© de donnĂ©es de rĂ©fĂ©rence. La dĂ©marche adoptĂ©e a consistĂ© Ă  Ă©tudier diffĂ©rentes techniques d'adaptation de domaine disponibles dans le champ de l'apprentissage automatique. Ces techniques, non supervisĂ©es ou semi-supervisĂ©es, ont permis de rĂ©pondre aux contraintes de passage Ă  l'Ă©chelle avec un nombre limitĂ© d'Ă©chantillons de rĂ©fĂ©rence supplĂ©mentaires. Cette Ă©tude a dĂ©bouchĂ© sur la crĂ©ation d'une chaĂźne de traitement opĂ©rationnelle permettant de produire la premiĂšre carte des plantations de peuplier Ă  l'Ă©chelle nationale Ă  partir d'images satellitaires. Elle s'appuie sur un nouvel indice spectral proposĂ© -- le Poplar Index (PI) -- qui exploite les bandes du SWIR et du Red edge des donnĂ©es Sentinel-2. Cet indice, et son Ă©volution annuelle, ont permis de reconnaĂźtre les peupleraies avec une prĂ©cision producteur de prĂšs de 95%. Le rĂ©sultat de ce travail offre Ă  la filiĂšre populicole une mĂ©thode robuste pour assurer une production annuelle d'une carte des peupleraies avec un niveau de fiabilitĂ© adaptĂ©

    Conception et rĂ©alisation d’un systĂšme d’évaluation des comportements anormaux des opĂ©rateurs dans un milieu industriel

    Get PDF
    Avec la disponibilitĂ© grandissante des capteurs et des rĂ©seaux de capteurs Ă  coĂ»ts rĂ©duits, la reconnaissance d’activitĂ©s humaines, grĂące Ă  des vĂȘtements intelligents, fait l’objet de nombreuses recherches dans le domaine de l’intelligence artificielle et plus particuliĂšrement la sĂ©curitĂ© et la surveillance non-invasif dans les milieux intelligents dont les maisons intelligentes, les villes intelligentes et, plus rĂ©cemment, les industries intelligentes. Dans ces travaux de recherche, une nouvelle approche de dĂ©tection de comportements anormaux utilisant des capteurs sans fil a Ă©tĂ© prĂ©sentĂ©e et Ă©valuĂ©e. De ce fait, il s’avĂšre nĂ©cessaire de concevoir une mĂ©thode permettant d’analyser et de comprendre le comportement humain dans ses activitĂ©s industrielles et d’interprĂ©ter les caractĂ©ristiques qui y sont liĂ©es afin d’évaluer un risque d’accident en temps rĂ©el. L’approche proposĂ©e est divisĂ©e en deux Ă©tapes afin de rĂ©pondre aux problĂšmes des approches traditionnelles qui souffrent d’un taux Ă©levĂ© de faux positifs car les Ă©vĂ©nements anormaux sont rares par rapport aux activitĂ©s normales. D’une part, nous avons investiguĂ© les algorithmes de reconnaissance d’activitĂ©s utilisant des capteurs de mouvement portĂ©s sur le corps humain. D’autre part, nous avons Ă©tudiĂ© les mĂ©thodes proposĂ©es afin de segmenter les donnĂ©es des capteurs. Ces lectures nous ont permis d’effectuer des choix judicieux permettant la rĂ©alisation de notre mĂ©thode. Comme notre problĂšme se caractĂ©rise par la raretĂ© des activitĂ©s anormales, nous ne pouvons effectuer une mĂ©thode d’entraĂźnement traditionnel d’apprentissage automatique de notre algorithme sur ce type d’activitĂ©s. Afin de rĂ©soudre ce problĂšme, l’approche adoptĂ©e utilise en premier lieu une machine Ă  vecteurs de support entraĂźnĂ©e sur des activitĂ©s normales, ce qui nous permet de filtrer les activitĂ©s ayant une forte probabilitĂ© d’ĂȘtre normales. Dans un second lieu, on dĂ©rive des modĂšles d’activitĂ©s anormales Ă  partir d’un modĂšle gĂ©nĂ©rale d’activitĂ© normale via une rĂ©gression Ă  noyau non-linĂ©aire afin de rĂ©duire le taux de faux positifs. Afin d’évaluer et de dĂ©montrer la fonctionnalitĂ© de l’approche suggĂ©rĂ©e dans ces travaux, des expĂ©riences ont permis d’avoir des rĂ©sultats qui ont Ă©tĂ© analysĂ©s. Ces rĂ©sultats montrent un bon compromis entre la dĂ©tection d’activitĂ©s anormales et le taux de fausses alertes. Cette approche bĂ©nĂ©ficie du fait qu’elle permet automatiquement de gĂ©nĂ©rer les modĂšles d’activitĂ©s anormales sans avoir le besoin de les connaĂźtre en avance. Ces expĂ©rimentations dĂ©montrent l’efficacitĂ© de l’approche utilisĂ©e avec des vĂȘtements de protection individuelle conçus dans le cadre de ce projet de recherche
    • 

    corecore