82 research outputs found

    Estimation parcimonieuse et apprentissage de dictionnaires pour la détection d'anomalies multivariées dans des données mixtes de télémesure satellites

    Get PDF
    La surveillance automatique de systèmes et la prévention des pannes sont des enjeux majeurs dans de nombreux secteurs et l'industrie spatiale ne fait pas exception. Par exemple, le succès des missions des satellites suppose un suivi constant de leur état de santé réalisé à travers la surveillance de la télémesure. Les signaux de télémesure sont des données issues de capteurs embarqués qui sont reçues sous forme de séries temporelles décrivant l'évolution dans le temps de différents paramètres. Chaque paramètre est associé \`a une grandeur physique telle qu'une température, une tension ou une pression, ou à un équipement dont il reporte le fonctionnement à chaque instant. Alors que les approches classiques de surveillance atteignent leurs limites, les méthodes d'apprentissage automatique (machine learning en anglais) s'imposent afin d'améliorer la surveillance de la télémesure via un apprentissage semi-supervisé: les signaux de télémesure associés à un fonctionnement normal du système sont appris pour construire un modèle de référence auquel sont comparés les signaux de télémesure récemment acquis. Les méthodes récentes proposées dans la littérature ont permis d'améliorer de manière significative le suivi de l'état de santé des satellites mais elles s'intéressent presque exclusivement à la détection d'anomalies univariées pour des paramètres physiques traités indépendamment. L'objectif de cette thèse est de proposer des algorithmes pour la détection d'anomalies multivariées capables de traiter conjointement plusieurs paramètres de télémesure associés à des données de différentes natures (continues/discrètes), et de prendre en compte les corrélations et les relations qui peuvent exister entre eux. L'idée motrice de cette thèse est de supposer que la télémesure fraîchement reçue peut être estimée à partir de peu de données décrivant un fonctionnement normal du satellite. Cette hypothèse justifie l'utilisation de méthodes d'estimation parcimonieuse et d'apprentissage de dictionnaires qui seront étudiées tout au long de cette thèse. Une deuxième forme de parcimonie propre aux anomalies satellites a également motivé ce choix, à savoir la rareté des anomalies satellites qui affectent peu de paramètres en même temps. Dans un premier temps, un algorithme de détection d'anomalies multivariées basé sur un modèle d'estimation parcimonieuse est proposé. Une extension pondérée du modèle permettant d'intégrer de l'information externe est également présentée ainsi qu'une méthode d'estimation d'hyperparamètres qui a été developpée pour faciliter la mise en œuvre de l'algorithme. Dans un deuxième temps, un modèle d'estimation parcimonieuse avec un dictionnaire convolutif est proposé. L'objectif de cette deuxième méthode est de contourner le problème de non-invariance par translation dont souffre le premier algorithme. Les différentes méthodes proposées sont évaluées sur plusieurs cas d'usage industriels associés à de réelles données satellites et sont comparées aux approches de l'état de l'art

    Contribution à la conception d'un système d'aide à la décision pour la gestion de situations de tension au sein des systèmes hospitaliers. Application à un service d'urgence.

    Get PDF
    The management of patient flow, especially the flow resulting from health (flu, heat waves and exceptional circumstances) is one of the most important problems to manage in the emergency department (ED). To handle the influx of patients, emergency departments require significant human and material resources, and a high degree of coordination between these resources. Under these conditions, the medical and the paramedical staffs are often confronted with strain situations which greatly complicate their task. The main purpose of this thesis is to contribute to improving the management of situations of tension occurring in the emergency department by providing a decision support system, SAGEST. This DSS allows i) a proactive control of the ED: predicting at short and/or medium-term the occurrence of potential strain situations and proposing corrective actions to prevent the occurrence of these situations, ii) a reactive control in the case of no-detection of the strain situation occurrence. A functional architecture of the SAGEST system, based on the manager’s decision making process is proposed. Used methodologies and models embedded in the main functions and the knowledge base of the SAGEST system are described. Finally, experiments and results of different models of SAGEST system applied to the paediatric emergency department (PED) of the Regional University Hospital of Lille are presented and discussed.La prise en charge des flux des patients, en particulier les flux récurrents et consécutifs à des crises sanitaires (grippes, canicules, situations exceptionnelles) est l'un des problèmes les plus importants auquel les services des urgences (SU) doivent faire face. Pour gérer cet afflux de patients, les services des urgences nécessitent des ressources humaines et matérielles importantes, ainsi qu'un degré élevé de coordination entre ces ressources. Dans ces conditions, le personnel médical se voit confronté très fréquemment à des situations de tension qui compliquent très fortement sa tâche. L‘objet de cette thèse est de contribuer à l’amélioration de la gestion des situations de tension se produisant dans un service d’urgence en proposant un système d’aide à la décision, SAGEST (Système d’Aide à la décision pour la GEstion des Situations de Tensions), permettant i) le pilotage proactif du SU : prévision à court et/ou moyen terme de l'apparition de situations de tension et l'évolution du flux patients et la proposition d'actions de correction afin d'éviter l’occurrence de ces situations et ii) le pilotage réactif dans le cas où l'occurrence de la situation de tension n'a pas été détectée. Une architecture fonctionnelle du système SAGEST, s'appuyant sur le processus décisionnel du responsable du service d'urgence, est proposée. Les méthodologies et les modèles utilisés dans la construction des principales fonctions et de la base de connaissances sont décrits. Enfin, les résultats d’application des différents modèles du système SAGEST pour le service d’urgence pédiatrique (SUP) du centre hospitalier régional universitaire du Lille sont présentés et discutés

    Prévision hydrologique à court terme par réseaux de neurones artificiels pour différentes combinaisons, spatialisations et sources des intrants.

    Get PDF
    Le potentiel de l’utilisation des réseaux de neurones artificiels en prévision hydrologique à court terme (un à sept jours à l’avance) a été démontré dans plusieurs études. Toutefois, les exemples d’utilisation en opérationnel restent limités et la compréhension de l’intérêt de plusieurs variables d’intrants au modèle pas encore entièrement déterminée. Le rôle de la spatialisation des intrants dans ce type de modèle n’est pas connu. Cette thèse examine le rôle de différents intrants, de leur discrétisation spatiale à un modèle de prévision hydrologique à court terme. Elle vise également à confronter différentes sources de données utilisées comme intrants au modèle. Le modèle de réseaux de neurones développé est un modèle à rétropropagation avec une couche cachée à six neurones. Quatre bassins versants situés en Nouvelle Angleterre (Androscoggin et Susquehanna) ou dans le sud du Québec (Au saumon et Magog) servent de cas d’étude pour faire la prévision durant l’été, défini du 1er mai au 31 octobre. Le modèle de prévision hydrologique vise à prévoir le débit au pas de temps journalier. Au minimum une variable météorologique et une variable d’état sont utilisées comme intrants au modèle ; la variable d’état est aussi mise à jour à chaque pas de temps en étant une sortie du modèle. Deux environnements de travail sont exploités. L’environnement virtuel sert à identifier les variables d’intrants et la spatialisation les plus pertinentes pour la prévision hydrologique à court terme sur les bassins à l’étude. Le modèle hydrologique à base physique HYDROTEL est utilisé pour générer des séries de pseudo-observations hydrométéorologiques sur chaque site d’étude. Les expériences menées dans cet environnement virtuel révèlent que la meilleure configuration d’intrants utilise la température, la précipitation, l’humidité du sol en surface et le débit. De plus, elles révèlent que les modèles global et spatialisé ont des résultats équivalents. Basé sur les résultats obtenus en environnement virtuel, l’environnement réel utilise des données d’observations pour le débit et l’humidité et des données de réanalyses de température et de précipitation pour la météo. Les résultats montrent un réel potentiel dans l’utilisation d’un réseau de mesure in situ de l’humidité au sol pour faire de la prévision hydrologique. En revanche, la qualité des prévisions est très réduite pour les faibles débits

    Contributions à l’exploration de données environnementales, écologiques, médicales et archéologiques

    Get PDF
    Mon activité de recherche s’articule autour de l’exploration de données. L’exploration de données nécessite de réelles collaborations pluridisciplinaires qui ne prennent sens qu’en s’inscrivant dans la durée. C’est seulement à cette condition que le statisticien peut, après s’être imprégné de l’autre discipline, traduire les problématiques liées aux données traitées en langage mathématique, déterminer la ou les méthodes les plus adaptées pour résoudre le problème auquel il s’est attelé et enfin proposer des solutions, des réponses. Les trois grands domaines dans lesquels j’ai eu ou j’ai l’occasion d’explorer et traiter des données sont l’environnement et l’écologie, la santé et enfin l’archéologie. Les méthodes statistiques développées sont adaptées à chaque problématique au sein d’un domaine ; donc variées et le plus souvent combinées : méthodes factorielles ; méthodes de classification et de classement ; exploration de données spatiales ; modélisation (linéaire, linéaire généralisée, mixte) ; théorie des sondages ; théorie des valeurs extrêmes ; ré-échantillonnage ; tests d’association par permutations ; simulations

    Prédiction et reconnaissance d'activités dans un habitat intelligent basées sur les séries temporelles et la fouille de données temporelles

    Get PDF
    L'assistance traditionnelle d'une personne atteinte de la maladie d'Alzheimer est une tâche difficile, coûteuse et complexe. La nécessité d’avoir une personne aidante presque tout le temps avec le patient épuise les ressources humaines et financières du système de santé. De plus, la relation est souvent compliquée entre l'aidant et le patient qui souhaite préserver son intimité. L'émergence du domaine de l'intelligence ambiante a permis la conception d’une assistance technologique où un agent artificiel, appelé aussi agent ambiant, vient aider et diminuer le temps passé par l’aidant dans l’habitat du patient. Comme dans l’assistance traditionnelle, l’agent ambiant observe le patient ou son environnement en analysant les mesures envoyées par les différents senseurs installés dans la maison qui est nommée par ce fait un habitat intelligent. Préférablement d’une façon non supervisée, l’agent ambiant se doit d’apprendre le comportement normal du patient qui peut se traduire par la création d’une structure qui définit les différentes activités de la vie quotidienne (AVQ) que le patient est habitué à effectuer. Ensuite, grâce à l’heure courante et aux récentes actions détectées, l’agent ambiant va essayer de reconnaître l’activité entamée par le patient pour être en mesure de détecter des erreurs et proposer de l’aide en comparant les comportements normaux aux récentes actions détectées. Plusieurs problèmes caractérisent cette nouvelle assistance, mais le plus grand défi de cette solution, qui réside dans l’étape de reconnaissance d’activités, est causé par le nombre très élevé des AVQs que nous appelons aussi le nombre d'hypothèses. En effet, comme chaque activité se compose de plusieurs actions, la reconnaissance d’activités se traduit donc par la recherche des récentes actions détectées parmi toutes les actions de toutes les AVQs, et ce, en temps réel. Dans cette thèse, nous proposons des contributions dans les différentes étapes de l’assistance technologique. Nous répondons essentiellement à la problématique de la reconnaissance d’activités par la réduction maximale, à un instant précis, du nombre d'hypothèses. Tout d’abord, nous explorons la fouille de données temporelles et nous présentons notre propre algorithme de création de comportements normaux d’une façon non supervisée. L’algorithme analyse l'historique des senseurs activés afin de découvrir les motifs fréquents fermés qui représentent les modèles d’activités. Ensuite, nous explorons les séries temporelles pour choisir la technique de prédiction la plus adéquate à la prédiction des temps de débuts des différentes AVQs. Une méthode probabiliste est détaillée par la suite pour réduire le nombre d’hypothèses et reconnaître l’activité entamée. Nous terminons notre approche par l’utilisation des séries temporelles multivariées pour la prédiction du temps d’activation de chaque senseur de l’activité reconnue, ce qui aide l’agent ambiant à bien choisir le moment d’intervention pour proposer de l’aide, si nécessaire. Notre approche se base essentiellement sur l'aspect temporel et n'offre pas juste une solution à la problématique de la reconnaissance d'activités, mais elle répond aussi à différentes erreurs, dont celles susceptibles d'être commises par les malades d’Alzheimer comme les erreurs d'initiations qui les empêchent d’amorcer des activités. La validation de notre approche et les tests de ses différentes étapes ont été effectués avec des données réelles enregistrées dans le Laboratoire d’Intelligence Ambiante pour la Reconnaissance d’Activités (LIARA) et les résultats sont satisfaisants

    Contribution au pronostic de défaut dans les systèmes complexes par les techniques intelligentes

    Get PDF
    Nous avons présenté une nouvelle approche basée sur l'utilisation d'une méthode guidée par les données pour le pronostic des défauts. Cette méthode requiert des données décrivant le processus de dégradation. Lorsque les données sont insuffisantes, la prédiction des états devient difficile avec les modèles profonds de type mémoire à long terme (LSTM), qui nécessitent une quantité importante de données d'apprentissage. Pour résoudre ce problème de rareté des données dans la prédiction de la durée de vie restante (RUL), nous proposons d'adopter une stratégie d'augmentation des données. Les résultats obtenus sont démontrent que l'application d'une stratégie d'augmentation des données, peut améliorer les performances de prédiction de la RUL en utilisant les techniques LSTM. Nous avons validé cette approche en utilisant les données de la NASA Commercial Modular Aero-Propulsion System Simulation (C-MAPPS)

    Prédiction de l'instabilité dynamique des réseaux électriques par apprentissage supervisé des signaux de réponses post-contingence sur des dictionnaires surcomplets

    Get PDF
    Ces dernières décennies, l'intégration aux réseaux électriques de capteurs intelligents incorporant la mesure synchronisée des phaseurs a contribué à enrichir considérablement les bases de données de surveillance en temps réel de la stabilité des réseaux électriques. En parallèle, la lutte aux changements climatiques s'est accompagnée d'un déploiement généralisé des sources d'énergies renouvelables dont l'intermittence de la production et le déficit d'inertie dû à l'interface de celle-ci par l'électronique de puissance, contribuent à augmenter les risques d'instabilité à la suite de contingences de réseau. Dans ce contexte, nous proposons d'appliquer aux données de synchrophaseurs de nouvelles approches d'intelligence de données inspirées par l'analyse massive des séries chronologiques et l'apprentissage sur des dictionnaires supervisés, permettant d'extraire des centaines d'attributs décrivant concisément les estimations d'état dynamique des générateurs de réseaux électriques. La mise en évidence d'une signification physique de ces attributs permet ensuite une classification de la stabilité dynamique qui s'éloigne de ce fait des boîtes noires produites par un apprentissage en profondeur « à l'aveugle » des séries chronologiques, pour évoluer vers une approche transparente plus adaptée à la salle de conduite des réseaux et acceptable pour les ingénieurs d'exploitation. Cette approche d'apprentissage machine « interprétable » par les humains, débouche de surcroît sur une détection fiable, utilisant de courtes fenêtres de données de vitesses d'alternateurs directement mesurées ou reconstituées par estimation d'état dynamique à partir de l'instant d'élimination du défaut, pour détecter toute instabilité subséquente, avec un temps de préemption suffisant pour activer des contremesures permettant de sauvegarder la stabilité du réseau et ainsi prévenir les pannes majeures. Notre travail aborde l'exploitation de cette nouvelle niche d'information par deux approches complémentaires d'intelligence des données : 1) une analyse non parcimonieuse d'une base d'attributs se chiffrant par centaines, calculés automatiquement par l'analyse numérique massive des séries chronologiques de signaux de réponses post-contingence des générateurs; et 2) une analyse parcimonieuse exploitant l'apprentissage supervisée de grands dictionnaires surcomplets pour habiliter une prédiction de l'instabilité sur de courtes fenêtres de données avec une représentation vectorielle creuse (contenant un grand nombre de zéros) et donc numériquement très efficiente en plus de l'interprétabilité inhérente des atomes constituant les dictionnaires. Au niveau méthodologique, l'approche non parcimonieuse vise à implémenter plusieurs méthodes analytiques combinées (notamment la transformée de Fourier, la transformée en ondelette, la méthode de Welch, la méthode de périodogramme et les exposants de Lyapunov) pour extraire du signal de réponse de chaque générateur des centaines d'attributs labellisés et servant à construire un espace physique d'indicateurs de stabilité à haute dimension (HDSI). Ceux-ci sont ensuite utilisés pour développer les prédicteurs de stabilité sur la base d'algorithmes standard de machine learning, par exemple le convolutional neural network (CNN), long short-term memory (LSTM), support vector machine (SVM), AdaBoost ou les forêts aléatoires. L'approche parcimonieuse implémentée consiste à développer deux techniques complémentaires : 1) un dictionnaire d'apprentissage supervisé joint (SLOD) au classificateur et 2) vingt dictionnaires d'apprentissage séparés des signaux associés aux cas stable/instable. Alors que le SLOD utilise des dictionnaires adaptatifs inspirés des données mesurées et apprises hors-ligne, la deuxième approche utilise des dictionnaires fixes pour reconstruire séparément les signaux des classes stables et instables. Dans les deux cas, l'étape finale consiste à identifier automatiquement en temps réel, la classe d'appartenance d'une réponse par reconstruction des signaux associés à partir des dictionnaires appris hors-ligne. L'analyse parcimonieuse des réponses des générateurs sur un dictionnaire d'apprentissage adaptatif joint au classificateur a été implémenté à partir de l'algorithme K-singular value de composition (KSVD) couplé à l'orthogonal matching pursuit (OMP), afin de reconstruire et prédire la stabilité dynamique des réseaux électriques. De plus, vingt décompositions parcimonieuses des signaux sur des dictionnaires fixes (simples et hybrides) ont permis de développer des classificateurs prédisant chaque classe séparément sur la base de la transformée en cosinus discrète (DCT), en sinus discrète (DST), en ondelette (DWT), de la transformée de Haar (DHT), et le dictionnaire de Dirac (DI) couplés à l'orthogonal matching pursuit (OMP). Cette étude démontre que la décomposition parcimonieuse sur un dictionnaire adaptatif joint au classificateur offre une performance proche de l'idéal (c'est-à-dire : 99,99 % précision, 99,99 % sécurité et 99,99 % fiabilité) de loin supérieure à celle d'un classificateur à reconstruction de signaux basée sur les vingt dictionnaires fixes ou adaptatifs séparés, et les classificateurs basés sur les moteurs de machine learning (SVM, ANN, DT, RF, AdaBoost, CNN et LSTM) implémentés à partir des indices HDSI extraits de la base de données des vitesses des rotors des réseaux IEEE 2 area 4 machines, IEEE 39 -bus et IEEE 68 -bus. Toutefois, le temps de resimulation (replay) en temps réel des dictionnaires fixes/adaptatifs séparés est nettement inférieur (de 30-40%) à celui observé pour le dictionnaire adaptatif à classificateur joint / SLOD, et les algorithmes modernes de machine learning utilisant les attributs de type HDSI comme intrants.In recent decades, the integration of smart sensors incorporating synchronized phasor measurements units (PMU) into power grids has contributed to a significant improvement of the databases for real-time monitoring of power grid stability. In parallel, the fight against climate change has been accompanied by a widespread deployment of renewable energy sources whose intermittency of production and the lack of inertia due to the interface of the latter by power electronics; contribute to increase the risks of instability following network contingencies. In this context, we propose to apply new data intelligence approaches inspired by massive time series analysis and supervised dictionary learning to synchrophasor data, allowing the extraction of hundreds of attributes concisely describing the dynamic state estimates of power system generators. The physical meaning identification of these attributes then allows for an online classification of dynamic stability, thus moving away from the black boxes produced by «blind» deep learning of time series to a transparent approach more suitable for the network control room and acceptable to operating engineers. This human-interpretable machine learning approach also leads to reliable detection, using short windows of generator speed data directly measured or reconstructed by dynamic state estimation from the instant of fault elimination, to detect any subsequent instability, with sufficient preemption time to activate false measures to safeguard the network stability and thus prevent major outages. Our work addresses the exploitation of this new information through two complementary data intelligence approaches : 1) a non-sparse analysis of an attribute base numbering in the hundreds, computed automatically by massive numerical analysis of post-contingency response signal time series from generators; and 2) a sparse analysis exploiting supervised learning of large overcomplete dictionaries to enable instability prediction over short windows of data with a hollow vector representation (containing a large number of zeros) and thus numerically very efficient in addition to the inherent interpretability of the atoms constituting the dictionaries. Methodologically, the non-sparse approach aims to implement several combined analytical methods (including Fourier transform, wavelet transform, Welch's method, periodogram method and Lyapunov exponents) to extract hundreds of labeled attributes from the response signal of each generator and used to construct a physical space of high-dimensional stability indicators (HDSI). These are used to develop stability predictors based on standard machine learning algorithms, e.g., CNN, LSTM, SVM, AdaBoost or random forests. The implemented sparse approach consists in developing two complementary techniques: 1) a supervised learning dictionary attached (SLOD) to the classifier and 2) twenty separate dictionaries learning of the signals associated with the stable/instable cases. While the SLOD uses adaptive dictionaries inspired by the measured and learned offline data, the second approach uses fixed dictionaries to reconstruct the stable and unstable signals classes separately. In both cases, the final step is automatically identified in real time the status to which a response belongs by reconstructing the associated signals from the off-line learned dictionaries. The sparse analysis of generator responses on an adaptive learning dictionary attached to the classifier was implemented using the K-singular value decomposition (KSVD) algorithm coupled with orthogonal matching pursuit (OMP), to reconstruct and predict online the dynamic stability of power systems. In addition, twenty sparse signal decompositions on fixed dictionaries (simple and hybrid) were used to develop classifiers predicting each class separately based on the discrete cosine transform (DCT), discrete sine transform (DST), wavelet transform (DWT), Haar transform (DHT), and Dirac dictionary (DI) coupled with the orthogonal matching pursuit (OMP). This study demonstrates that sparse decomposition on joined adaptive dictionary to the classifier provides near ideal performance (i.e.: 99.99% accuracy, 99.99% security, and 99.99% reliability) far superior to that of a classifier has signal reconstruction based on the twenty separate fixed or adaptive dictionaries and classifiers based on machine learning engines (SVM, ANN, DT, RF, AdaBoost, CNN, and LSTM) implemented from HDSI indices extracted from the rotor speed database of the IEEE 2 area 4 machines, IEEE 39 -bus, and IEEE 68 -bus test systems. However, the real-time replay time of the separate fixed/adaptive dictionaries is significantly lower (by 30-40%) than that observed for the adaptive dictionary with joint classifier/SLOD, and modern machine learning algorithms using HDSI-like attributes as inputs

    Contribution au pronostic de défaillances guidé par des données

    Get PDF
    Ce mémoire d’Habilitation à Diriger des Recherche (HDR) présente, dans la première partie, une synthèse de mes travaux d’enseignement et de recherche réalisés au sein de l’École Nationale Supérieure de Mécanique et des Microtechniques (ENSMM) et de l’Institut FEMTO-ST. Ces travaux s’inscrivent dans la thématique du PHM (Prognostics and Health Management) et concernent le développement d’une approche intégrée de pronostic de défaillances guidée par des données. L’approche proposée repose sur l’acquisition de données représentatives des dégradations de systèmes physiques, l’extraction de caractéristiques pertinentes et la construction d’indicateurs de santé, la modélisation des dégradations, l’évaluation de l’état de santé et la prédiction de durées de fonctionnement avant défaillances (RUL : Remaining Useful Life). Elle fait appel à deux familles d’outils : d’un côté des outils probabilistes/stochastiques, tels que les réseaux Bayésiens dynamiques, et de l’autre côté les modèles de régression non linéaires, notamment les machines à vecteurs de support pour la régression. La seconde partie du mémoire présente le projet de recherche autour du PHM de systèmes complexes et de MEMS (Micro-Electro-Mechanical Systems), avec une orientation vers l’approche de pronostic hybride en combinant l’approche guidée par des données et l’approche basée sur des modèles physiques.This Habilitation manuscript presents, in the first part, a synthesis of my teaching and research works achieved at the National Institute of Mechanics and Microtechnologies (ENSMM) and at FEMTO-ST Institute. These works are within the topic of Prognostics and Health Management (PHM) and concern the development of an integrated data-driven failure prognostic approach. The proposed approach relies on acquisition of data which are representative of systems degradations, extraction of relevant features and construction of health indicators, degradation modeling, health assessment and Remaining Useful Life (RUL) prediction. This approach uses two groups of tools: probabilistic/stochastic tools, such as dynamic Bayesian networks, from one hand, and nonlinear regression models such as support vector machine for regression and Gaussian process regression, from the other hand. The second part of the manuscript presents the research project related to PHM of complex systems and MEMS (Micro-Electro-Mechanical Systems), with an orientation towards a hybrid prognostic approach by considering both model-based and data-driven approaches
    • …
    corecore