508 research outputs found

    L'analyse statistique bayésienne de données toxicocinétiques

    Get PDF
    National audienceBayesian statistical analysis of toxicokinetic data Risk assessment of chemicals requires toxicokinetic studies to determine the association between exposure and the quantity of toxin that reaches target tissues or cells. To characterize this link, experimental data about the agent's spatiotemporal distribution in the body (e.g., blood concentrations at various times) can be collected and analyzed with parametric models (called toxicokinetic or TK models). These models are generally compartmental and can be based on physiology (PBTK models). Appropriate statistical treatment allows fitting TK/PBTK models to the data. Bayesian analysis takes into account and estimates the uncertainty and variability inherent in TK data. It can integrate prior information on parameter values into the estimation process, thus limiting the need for experimental exposures. In this paper, we detail the Bayesian process of TK analysis, including the estimation (or calibration) of parameters and the checking and validation of models. The process can be completed by choosing between competing models or optimizing the design of experimental protocols. To illustrate this process, we analyze and model the toxicokinetics of 1,3-butadiene, a potential human carcinogen.L'évaluation de la toxicité des produits chimiques passe par une étude de leur toxicocinétique. Cette dernière vise à établir un lien entre l'exposition à une substance toxique et la quantité de celle-ci atteignant les tissus cibles de l'action toxique. Pour ce faire, l'expérimentation recueille des données de distribution spatiale et temporelle de la substance dans l'organisme étudié (par exemple, des mesures de concentration sanguine en différents instants). Il est ensuite possible de construire des modèles mathématiques paramétrés (modèles toxicocinétiques) pour caractériser la relation entre l'exposition et la quantité interne de toxique. Ces modèles sont généralement des modèles compartimentaux et reposent fréquemment sur une description physiologique de l'organisme (modèle PBPK). Des traitements statistiques appropriés permettent d'ajuster ces modèles à l'aide des données expérimentales. Nous décrivons comment l'analyse bayésienne permet de prendre en compte et d'estimer l'incertitude et la variabilité inhérentes aux données toxicocinétiques. Elle intègre l'information disponible a priori sur la valeur des paramètres, limitant, de ce fait, le nombre d'expositions expérimentales nécessaires. Le processus bayésien d'analyse de données comprend l'estimation des paramètres (calibration), la vérification et la validation des modèles. Ce processus peut ensuite être complété par le choix entre plusieurs modèles construits à partir d'hypothèses différentes ou l'optimisation de nouveaux protocoles expérimentaux. Une illustration de l'approche bayésienne est proposée pour le cas du 1,3-butadiène, substance chimique considérée comme potentiellement carcinogène pour l'homme

    Application d'un système probabiliste bayésien pour prédire la moyenne cumulative des étudiants à l'École Polytechnique de Montréal

    Get PDF
    RÉSUMÉ Dans un contexte où la puissance de calcul des ordinateurs est en constante augmentation, et où de plus en plus de données sont recueillies par les organisations, ces dernières s’intéressent de manière grandissante à l’exploration de leurs bases de données (Data Mining), dans le but d’améliorer leurs processus. Par processus, nous entendons tout ensemble d’activités transformant un élément d’entrée en un élément de sortie. Si la grande majorité des processus sont monitorés, et que des observations surviennent durant leur déroulement pour assurer leur contrôle, ces observations sont néanmoins rarement utilisées pour prédire l’état final. Ce travail s’intéresse ainsi à la prédiction de l’état de sortie des processus à partir des observations survenues durant leur déroulement. Nous nous intéressons en particulier à la formation des étudiants au baccalauréat de l’École Polytechnique de Montréal. Nous considérons cette formation comme un processus, dans le sens où il s’agit d’un enchaînement d’étapes, sur 12 sessions (4 ans), transformant les étudiants entrants en des ingénieurs prêts à entrer sur le marché de l’emploi. Les données disponibles sont, pour chaque étudiant, les notes moyennes obtenues à chacune des 12 sessions du baccalauréat, les crédits pris à chaque session, et le département de l’étudiant en question. L’idée est de tenter de prédire la moyenne cumulative des six dernières sessions obtenue par chaque étudiant, à partir de ses moyennes obtenues à chacune des six premières sessions, du nombre de crédits pris durant chaque session, et du département de l’étudiant. Ce travail s’intéresse ainsi à tester si les informations disponibles et mesurables sont suffisantes pour fournir une prédiction informative, en dépit d’informations non disponibles, telles que des variables reflétant la psychologie, la vie personnelle ou associative de l’étudiant. En particulier, nous nous intéressons à savoir s’il existe des formes (patterns) dans l’évolution des notes moyennes des étudiants au cours de leur baccalauréat.----------ABSTRACT As computing power is getting more and more important, and as more and more data is being gathered by organizations, the latter are gaining interest in mining their databases, in order to improve their processes. By process is meant a set of activities which transform an input into an output. If most processes are monitored, and if observations are gathered during process runs in order to keep them under control, those same observations are rarely ever used in order to predict the final state of processes. This research hence focuses on the prediction of the output of processes, based on the observations gathered during process runs. We will bear a special interest for the education of bachelor students at Ecole Polytechnique de Montréal. We will consider it is a process, to the extent that it is a succession of 12 quarters (4 years), which transforms incoming students into engineers ready to start their careers. The available data provides, for every single student, the grade point average (GPA) obtained at each quarter, the number of credits that were taken, as well as the Department the student belong to. The idea is to try to predict the cumulative GPA obtained during the six last quarters, given the grades and the number of credits taken during the first six quarters, as well as the Department the student belongs to. Hence, this research focuses on testing whether the available and measurable information is enough to provide an informative prediction, in spite of non-available information, such as variables reflecting the psychology, or the personal lives of all students. We will be particularly interested in discovering whether patterns are present in the trajectories of student GPAs, during the evolution of their bachelor. We have developed a system based on Bayesian networks, which are probabilistic graphical models, hence allowing a probabilistic estimation of the predicted cGPA. The system can therefore be used as a decision aid. We gathered data from the 2008 cohort, which consists of 700 students

    Échantillonnage stochastique efficace par modèle Bernoulli mélange de Gaussiennes pour la résolution des problèmes inverses parcimonieux

    Get PDF
    Cette thèse aborde la résolution des problèmes inverses parcimonieux quand les données observées peuvent être considérées comme une combinaison linéaire d'un faible nombre d'éléments dits « atomes » (e.g., impulsions, réponse instrumentale décalée ou sinusoïdes). Ces problèmes sont rencontrés dans différents domaines d'application, allant du contrôle non destructif ultrasonore, à la spectroscopie et l'analyse spectrale. Dans le contexte bayésien, ces problèmes peuvent être abordés en considérant des modèles a priori sur les paramètres d'intérêts, prenant en compte la parcimonie de façon explicite via l'introduction de variables binaires (e.g., modèle Bernoulli-Gaussien). L'estimation des paramètres se fait ensuite en calculant un estimateur de type espérance a posteriori à partir d'échantillons générés par des méthodes Monte-Carlo par chaînes de Markov (MCMC). L'avantage majeur des méthodes MCMC dans le contexte bayésien, par rapport aux approches d'optimisation déterministes, est la possibilité d'intégrer sans grande difficulté l'estimation des hyper-paramètres du modèle (e.g., la variance du bruit d'observation) ainsi que de se placer dans un cadre semi-aveugle ou aveugle, c'est-à-dire des cas où les atomes sont partiellement ou totalement inconnus. Cependant, ces méthodes MCMC sont généralement très coûteuses en temps de calcul et nécessitent d'être manipulées avec soin afin de garantir leur convergence. Des approches d'échantillonnage efficace s'appuyant sur le Partially Collapsed Gibbs Sampler (PCGS) ont été développées dans le cas du modèle Bernoulli-Gaussien. Cependant, elles ne peuvent pas être utilisées dès que l'on souhaite considérer d'autres a priori parcimonieux, avec des lois à longues queues (e.g., Bernoulli-Laplace) qui sont préférables à la Gaussienne car elles induisent une moindre régularisation ; ou avec des lois à support réduit (e.g., Bernoulli-Exponentiel) afin de garantir une contrainte de non-négativité. On est alors restreint à l'utilisation des méthodes MCMC classiques coûteuses en temps de calcul. L'objectif de cette thèse est de réconcilier l'échantillonnage PCGS avec des modèles prenant en compte la parcimonie de façon explicite autres que le modèle Bernoulli-Gaussien. La principale contribution est l'introduction et l'étude d'un nouveau modèle a priori dit « Bernoulli Mélange de Gaussiennes » (BMG). Ce dernier repose sur les lois de mélange continu de Gaussiennes et permet l'amélioration des propriétés de convergence des méthodes MCMC grâce à une implémentation numérique efficace d'algorithmes PCGS. D'autre part, le modèle est présenté dans un cadre général, permettant de prendre en compte, de manière systématique, de nombreuses lois de probabilité. Pour ces travaux, nous avons exploité des lois de probabilité de la famille LSMG (Location and Scale Mixture of Gaussians), peu étudiée dans la littérature, que nous avons caractérisées plus précisément. Une deuxième contribution majeure consiste à étendre le champ d'application du modèle BMG aux lois de probabilité à support réduit. Ainsi, nous avons proposé une nouvelle approche d'approximation de lois de probabilité dénommée « asymptotically Exact Location-Scale Approximations » (ELSA) pour laquelle nous avons montré le bon comportement, à la fois en théorie et en pratique et avons montré empiriquement son efficacité par rapport aux approches de l'état de l'art. Enfin, l'efficacité du nouveau modèle BMG, de son échantillonneur PCGS et des approximations ELSA est étudiée et validée dans le cadre des problèmes inverses parcimonieux sur un exemple de déconvolution de train d'impulsions.This thesis deals with sparse inverse problems when the observed data can be considered as a linear combination of a small number of elements called « atoms » (e.g., pulses, shifted instrumental response or sinusoids). These problems are encountered in various domains, ranging from ultrasonic non-destructive testing to spectroscopy and spectral analysis. In the Bayesian framework, these problems can be addressed by considering a priori models on the parameters of interest that take into account the sparsity explicitly via the introduction of binary variables (e.g., Bernoulli-Gaussian model). The estimation of the parameters is done by computing the posterior mean estimator from samples generated by Markov chain Monte Carlo (MCMC) methods. The major advantage of MCMC methods in the Bayesian framework, compared to deterministic optimization approaches, is the possibility of integrating without much difficulty the estimation of the hyper-parameters of the model (e.g., the variance of the observation noise) as well as considering semi-blind or blind settings, i.e., cases where the atoms are partially or totally unknown. However, MCMC methods are generally computationally expensive and need to be handled carefully to ensure their convergence. An efficient sampling approaches based on the Partially Collapsed Gibbs Sampler (PCGS) have been developed for the Bernoulli-Gaussian model. However, it cannot be used with other sparse enforcing priors, such as priors with long-tailed distributions (e.g., Bernoulli-Laplace) which are preferable to the Gaussian because they induce less regularization; or with distributions supported in a bonded interval (e.g., Bernoulli-Exponential) in order to guarantee a non-negativity constraint. As a result one is restricted to the computationally expensive classical MCMC methods. The objective of this thesis is to reconcile PCGS sampling with models that explicitly take into account sparsity other than the Bernoulli-Gaussian model. The main contribution is the introduction and study of a new prior model called « Bernoulli Mixture of Gaussians » (BMG). The latter, based on continuous Gaussian mixtures improves the convergence properties of MCMC methods thanks to an efficient numerical implementation of PCGS algorithms. On the other hand, the model is presented in a general framework, allowing to take into account, in a systematic way, a rich family of probability distributions. More precisely, the BMG relies on the LSMG (Location and Scale Mixture of Gaussians) family, which we have studied and characterized. The second major contribution consists in extending the field of application of the BMG model to probability distributions supported on a bounded interval. Thus, we have proposed a new approach to approximate probability distributions called « asymptotically Exact Location-Scale Approximations » (ELSA) for which we have shown good behavior, both in theory and in practice and empirically validate its efficiency compared to state-of-the-art approaches. Finally, the efficiency of the BMG model, its PCGS sampler and ELSA approximations is studied and validated in the context of sparse inverse problems on an example of spike train deconvolution

    Conception et implémentation d'une plate-forme d'évaluation adaptative des apprentissages

    Get PDF
    Des avancées importantes ont été réalisées au cours de ces dernières décennies dans le domaine du E-learning. Ceci permet par exemple l'interopérabilité des plates-formes et l'adaptation du déroulement des apprentissages à l'apprenant. Mais certains composants du E-learning comme l'évaluation en ligne des apprentissages, sont encore en phase de développement. Comme conséquence de ce retard, dans la plupart des plates-formes de E-learning, les évaluations sont sous le format classique des tests malgré leurs limites et problèmes de précision. Or, en mettant à profit des techniques d'intelligence artificielle (lA), des théories en psychométrie et les normes actuelles dans le domaine du E-learning, il est possible d'intégrer des fonctionnalités permettant d'administrer des évaluations adaptatives et plus informatives à ces plates-formes. Les travaux présentés dans ce mémoire se situent dans ce contexte. Le mémoire présentera des algorithmes et des stratégies permettant l'adaptation des évaluations selon le niveau des habiletés cognitives des apprenants. Les résultats de ces évaluations serviront à faire un diagnostic cognitif sur les apprentissages de ces apprenants. Pour ce faire, nous devons nous assurer de la véracité des réponses fournies par les apprenants. Un mécanisme de détection de patrons de réponses inappropriées sera donc implémenté. Cette dernière fonctionnalité et le diagnostic cognitif seront présentés de façon sommaire. La plate-forme développée qui intègre toutes ses fonctionnalités est nommée PersonFit. Elle sera présentée ainsi que des stratégies permettant son intégration dans la plate-forme de E-learning Moodle. Finalement, une présentation et discussion sur les résultats d'implémentation permettront de juger de la pertinence et de l'efficacité du travail effectué. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : E-learning, Systèmes Tutoriels Intelligents, Théorie de la Réponse à l'Item, E-testing, Modèle de l'apprenant, Adaptation à l'apprenant, Moodle, PersonFit

    Étude de faisabilité d'une méthodologie de test exploitant le test par le courant IDDQ, et l'intéraction d'autres méthodes de test de diagnostic

    Get PDF
    Cette thèse porte globalement sur l'élaboration d'une méthodologie permettant d'améliorer le test des circuits intégrés (CI), et ce, en utilisant des concepts propres au diagnostic et en se basant sur l'interacfion des méthodes de test existantes. Le premier objectif de cette thèse est la généralisation plus poussée de la méthode de diagnostic basée sur les signatures probabilistes du courant AIDDQ, et ce, à plusieurs niveaux. D'une part, nous avons développé plusieurs modèles de pannes de courts-circuits incluant la totalité des types de portes logiques de la technologie CMOS 0.35|xm. D'autre part, nous avons amélioré la technique de réduction des sites physiques de courts-circuits; nous parlons de celle basée sur les résultats des sorties erronées du circuit sous test obtenus à l'aide de son émulation (ou son test). Cette technique supportait des circuits purement combinatoires. L'améliorafion apportée permet maintenant d'ufiliser cette technique sur des circuits séquentiels. Nous avons également présenté les derniers résultats de réduction des sites de court-circuit, et ce. en se basant sur les signatures AIDDQ, les capacités parasites de routage extraites du dessin des masques et les erreurs logiques observées à la sortie du circuit, et ce, pour les technologies 0.35|a.m et 90nm. La combinaison de ces trois techniques réduit significativement le nombre de sites de courts-circuits à considérer dans le diagnostic. Les résultats de simulation confirment que le nombre de sites de court-circuit est réduit de O(N') à 0(N), où N est le nombre de noeuds dans le circuit. Du coté de l'outil logiciel permettant l'émulation de la méthode de diagnostic proposée, nous avons complété sa conception, et nous avons défini les conditions permettant son utilisation dans un environnement de test en temps réel. Le deuxième objectif de cette thèse est l'introduction d'une nouvelle stratégie d'optimisation pour le test adaptatif de haute qualité. La stratégie proposée permet dans un premier temps de couvrir les pannes qui habituellement ne causent pas une consommation anormale du courant IDDQ avec le minimum de vecteurs possibles qui sont appliqués à tous les circuits; et dans un deuxième temps, propose deux pistes de traitement pour les pannes qui habituellement causent une élévation du courant IDDQ- Le traitement a priori (prévision) est basé sur l'ajout d'autres vecteurs de test pour couvrir les sites non couverts par les tests logiques ou de délais. Le traitement a posteriori (guérison) est basé sur un diagnostic rapide sur les sites non couverts. Nous faisons appel à la méthode de diagnostic proposée avec quelques modifications. Ce traitement correspond à une stratégie d'optimisation visant à n'appliquer les vecteurs supplémentaires que sur les CI montrant des symptômes particuliers

    Biomarqueurs de la morphologie du cortex cérébral par imagerie par résonance magnétique (IRM) anatomique : application à la maladie d'Alzheimer

    Get PDF
    Les modifications de la morphologie du cortex cérébral induites par la maladie d'Alzheimer à ses stades précoces contribuent à l'intérêt croissant à l'égard des biomarqueurs de la morphologie corticale. Ceux-ci permettraient notamment une meilleure compréhension de l'impact de cette pathologie sur l'anatomie cérébrale et une détection plus précoce de la maladie. L'originalité de notre travail par rapport au reste de la littérature est de s'intéresser à la morphologie des surfaces interne (interface substance blanche / substance grise) et externe (interface substance grise / liquide cérébro-spinal) du cortex cérébral. Dans cette perspective, nous avons développé des méthodes d'estimation de la courbure et de la dimension fractale des surfaces corticales. A partir de ces biomarqueurs morphologiques et de l'épaisseur corticale dont la méthode d'estimation a été précédemment développée dans le laboratoire, nous avons exploré l'impact de la maladie d'Alzheimer sur la morphologie du manteau cortical et nous avons évalué leur apport individuel et celui de leur association au diagnostic précoce de la maladie. Nos résultats montrent une influence significative de la pathologie sur la morphologie des sillons et sur celle des circonvolutions des surfaces corticales interne et externe. En termes d'application diagnostique, nous montrons que prises isolément, l'épaisseur corticale présente une meilleure capacité prédictive que la courbure corticale, nous ne constatons en revanche aucune capacité prédictive de la dimension fractale. Par contre, nous montrons que l'utilisation conjointe de l'épaisseur corticale et de la courbure permet une amélioration significative du diagnostic précoce.Morphological alterations of the cortical mantle in early stage of Alzheimer's disease have led to an increasing interest towards morphological biomarkers of the cerebral cortex. By providing a quantitative measure of the cortical shape, morphological biomarkers could provide better understanding of the impact of the disease on the cortical anatomy and play a role in early diagnosis. Therefore, as a primary goal in this study, we developed cortical surface curvature and fractal dimension estimation methods. We then applied those methods, together with the estimation of cortical thickness, to investigate the impact of Alzheimer's disease on the cortical shape as well as the contribution of cortical thickness and cortical curvature to the early diagnosis of Alzheimer's disease. The originality of this work lies in the estimation of sulcal and gyral curvature of the internal (gray matter/white matter boundary) and external (gray matter/cerebrospinal fluid boundary) cortical surfaces in addition to the fractal dimensions of these boundaries. Our results showed significant impact of Alzheimer's disease on sulcal and gyral shapes of the internal and external cortical surfaces. In addition, cortical thickness was found to have better ability than cortical curvature for the early diagnosis of Alzheimer's disease; no significant ability for the early diagnosis was found using fractal dimension. However, we found significant improvement in early diagnosis by combining cortical thickness and cortical curvature

    Propriétés thermiques et morphologiques de la couronne solaire (estimation de la robustesse des diagnostics par mesure d'émission différentielle (DEM) et reconstructions tomographiques des pôles)

    Get PDF
    L'évolution de notre compréhension des propriétés de la couronne solaire dépend largement de la détermination empirique ou semi-empirique des paramètres fondamentaux du plasma, tels que le champ magnétique, la densité et la température, mais pour lesquels il n'existe pas de mesure directe. L'intégration le long de la ligne de visée complique considérablement l'interprétation des observations, du fait de la superposition de structures aux propriétés physiques différentes. Pour lever cette ambiguïté, on dispose de plusieurs outils, dont la mesure d'émission différentielle (ou DEM; Differential Emission Measure), qui permet d'obtenir la quantité de plasma en fonction de la température le long de la ligne de visée, et la tomographie, qui permet, elle, d'obtenir la distribution spatiale de l'émissivité. Le couplage de ces deux outils permet d'obtenir un diagnostic tridimensionnel en température et densité de la couronne. A l'heure actuelle, le code utilisé dans ce travail est l'un des deux seuls au monde capables de réaliser ce couplage. Cependant, ces deux méthodes requièrent un processus d'inversion, dont les difficultés intrinsèques peuvent fortement limiter l'interprétation des résultats. La méthode développée dans cette thèse s'attache à évaluer la robustesse des diagnostics spectroscopiques par DEM, en proposant une nouvelle technique de caractérisation tenant compte des différentes sources d'incertitudes mises en jeu. En utilisant une approche probabiliste, cette technique permet d'étalonner a priori le problème d'inversion, et ainsi d'étudier son comportement et ses limitations dans le cadre de modèles simples. L'avantage de ce type d'approche est sa capacité à fournir des barres d'erreurs associées aux DEMs reconstruites à partir de données réelles. La technique développée a d'abord été appliquée à l'imageur SDO/AIA dans le cas de modèles de DEMs simples mais capables de représenter une grande variété de conditions physiques au sein de la couronne. Si l'inversion de plasmas proches de l'isothermalité apparaît robuste, nos résultats montrent qu'il n'en va pas de même pour les plasmas largement distribués en température, pour lesquelles les DEMs reconstruites sont à la fois moins précises mais aussi biaisées vers des solutions secondaires particulières. La technique a ensuite été appliquée au spectromètre Hinode/EIS, en utilisant un modèle de DEM représentant la distribution en loi de puissance des DEMs des régions actives, dont la pente permet de fournir des contraintes relatives à la fréquence des événements de chauffage coronal. Nos résultats montrent que les sources d'incertitudes sont à l'heure actuelle trop élevées pour permettre une mesure exploitable de la fréquence. La dernière partie est consacrée aux reconstructions tridimensionnelles obtenues par couplage tomographie/DEM, en s'intéressant aux structures polaires. Premières reconstructions réalisées avec AIA, nos résultats permettent d'étudier l'évolution en température et densité en fonction de l'altitude, montrant la présence de plumes polaires plus chaudes et denses que leur environnement.Progress in our understanding of the solar corona properties is highly dependant of the emipirical or semi-empirical determination of the plasma fundamental parameters, such as magnetic field, density and temperature. However, there is no direct measurements of such quantities; the integration along the line of sight considerably complicates the interpretations of the observations, due to the superimposition of structures with different properties. To avoid this ambiguity, there exist several tools, including the Differential Emission Measure (DEM) and the tomography reconstruction technique. The former provides the quantity of emitting material as a function of the temperature, whereas the latter is able to reconstruct the three dimensional distribution of the coronal emissivity. Coupling these two techniques leads to a three dimensional diagnostic of the temperature and density. The inversion code used in this work is currently one of the two codes in the world able to perform this coupling. The method described in this work has been developed in order to estimate the robustness of the spectroscopic diagnostics using the DEM formalism, using a new characterisation method taken into account the different uncertainty sources involved in the inversion process. Using a probabilistic approach, this technique is able to calibrate a priori the DEM inversion problem and thus allows to study the inversion behavior and limitations in the context of simple DEMs models. The advantage of this method is its ability to provide confidence level on the reconstructed DEMs computed from real data. First applied to the SDO/AIA (Atmospheric Imaging Assembly) imager in the case of simple models able to represent a variety of plasma conditions, our results show that DEM inversion of isothermal or near-isothermal plasmas is robust, whereas the multithermal solutions are less accurate but also biased to secondary solutions. We also applied the method to the Hinode/EIS (EUV Imaging Spectrometer) spectrometer, using a power law DEM, typical of active regions DEM, from which the slope provides important constraints related to the coronal heating frequency. Our results point out that the different uncertainty sources are currently too high to allow exploitable measurements of this frequency. The last part is dedicated to the three-dimensional reconstructions obtained by coupling tomography and DEM tools, focusing on polar structures. First reconstructions obtained using AIA data, our results allow to study the evolution of the temperature and density as a function of altitude, showing polar plumes denser and hotter than their surrondings.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Inférence de la structure d'interactions de données bruitées

    Get PDF
    La science des réseaux est notamment à la recherche de modèles mathématiques capables de reproduire le comportement de systèmes complexes empiriques. Cependant, la représentation usuelle, le graphe, est parfois inadéquate étant donné sa limitation à encoder uniquement les relations par paires. De nombreux travaux récents suggèrent que l'utilisation de l'hypergraphe, une généralisation décrivant les interactions d'ordre supérieur (plus de deux composantes), permet d'expliquer des phénomènes auparavant incompris avec le graphe. Or, la structure de ces réseaux complexes est rarement ou difficilement observée directement. De fait, on mesure plutôt une quantité intermédiaire, comme la fréquence de chaque interaction, pour ensuite reconstruire la structure originale. Bien que de nombreuses méthodes de reconstruction de graphes aient été développées, peu d'approches permettent de retrouver les interactions d'ordre supérieur d'un système complexe. Dans ce mémoire, on développe une nouvelle approche de reconstruction pouvant déceler les interactions connectant trois noeuds parmi des observations dyadiques bruitées. Basée sur l'inférence bayésienne, cette méthode génère la distribution des hypergraphes les plus plausibles pour un jeu de données grâce à un algorithme de type Metropolis-Hastings-within-Gibbs, une méthode de Monte-Carlo par chaînes de Markov. En vue d'évaluer la pertinence d'un modèle d'interactions d'ordre supérieur pour des observations dyadiques, le modèle d'hypergraphe développé est comparé à un second modèle bayésien supposant que la structure sous-jacente est un graphe admettant deux types d'interactions par paires. Les résultats obtenus pour des hypergraphes synthétiques et empiriques indiquent que la corrélation intrinsèque à la projection d'interactions d'ordre supérieur améliore le processus de reconstruction lorsque les observations associées aux interactions dyadiques et triadiques sont semblables.Network science is looking for mathematical models capable of reproducing the behavior of empirical complex systems. However, the usual representation, the graph, is sometimes inadequate given its limitation to encode only pairwise relationships. Many recent works suggest that the use of the hypergraph, a generalization describing higher-order interactions (more than two components), allows to explain phenomena previously not understood with graphs. However, the structure of these complex networks is seldom or hardly observed directly. Instead, we measure an intermediate quantity, such as the frequency of each interaction, and then reconstruct the original structure. Although many graph reconstruction methods have been developed, few approaches recover the higher-order interactions of a complex system. In this thesis, we develop a new reconstruction approach which detects interactions connecting three vertices among noisy dyadic observations. Based on Bayesian inference, this method generates the distribution of the most plausible hypergraphs for a dataset using a Metropolis-Hastings-within-Gibbs algorithm, a Markov chain Monte Carlo method. In order to evaluate the relevance of a higher-order interaction model for dyadic observations, the developed hypergraph model is compared to a second Bayesian model assuming that the underlying structure is a graph admitting two types of pairwise interactions. Results for synthetic and empirical hypergraphs indicate that the intrinsic correlation to the projection of higher-order interactions improves the reconstruction process when observations associated with dyadic and triadic interactions are similar
    • …
    corecore