9 research outputs found

    Quelques remarques sur la méthode d'ajustement de Mayer : lien avec les méthodes de classifications

    Get PDF
    Le cas simple de l’ajustement d’une droite de régression par la méthode de Mayer, au programme de l’enseignement secondaire français il y a quelques années, avait été introduit comme un succédané de la méthode des moindres carrés. Il apparaît que la démarche qui était ainsi proposée aux élèves fournit un exemple élémentaire d’arbre de régression. Il apparaît aussi que, dans le cas général, c’est un problème de classification pour lequel l’algorithme des transferts de Régnier [1965] est particulièrement bien adapté quoique possiblement suboptimal. L’exemple célèbre d’ajustement, que Mayer traite en 1750 par une méthode novatrice et très générale, est revu à la lumière de méthodes statistiques contemporaines usuelles. Les résultats numériques obtenus montrent l’extraordinaire maîtrise de Mayer.This paper presents a new clustering method for interval data. It is an extension of a classical clustering method to interval data. The classical procedure is based on the theory of point processes, and more particularly on the homogeneous Poisson process. The first part of the new method is a monothetic divisive procedure. The cut rule is an extension to interval data of the Hypervolumes clustering criterion. The pruning step uses two statistical likelihood ratio tests based on the homogeneous Poisson process: the Hypervolumes test and the Gap test. The output is a decision tree. The second part of the method is a merging process, that allows in particular cases to improve the classification obtained at the end of the first part of the algorithm. The method is applied to a generated data set and to a real data set. It is compared with other clustering methods available for interval data

    L’arbre de régression multivariable et les modèles linéaires généralisés revisités : applications à l’étude de la diversité bêta et à l’estimation de la biomasse d’arbres tropicaux

    Get PDF
    En écologie, dans le cadre par exemple d’études des services fournis par les écosystèmes, les modélisations descriptive, explicative et prédictive ont toutes trois leur place distincte. Certaines situations bien précises requièrent soit l’un soit l’autre de ces types de modélisation ; le bon choix s’impose afin de pouvoir faire du modèle un usage conforme aux objectifs de l’étude. Dans le cadre de ce travail, nous explorons dans un premier temps le pouvoir explicatif de l’arbre de régression multivariable (ARM). Cette méthode de modélisation est basée sur un algorithme récursif de bipartition et une méthode de rééchantillonage permettant l’élagage du modèle final, qui est un arbre, afin d’obtenir le modèle produisant les meilleures prédictions. Cette analyse asymétrique à deux tableaux permet l’obtention de groupes homogènes d’objets du tableau réponse, les divisions entre les groupes correspondant à des points de coupure des variables du tableau explicatif marquant les changements les plus abrupts de la réponse. Nous démontrons qu’afin de calculer le pouvoir explicatif de l’ARM, on doit définir un coefficient de détermination ajusté dans lequel les degrés de liberté du modèle sont estimés à l’aide d’un algorithme. Cette estimation du coefficient de détermination de la population est pratiquement non biaisée. Puisque l’ARM sous-tend des prémisses de discontinuité alors que l’analyse canonique de redondance (ACR) modélise des gradients linéaires continus, la comparaison de leur pouvoir explicatif respectif permet entre autres de distinguer quel type de patron la réponse suit en fonction des variables explicatives. La comparaison du pouvoir explicatif entre l’ACR et l’ARM a été motivée par l’utilisation extensive de l’ACR afin d’étudier la diversité bêta. Toujours dans une optique explicative, nous définissons une nouvelle procédure appelée l’arbre de régression multivariable en cascade (ARMC) qui permet de construire un modèle tout en imposant un ordre hiérarchique aux hypothèses à l’étude. Cette nouvelle procédure permet d’entreprendre l’étude de l’effet hiérarchisé de deux jeux de variables explicatives, principal et subordonné, puis de calculer leur pouvoir explicatif. L’interprétation du modèle final se fait comme dans une MANOVA hiérarchique. On peut trouver dans les résultats de cette analyse des informations supplémentaires quant aux liens qui existent entre la réponse et les variables explicatives, par exemple des interactions entres les deux jeux explicatifs qui n’étaient pas mises en évidence par l’analyse ARM usuelle. D’autre part, on étudie le pouvoir prédictif des modèles linéaires généralisés en modélisant la biomasse de différentes espèces d’arbre tropicaux en fonction de certaines de leurs mesures allométriques. Plus particulièrement, nous examinons la capacité des structures d’erreur gaussienne et gamma à fournir les prédictions les plus précises. Nous montrons que pour une espèce en particulier, le pouvoir prédictif d’un modèle faisant usage de la structure d’erreur gamma est supérieur. Cette étude s’insère dans un cadre pratique et se veut un exemple pour les gestionnaires voulant estimer précisément la capture du carbone par des plantations d’arbres tropicaux. Nos conclusions pourraient faire partie intégrante d’un programme de réduction des émissions de carbone par les changements d’utilisation des terres.In ecology, in ecosystem services studies for example, descriptive, explanatory and predictive modelling all have relevance in different situations. Precise circumstances may require one or the other type of modelling; it is important to choose the method properly to insure that the final model fits the study’s goal. In this thesis, we first explore the explanatory power of the multivariate regression tree (MRT). This modelling technique is based on a recursive bipartitionning algorithm. The tree is fully grown by successive bipartitions and then it is pruned by resampling in order to reveal the tree providing the best predictions. This asymmetric analysis of two tables produces homogeneous groups in terms of the response that are constrained by splitting levels in the values of some of the most important explanatory variables. We show that to calculate the explanatory power of an MRT, an appropriate adjusted coefficient of determination must include an estimation of the degrees of freedom of the MRT model through an algorithm. This estimation of the population coefficient of determination is practically unbiased. Since MRT is based upon discontinuity premises whereas canonical redundancy analysis (RDA) models continuous linear gradients, the comparison of their explanatory powers enables one to distinguish between those two patterns of species distributions along the explanatory variables. The extensive use of RDA for the study of beta diversity motivated the comparison between its explanatory power and that of MRT. In an explanatory perspective again, we define a new procedure called a cascade of multivariate regression trees (CMRT). This procedure provides the possibility of computing an MRT model where an order is imposed to nested explanatory hypotheses. CMRT provides a framework to study the exclusive effect of a main and a subordinate set of explanatory variables by calculating their explanatory powers. The interpretation of the final model is done as in nested MANOVA. New information may arise from this analysis about the relationship between the response and the explanatory variables, for example interaction effects between the two explanatory data sets that were not evidenced by the usual MRT model. On the other hand, we study the predictive power of generalized linear models (GLM) to predict individual tropical tree biomass as a function of allometric shape variables. Particularly, we examine the capacity of gaussian and gamma error structures to provide the most precise predictions. We show that for a particular species, gamma error structure is superior in terms of predictive power. This study is part of a practical framework; it is meant to be used as a tool for managers who need to precisely estimate the amount of carbon recaptured by tropical tree plantations. Our conclusions could be integrated within a program of carbon emission reduction by land use changes

    Détection des transferts horizontaux de gènes : modèles et algorithmes appliqués à l'évolution des espèces et des langues

    Get PDF
    Le transfert horizontal de gènes (THG, ou transfert latéral de gènes) est un mécanisme d'évolution naturel qui consiste en le transfert direct du matériel génétique d'une espèce à une autre. La possibilité que le transfert horizontal de gènes puisse jouer un rôle clé dans l'évolution biologique est un changement fondamental dans notre perception des aspects généraux de la biologie évolutive survenu ces dernières années. Par exemple, les bactéries et les virus possèdent des mécanismes sophistiqués d'acquisition de nouveaux gènes par transfert horizontal leur permettant de s'adapter et d'évoluer adéquatement dans leur environnement. Jusqu'à tout récemment, les méthodes de détection de ce mécanisme reposaient essentiellement sur l'analyse de séquences et étaient très rarement automatisées. Il est impossible de représenter l'évolution d'organismes ayant subi des THG à l'aide d'arbres phylogénétiques acycliques. La présentation adéquate est celle d'un réseau. Dans cette thèse, nous décrivons un nouveau modèle de ce mécanisme d'évolution, en se basant sur l'étude de différences topologiques et métriques entre un arbre d'espèces et un arbre du gène inférés pour le même ensemble d'espèces. Les méthodes qui en découlent ont été appliquées à des jeux de données réelles où des hypothèses de transferts latéraux de gènes étaient plausibles. Des simulations Monté-Carlo ont été menées afin d'évaluer la qualité des résultats par rapport à des méthodes existantes. Nous présentons également une généralisation du modèle de transferts horizontaux complets qui est applicable pour détecter des transferts partiels et identifier des gènes mosaïques. Dans ce dernier modèle, on suppose qu'une partie seulement du gène a été transférée. Enfin, nous présentons une application de ces nouvelles méthodes servant à modéliser des emprunts de mots survenus durant l'évolution des langues indo-européennes. \ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : arbre phylogénétique, réseau réticulé, transfert horizontal de gènes, critère des moindres carrés, distance de Robinson et Foulds, dissimilarité de bipartitions, biolinguistique

    Segmentation et classification dans les images de documents numérisés

    Get PDF
    Les travaux de cette thèse ont été effectués dans le cadre de l'analyse et du traitement d'images de documents imprimés afin d'automatiser la création de revues de presse. Les images en sortie du scanner sont traitées sans aucune information a priori ou intervention humaine. Ainsi, pour les caractériser, nous présentons un système d'analyse de documents composites couleur qui réalise une segmentation en zones colorimétriquement homogènes et qui adapte les algorithmes d'extraction de textes aux caractéristiques locales de chaque zone. Les informations colorimétriques et textuelles fournies par ce système alimentent une méthode de segmentation physique des pages de presse numérisée. Les blocs issus de cette décomposition font l'objet d'une classification permettant, entre autres, de détecter les zones publicitaires. Dans la continuité et l'expansion des travaux de classification effectués dans la première partie, nous présentons un nouveau moteur de classification et de classement générique, rapide et facile à utiliser. Cette approche se distingue de la grande majorité des méthodes existantes qui reposent sur des connaissances a priori sur les données et dépendent de paramètres abstraits et difficiles à déterminer par l'utilisateur. De la caractérisation colorimétrique au suivi des articles en passant par la détection des publicités, l'ensemble des approches présentées ont été combinées afin de mettre au point une application permettant la classification des documents de presse numérisée par le contenu.In this thesis, we deal with printed document images processing and analysis to automate the press reviews. The scanner output images are processed without any prior knowledge nor human intervention. Thus, to characterize them, we present a scalable analysis system for complex documents. This characterization is based on a hybrid color segmentation suited to noisy document images. The color analysis customizes text extraction algorithms to fit the local image properties. The provided color and text information is used to perform layout segmentation in press images and to compute features on the resulting blocks. These elements are classified to detect advertisements. In the second part of this thesis, we deal with a more general purpose: clusternig and classification. We present a new clustering approach, named ACPP, which is completely automated, fast and easy to use. This approach's main features are its independence of prior knowledge about the data and theoretical parameters that should be determined by the user. Color analysis, layout segmentation and the ACPP classification method are combined to create a complete processing chain for press images.VILLEURBANNE-DOC'INSA LYON (692662301) / SudocVILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

    Conception et mise en oeuvre d'outils efficaces pour le partitionnement et la distribution parallèles de problèmes numériques de très grande taille

    Get PDF
    Cette thèse porte sur le partitionnement parallèle de graphes et essentiellement sur son application à la renumérotation de matrices creuses. Nous utilisons pour résoudre ce problème un schéma multi-niveaux dont nous avons parallélisé les phases de contraction et d’expansion. Nous avons ainsi introduit pour la phase de contraction un nouvel algorithme de gestion des conflits d’appariements distants, tout en améliorant les algorithmes déjà existants en leur associant une phase de sélection des communications les plus utiles. Concernant la phase de d’expansion, nous avons introduit la notion de graphe bande qui permet de diminuer de manière très conséquente la taille du problème à traiter par les algorithmes de raffinement. Nous avons généralisé l’utilisation de ce graphe bande aux implantations séquentielles et parallèles de notre outil de partitionnement Scotch. Grâce à la présence du graphe bande, nous avons proposé une utilisation nouvelle des algorithmes génétiques dans le cadre de l’expansion en les utilisant comme heuristiques parallèles de raffinement de la partition.This thesis deals with parallel graph partitioning and, more specifically, focuses on its application to sparse matrix ordering. To solve this problem, we use a multi-level scheme, of which we have parallelized the coarsening and uncoarsening phases. We have developed, for the coarsening phase, a new synchronization algorithm to handle conflicts in remote matchings. We have also improved over existing algorithms by adding to them a selection step which aims at keeping only the most useful communications. Regarding the uncoarsening phase, we have introduced the concept of band graph, which allows us to dramatically decrease problem size for refinement algorithms. We have generalized the use of band graphs to the sequential and parallel implementations of our Scotch partitioning tool. Basing on band graphs, we have proposed a new application of genetic algorithms to the uncoarsening phase, using them as parallel refinement algorithms

    Outils d'aide à la décision pour la sélection des filières de valorisation des produits de la déconstruction des systèmes en fin de vie : application au domaine aéronautique

    Get PDF
    Dans un contexte de développement durable, les enjeux de la dernière phase du cycle de vie d'un système, la phase de retrait de service, se sont accrus ces dernières années. Les systèmes en fin de vie doivent être déconstruits afin d'être revalorisés pour répondre aux différentes exigences environnementales. Cette responsabilité incombe au concepteur qui doit définir le sous-système support de la phase de retrait de service : le système de déconstruction. Sa principale fonction est la réalisation de l'activité de déconstruction dans l'objectif de favoriser en aval le recyclage de la matière des constituants du système en fin de vie et/ou leur recyclage fonctionnel. Les stratégies de déconstruction doivent répondre à l'ensemble des problèmes de décision posés lors de la phase de retrait de service d'un système. Il s'agit notamment de sélectionner les constituants valorisables suivant des critères techniques, économiques et environnementaux puis de définir et optimiser le système de déconstruction permettant l'obtention de ces produits. La solution obtenue définie ce que nous avons appelé une trajectoire de déconstruction. Nos travaux portent sur la modélisation et l'optimisation de ces trajectoires. Nos développements s'articulent en quatre phases. Etat de l'art et démarche de définition d'une trajectoire. Dans cette phase, une structure de démarche de définition de trajectoires de déconstruction est proposée puis instrumentée. Les modèles généralement utilisés dans ce cadre sont de type déterministe et ne permettent pas de prendre en compte et de gérer les incertitudes inhérentes au processus de déconstruction (état dégradé du système en fin de vie et de ses constituants, demandes en produits issus de la déconstruction, dates de fin de vie des systèmes, …). Pour déterminer une solution robuste de déconstruction d'un système en fin de vie, l'aide à la décision proposée doit intégrer des incertitudes de nature diverse tout en facilitant leur gestion et leurs mises à jour. Incertitudes en déconstruction. Sur la base de ce constat, l'ensemble d'incertitudes couramment mises en jeu dans l'optimisation des trajectoires est identifié et caractérisé. Les méthodes probabilistes apparaissent comme des approches privilégiées pour intégrer ces incertitudes dans une démarche d'aide la décision. Les réseaux bayésiens et leur extension aux diagrammes d'influence sont proposés pour répondre à différents problèmes de décision posés lors de la définition d'une trajectoire de déconstruction. Ils servent de support au développement d'un outil d'aide à la décision. Modélisation de trajectoires de déconstruction : principes et approche statique d'optimisation. Après avoir présenté ses principes de modélisation, l'outil est développé dans une approche de détermination d'une trajectoire de déconstruction d'un système en fin de vie donné. La trajectoire obtenue fixe la profondeur de déconstruction, les options de revalorisation, les séquences et les modes de déconstruction suivant des critères économiques et environnementaux tout en permettant de gérer différents types d'incertitude. L'utilisation de critères économiques est ici privilégiée. Un exemple d'application sur un système aéronautique est développé pour illustrer les principes de modélisation. Approche dynamique pour l'optimisation d'une trajectoire de déconstruction. Le champ d'application de l'outil d'aide à la décision est étendu en intégrant une dimension temporelle à la modélisation du problème à l'aide des réseaux bayésiens dynamiques. Les trajectoires de déconstruction peuvent ainsi être établies sur des horizons couvrant les arrivées de plusieurs systèmes en fin de vie en présence d'incertitudes. Le modèle permet de déterminer des politiques de déconstruction pour chaque opération identifiée dans la trajectoire en fonction de différents paramètres liés à la gestion des demandes et des arrivées ou encore au processus d'obtention de ces produits. Le décideur peut ainsi adapter l'outil à différents contextes de détermination de trajectoire de déconstruction de systèmes en fin de vie

    Bifurcation analysis of the Topp model

    Get PDF
    In this paper, we study the 3-dimensional Topp model for the dynamicsof diabetes. We show that for suitable parameter values an equilibrium of this modelbifurcates through a Hopf-saddle-node bifurcation. Numerical analysis suggests thatnear this point Shilnikov homoclinic orbits exist. In addition, chaotic attractors arisethrough period doubling cascades of limit cycles.Keywords Dynamics of diabetes · Topp model · Reduced planar quartic Toppsystem · Singular point · Limit cycle · Hopf-saddle-node bifurcation · Perioddoubling bifurcation · Shilnikov homoclinic orbit · Chao
    corecore