140 research outputs found

    SOMbrero : Cartes auto-organisatrices stochastiques pour l'intégration de données décrites par des tableaux de dissimilarités

    No full text
    National audienceDans de nombreuses situations réelles, les individus sont décrits par des jeux de données multiples qui ne sont pas nécessairement de simples tableaux numériques mais peuvent être des données complexes (graphes, variables qualitatives, texte...). Un cas typique est celui des graphes étiquetés dans lequel les individus (les sommets du graphe) sont décrits à la fois par leurs relations les uns aux autres mais aussi par des attributs de natures diverses. Dans (Villa-Vialaneix et al, 2013 ; Olteanu et al , 2013), nous avons proposé d'utiliser des cartes auto-organisatrices (Kohonen, 2011) pour combiner classification et visualisation en projetant les individus étudiés sur une grille de faible dimension. Notre approche permet de traiter des données non numériques par le biais de noyaux ou de dissimilarités, et est basée sur une version stochastique de l'apprentissage de cartes auto-organisées. Les différentes dissimilarités sont combinées et la combinaison est optimisée au cours de l'apprentissage de la carte

    Classification supervisée multi-étiquette en actes de dialogue: analyse discriminante et transformations de Schoenberg

    Get PDF
    Abstract This work studies the multi-label classification of turns in simple English Wikipedia talk pages into dialog acts. The treated dataset was created and multi-labeled by (Ferschke et al., 2012). The first part analyses dependences between labels, in order to examine the annotation coherence and to determine a classification method. Then, a multi-label classification is computed, after transforming the problem into binary relevance. Regarding features, whereas (Ferschke et al., 2012) use features such as uni-, bi-, and trigrams, time distance between turns or the indentation level of the turn, other features are considered here: lemmas, part-of-speech tags and the meaning of verbs (according to WordNet). The dataset authors applied approaches such as Naive Bayes or Support Vector Machines. The present paper proposes, as an alternative, to use Schoenberg transformations which, following the example of kernel methods, transform original Euclidean distances into other Euclidean distances, in a space of high dimensionality. Résumé Ce travail étudie la classification supervisée multi-étiquette en actes de dialogue des tours de parole des contributeurs aux pages de discussion de Simple English Wikipedia (Wikipédia en anglais simple). Le jeu de données considéré a été créé et multi-étiqueté par (Ferschke et al., 2012). Une première partie analyse les relations entre les étiquettes pour examiner la cohérence des annotations et pour déterminer une méthode de classification. Ensuite, une classification supervisée multi-étiquette est effectuée, après recodage binaire des étiquettes. Concernant les variables, alors que (Ferschke et al., 2012) utilisent des caractéristiques telles que les uni-, bi- et trigrammes, le temps entre les tours de parole ou l'indentation d'un tour de parole, d'autres descripteurs sont considérés ici : les lemmes, les catégories morphosyntaxiques et le sens des verbes (selon WordNet). Les auteurs du jeu de données ont employé des approches telles que le Naive Bayes ou les Séparateurs à Vastes Marges (SVM) pour la classification. Cet article propose, de façon alternative, d'utiliser et d'étendre l'analyse discriminante linéaire aux transformations de Schoenberg qui, à l'instar des méthodes à noyau, transforment les distances euclidiennes originales en d'autres distances euclidiennes, dans un espace de haute dimensionnalité

    Accélération des cartes auto-organisatrices sur tableau de dissimilarités par séparation et évaluation

    Get PDF
    A paraîtreNational audienceIn this paper, a new implementation of the adaptation of Kohonen self-organising maps (SOM) to dissimilarity matrices is proposed. This implementation relies on the branch and bound principle to reduce the algorithm running time. An important property of this new approach is that the obtained algorithm produces exactly the same results as the standard algorithm

    La structure spatiale des déplacements pendulaires des femmes et des hommes dans la région de Montréal.

    Get PDF
    À l'aide de données inédites du recensement de 1991 de Statistique Canada, nous examinons les différences femmes-hommes, pour cinq catégories professionnelles, quant aux structures spatiales des déplacements résidence-travail, au moyen de mesures de dissimilarité appliquées à des matrices origine-destination. Compte tenu des particularités de Montréal, nos données sont en accord avec plusieurs conclusions communément admises dans la littérature. En ce qui concerne plus spécifiquement la structure des déplacements pendulaires, nous examinons deux hypothèses : (1) le comportement des femmes est plus nettement distinct de celui des hommes de la même catégorie professionnelle que de celui des femmes d'autres catégories; (2) la structure des déplacements pendulaires des femmes est plus nettement distincte de celle des hommes pour les catégories professionnelles de statut supérieur que pour les autres. Nos résultats sont mitigés : si les hypothèses ne sont pas catégoriquement rejetées, elles sont pour le moins mises en doute.We use unpublished 1991 Statistics Canada Census data to examine male-female differences in the spatial structure of home-to-work commuting, for five occupational categories, by applying dissimilarity measures to origin-destination matrices. After allowing for the particular characteristics of Montréal, our data agree with several findings found in the literature. Regarding more specifically the spatial structure of commuting, we consider two hypotheses : (1) the behavior of women is more dissimilar from that of men of the same occupational category than from that of women of other categories; (2) women's spatial structure of commuting is more dissimilar from that of men for higher-status occupational categories than for lower-status ones. Results are mixed. While the hypotheses are not clearly rejected, they are definitely challenged

    Analyse des données et systèmes d'information géographique

    Full text link
    Les outils de requête sur base de données, proposés dans les systèmes d'information gégraphique, permettent de construire des tableaux de données complexes qu'il est nécessaire d'exploiter avec des méthodes statistiques adaptées. Cette étude cherche à poser les problèmes particuliers liés à la gestion et à l'analyse statistique des données attributaires et géographiques dans les SIG. Les principes mathématiques de quelques méthodes exploratoires, dérivées de l'analyse des données, ont été développés. Le choix des méthodes statistiques a été dicté par la nécessité de prendre en compte l'aspect géographique du support des données. Une comparaison de trois méthodes à travers leurs résultats sur un exemple précis conclut cette étude. (Résumé d'auteur

    Classification ascendante hiérarchique à noyaux et une application aux données textuelles

    Get PDF
    National audienceLa formule de Lance et Williams permet d'unifier plusieurs méthodes de classification ascendante hiérarchique (CAH). Dans cet article, nous suppo-sons que les données sont représentées dans un espace euclidien et nous établis-sons une nouvelle expression de cette formule en utilisant les similarités cosinus au lieu des distances euclidiennes au carré. Notre approche présente les avan-tages suivants. D'une part, elle permet d'étendre naturellement les méthodes classiques de CAH aux fonctions noyau. D'autre part, elle permet d'appliquer des méthodes d'écrêtage permettant de rendre la matrice de similarités creuse afin d'améliorer la complexité de la CAH. L'application de notre approche sur des tâches de classification automatique de données textuelles montre d'une part, que le passage à l'échelle est amélioré en mémoire et en temps de traitement; d'autre part, que la qualité des résultats est préservée voire améliorée

    Contributions à la modélisation et à l'inférence des fonctions aléatoires non-stationnaires de second ordre

    Get PDF
    Stationary Random Functions have been sucessfully applied in geostatistical applications for decades. The underlying spatial dependence structure of the Random Function is represented by a stationary variogram or covariance. However, in some instances, there is little reason to expect the spatial dependence structure to be stationary over the whole region of interest. In this manuscript, two non-stationary modelling approaches for Random Functions are considered: space deformation and stochastic convolution. For each of them, we develop a statistical methodology for estimating the non-stationary spatial dependence structure, in the context of a single realization. Moreover, we also show how spatial predictions and conditional simulations can be carried out in this non-stationary framework. The developed inference methods allow to capture varying spatial structures while guaranteeing the global consistency of the final model. The assessment of their performance on both synthetic and real datasets show that they outperform stationary method, according to several criteria. Beyond the prediction, they can also serve as a tool for exploratory analysis of the non-stationarity.Les fonctions aléatoires stationnaires ont été utilisées avec succès dans les applications géostatistiques depuis plusieurs décennies. La structure de dépendance spatiale sous-jacente de la fonction aléatoire est alors représentée par un variogramme ou une covariance stationnaire. Cependant, dans certaines situations, il y a très peu de raisons de s'attendre à une structure de dépendance spatiale stationnaire sur l'ensemble du domaine d'intérêt. Dans cette thèse, deux approches de modélisation non-stationnaire de fonctions aléatoires sont considérées: déformation d'espace et convolution stochastique. Pour chacune d'elle, nous développons une méthodologie statistique d'estimation de la structure de dépendance spatiale non-stationnaire, dans le contexte d'une réalisation unique. Par ailleurs, nous montrons également comment dans ce cadre non-stationnaire, les prédictions spatiales et les simulations conditionnelles peuvent être menées. Les méthodes d'inférence développées permettent de capturer des structures de dépendance variables tout en garantissant la cohérence globale du modèle final. L'évaluation de leur performance selon plusieurs critères, sur des données synthétiques et réelles montre qu'elles donnent de meilleurs résultats de prédiction qu'une méthode stationnaire. Au delà de la prédiction, elles peuvent également servir comme outil pour une analyse exploratoire de la non-stationnarité

    Un nouvel algorithme pour retrouver les relations phylogénétiques entre la distribution géographique des espèces et leurs compositions génétiques

    Get PDF
    L'objectif de ce projet de maîtrise est de développer un nouvel algorithme permettant de retrouver les relations phylogénétiques entre un arbre de référence (par exemple, l'arbre de la distribution géographique des espèces ou des paramètres climatiques) et un arbre caractérisant un fragment de l'alignement de séquences multiples (ASM). Pour ce faire, nous récupérerons d'abord les différents fragments d'un ASM donné. Nous les soumettrons par la suite aux différents programmes du paquet PHYLIP (Seqboot, ProtDist ou DnaDist, Neighbor et Consense) et le programme PhyML afin d'obtenir un arbre consensus avec les valeurs de bootstrap sur ses branches. À partir de chaque arbre consensus, nous calculerons son bootstrap moyen. De plus, nous comparerons topologiquement l'arbre consensus obtenu à l'arbre de référence pour connaître la distance de Robinson et Foulds (RF) normalisée entre eux. Pour chaque fragment d'un ASM, nous conserverons uniquement les données relatives à des fragments correspondant à la distance RF normalisée la plus petite (i.e., celle qui représente la plus grande similitude entre les deux arbres). Dans le cas où plusieurs fragments correspondront à la même valeur de la distance RF normalisée, l'estimation se poursuivra sur l'arbre consensus ayant le score de bootstrap le plus élevé (i.e., meilleur support de l'arbre). Pour connaître la performance de notre algorithme, nous utiliserons un jeu de données de 52 espèces appartenant au groupe des Carnivores se localisant en Amérique du Nord. Nous récupérons aussi 21 protéines issues de la base de données GenBank. La construction des arbres de référence se fera à partir de données climatiques de l'habitat de ces espèces (i.e., température, précipitation et altitude). Notre algorithme permettra de trouver des sous-séquences des gènes donnant une similarité topologique accrue entre l'arbre de référence et l'arbre phylogénétique obtenu à partir des séquences.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : arbre phylogénétique, phylogéographie, distance de Robinson et Foulds, bootstrap, alignement de séquences multiples, paquet PHYLIP, GenBank
    corecore