Search CORE

196 research outputs found

Détection et classification non supervisées de relations sémantiques dans des articles scientifiques

Author: Buscaldi Davide
Charnois Thierry
Gábor Kata
Tellier Isabelle
Zargayouna Haïfa
Publication venue: HAL CCSD
Publication date: 04/07/2016
Field of study

International audienceDans cet article, nous abordons une tâche encore peu explorée, consistant à extraire automatiquement l'état de l'art d'un domaine scientifique à partir de l'analyse d'articles de ce domaine. Nous la ramenons à deux sous-tâches élémentaires : l'identification de concepts et la reconnaissance de relations entre ces concepts. Une extraction terminologique permet d'identifier les concepts candidats, qui sont ensuite alignés à des ressources externes. Dans un deuxième temps, nous cherchons à reconnaître et classifier automatiquement les relations sémantiques entre concepts de manière non-supervisée, en nous appuyant sur différentes techniques de clustering et de biclustering. Nous mettons en oeuvre ces deux étapes dans un corpus extrait de l'archive de l'ACL Anthology. Une analyse manuelle nous a permis de proposer une typologie des relations sémantiques, et de classifier un échantillon d'instances de relations. Les premières évaluations suggèrent l'intérêt du biclustering pour détecter de nouveaux types de relations dans le corpus. ABSTRACT Unsupervised Classification of Semantic Relations in Scientific Papers In this article, we tackle the yet unexplored task of automatically building the "state of the art" of a scientific domain from a corpus of research papers. This task is defined as a sequence of two basic steps : finding concepts and recognizing the relations between them. First, candidate concepts are identified using terminology extraction, and subsequently linked to external resources. Second, semantic relations between entities are categorized with different clustring and biclustering algorithms. Experiences were carried out on the ACL Anthology Corpus. Results are evaluated against a hand-crafted typology of semantic relations and manually categorized examples. The first results indicate that biclustering techniques may indeed be useful for detecting new types of relations. MOTS-CLÉS : analyse de la littérature scientifique, extraction de relations, clustering, biclustering

HAL-Paris 13

Étude de la dynamique des populations du viroïde de la mosaïque latente du pêcher par séquençage à haut débit et segmentation

Author: Glouzon Jean-Pierre
Publication venue: 'Universite de Sherbrooke'
Publication date: 01/01/2012
Field of study

Les viroïdes sont des agents pathogènes responsables de maladies affectant les plantes telles que l'avocatier, le pêcher, la tomate, la pomme dé terre, etc. Parce qu'ils dégradent la qualité des fruits et des légumes qu'ils infectent, les viroïdes sont la cause de la perte d'environ 50 % de la production mondiale des cultures touchées. La compréhension des mécanismes couvrant l'infection aux viroïdes constitue un enjeu économique majeur visant l'amélioration de la productivité, dans l'exploitation de ces plantes. Cette étude aborde l'analyse des processus liés à l'infection aux viroïdes par la découverte de nouveaux aspects caractérisant la variabilité génétique du viroïde de la mosaïque latente du pêcher (PLMVd). Elle décrit la dynamique des populations de PLMVd. La grande variabilité de PLMVd, expliquée par un fort taux de mutations, implique la génération de séquences diverses et variées, prenant la forme de nuages. Notre approche pour comprendre cette variabilité génétique de PLMVd consiste à infecter un pêcher à partir d'une seule séquence de PLMVd, puis à en extraire les séquences et analyser leurs caractéristiques intrinsèques par une nouvelle méthode bio-informatique. À notre connaissance, notre étude, à ce jour, est la première à utiliser les récentes techniques de séquençage à haut débit, à des fins d'analyses des viroïdes. La structure relativement simple des viroïdes, brin d'ARN circulaire d'environ 240 à 400 nucléotides, leur confère l'avantage de pouvoir être séquencé dans leur longueur totale par le séquençage à haut débit. Ce dernier couvre de grands volumes de données biologiques, ce qui convient pour séquencer les nuages de séquences qu'on peut retrouver au sein de la population de PLMVd. En bio-informatique, il existe de nombreux algorithmes permettant de comparer des séquences pour en extraire de l'information. L'un des défis majeurs de ces algorithmes est la prise en charge efficace et rapide de quantité de données en constante croissance. Dans le cadre de notre étude, le volume de séquences généré par PLMVd rend impraticable l'application des algorithmes d'alignement pour comparer les séquences et en estimer leurs similarités. D'autres algorithmes tels que ceux basés sur les N-grammes impliquent une perte partielle de l'information contenue dans les séquences. Nous avons donc utilisé une mesure de similarité basée sur le modèle de probabilité conditionnelle (CPD) qui nous permet d'une part, de conserver l'information sous forme de patrons (sous-séquences) contenus dans les séquences, et d'autre part, d'éviter l'alignement de séquences tout en comparant directement chaque séquence avec un ensemble de séquences. Le modèle CPD est intégré dans un nouvel algorithme de segmentation pour les séquences catégoriques, appelé DHCS. Cette étude révèle de nouveaux aspects dans la variabilité génétique de PLMVd. En effet, elle nous a permis d'une part d'extraire des familles de séquences caractérisées par des mutations spécifiques, puis d'autre part, de représenter la distribution de ces mutations dans une arborescence. Par la suite, elle a favorisé l'observation de mutations localisées dans le noyau d'un motif particulier, nommé le ribozyme en tête de marteau des séquences, servant à l'amélioration de l'adaptation de PLMVd. Celui-ci est effectivement sujet à mutations parce que la séquence inoculée au pêcher après 6 mois d'infections n'a pas été retrouvée et que le nombre de mutations enregistrées varie de 2 à 51. Des deux librairies obtenues, nous avons répertorié 1125 et 1061 séquences pour un total de 2186 nouvelles séquences de PLMVd. Seules 300 séquences étaient connues à ce jour. Nous avons observé que les séquences possèdent, selon la librairie, en moyenne 4.6 et 6.3 mutations par rapport à la séquence inoculée. Certaines d'entre elles ont jusqu'à 20 % de dissimilarité par rapport à la séquence inoculée, ce qui est considérable. Grâce à DHCS, les différentes séquences ont pu être groupées en familles, au nombre de 7 et 8 selon la librairie

Savoirs UdeS

Représentations parcimonieuses pour les signaux multivariés

Author: BARTHELEMY Quentin
MARS Jérôme
Publication venue
Publication date: 01/01/2013
Field of study

Dans cette thèse, nous étudions les méthodes d'approximation et d'apprentissage qui fournissent des représentations parcimonieuses. Ces méthodes permettent d'analyser des bases de données très redondantes à l'aide de dictionnaires d'atomes appris. Etant adaptés aux données étudiées, ils sont plus performants en qualité de représentation que les dictionnaires classiques dont les atomes sont définis analytiquement. Nous considérons plus particulièrement des signaux multivariés résultant de l'acquisition simultanée de plusieurs grandeurs, comme les signaux EEG ou les signaux de mouvements 2D et 3D. Nous étendons les méthodes de représentations parcimonieuses au modèle multivarié, pour prendre en compte les interactions entre les différentes composantes acquises simultanément. Ce modèle est plus flexible que l'habituel modèle multicanal qui impose une hypothèse de rang 1. Nous étudions des modèles de représentations invariantes : invariance par translation temporelle, invariance par rotation, etc. En ajoutant des degrés de liberté supplémentaires, chaque noyau est potentiellement démultiplié en une famille d'atomes, translatés à tous les échantillons, tournés dans toutes les orientations, etc. Ainsi, un dictionnaire de noyaux invariants génère un dictionnaire d'atomes très redondant, et donc idéal pour représenter les données étudiées redondantes. Toutes ces invariances nécessitent la mise en place de méthodes adaptées à ces modèles. L'invariance par translation temporelle est une propriété incontournable pour l'étude de signaux temporels ayant une variabilité temporelle naturelle. Dans le cas de l'invariance par rotation 2D et 3D, nous constatons l'efficacité de l'approche non-orientée sur celle orientée, même dans le cas où les données ne sont pas tournées. En effet, le modèle non-orienté permet de détecter les invariants des données et assure la robustesse à la rotation quand les données tournent. Nous constatons aussi la reproductibilité des décompositions parcimonieuses sur un dictionnaire appris. Cette propriété générative s'explique par le fait que l'apprentissage de dictionnaire est une généralisation des K-means. D'autre part, nos représentations possèdent de nombreuses invariances, ce qui est idéal pour faire de la classification. Nous étudions donc comment effectuer une classification adaptée au modèle d'invariance par translation, en utilisant des fonctions de groupement consistantes par translation.In this thesis, we study approximation and learning methods which provide sparse representations. These methods allow to analyze very redundant data-bases thanks to learned atoms dictionaries. Being adapted to studied data, they are more efficient in representation quality than classical dictionaries with atoms defined analytically. We consider more particularly multivariate signals coming from the simultaneous acquisition of several quantities, as EEG signals or 2D and 3D motion signals. We extend sparse representation methods to the multivariate model, to take into account interactions between the different components acquired simultaneously. This model is more flexible that the common multichannel one which imposes a hypothesis of rank 1. We study models of invariant representations: invariance to temporal shift, invariance to rotation, etc. Adding supplementary degrees of freedom, each kernel is potentially replicated in an atoms family, translated at all samples, rotated at all orientations, etc. So, a dictionary of invariant kernels generates a very redundant atoms dictionary, thus ideal to represent the redundant studied data. All these invariances require methods adapted to these models. Temporal shift-invariance is an essential property for the study of temporal signals having a natural temporal variability. In the 2D and 3D rotation invariant case, we observe the efficiency of the non-oriented approach over the oriented one, even when data are not revolved. Indeed, the non-oriented model allows to detect data invariants and assures the robustness to rotation when data are revolved. We also observe the reproducibility of the sparse decompositions on a learned dictionary. This generative property is due to the fact that dictionary learning is a generalization of K-means. Moreover, our representations have many invariances that is ideal to make classification. We thus study how to perform a classification adapted to the shift-invariant model, using shift-consistent pooling functions.SAVOIE-SCD - Bib.électronique (730659901) / SudocGRENOBLE1/INP-Bib.électronique (384210012) / SudocGRENOBLE2/3-Bib.électronique (384219901) / SudocSudocFranceF

OpenGrey Repository

Génération de scénarios par quantification optimale en dimension élevée

Author: Proulx Simon
Publication venue
Publication date: 01/06/2014
Field of study

RÉSUMÉ : L'optimisation stochastique est une branche de la recherche opérationnelle qui traite de problèmes d'optimisation impliquant des phénomènes aléatoires. Le programme mathématique, défini par une fonction objectif et des contraintes, contient alors une ou plusieurs variables aléatoires et est appelé programme stochastique. Avant de procéder à sa résolution, on doit d'abord modéliser le vecteur aléatoire apparaissant dans le problème. Or, il n'est généralement pas possible de résoudre un programme stochastique pour lequel le support des variables aléatoires est infini, tel que les distributions continues. On doit donc discrétiser la loi probabiliste sur un ensemble fini de réalisations, appelées scénarios, auxquelles on assigne une probabilité. Leur quantité est choisie en fonction du temps de convergence numérique et de la finesse de l'approximation désirés. L'objectif principal de ce mémoire est de développer des méthodes de génération de scénarios permettant d'obtenir des solutions près de l'optimalité pour les programmes stochastiques comprenant des vecteurs aléatoires en haute dimension. Il existe plusieurs méthodes de génération de scénarios, dont la plus courante est l'échantillonnage pur et consiste à tirer les scénarios au hasard à partir de la distribution estimée du vecteur aléatoire. Cependant, les scénarios obtenus par échantillonnage pur sont rarement ceux qui représentent le mieux la loi de probabilités. Dans ce mémoire, nous justifions à l'aide de résultats théoriques et expérimentaux que les scénarios devraient plutôt être générés par la méthode de quantification optimale. Nous montrons ensuite que lorsque le nombre de donnes tend vers l'infini, les problèmes de k-médianes et k-moyennes sont équivalents à la quantification optimale avec les normes L1 et L2 respectivement. Les techniques développées pour générer les scénarios sont donc inspirées d'algorithmes de partitionnement de données. Il n'est pas toujours possible d'estimer avec confiance la distribution d'un vecteur aléatoire à partir d'un ensemble de données. Le cas où la distribution est connue (ou estimable) est donc traité séparément de celui où elle ne l'est pas. Lorsque la distribution est connue et que le problème ne contient qu'une seule variable aléatoire, nous utilisons l'algorithme de Lloyd qui nous permet d'atteindre le minimum global des problèmes de k-moyennes et k-médianes continus. Dans le cas multidimensionnel, nous choisirons plutôt la méthode de quantification vectorielle par apprentissage compétitif (QVAC). La quantification optimale suggéré l'utilisation de la distance induite par la norme L1, puisqu'elle permet d'établir une borne supérieure sur l'erreur de discrétisation du programme stochastique. Afin de quantifier le vecteur aléatoire avec la norme L1, nous adaptons le paramètre de saut de la QVAC, qui est généralement utilisé avec la distance euclidienne. Nous trouvons cependant que la borne supérieure sur l'erreur de discrétisation peut être beaucoup plus grande que l'erreur elle-même. On en déduit que la norme L2 peut également être utilisée pour générer les scénarios et offre une plus grande couverture des événements extrêmes. Lorsque la distribution n'est pas connue, nous utilisons les algorithmes d'échange des centres et de Lloyd (k-médianes et k-moyennes) qui permettent de générer les scénarios directement à partir des données. Dans le dernier chapitre, on analyse entre autres les effets du nombre de scénarios, de la norme utilisée, de la variance et de la dimension du vecteur aléatoire sur nos méthodes de génération de scénarios. On observe sans surprises qu'il est particulièrement difficile d'obtenir des solutions de qualité lorsque la dimension est élevée. Trois méthodes sont donc proposées pour réduire la dimension effective du problème, dont l'analyse par composantes principales et les copules. Parmi celles-ci, on constate cependant que seule l'analyse par composantes principales permet de réduire les coûts de l'optimisation stochastique en dimension élevée. Les scénarios sont testés sur le problème du vendeur de journaux, où la demande suit une loi log-normale ainsi que sur une application réelle à partir d'un ensemble de données historiques lié à la confection d'horaire de personnels. Les solutions de l'optimisation stochastique à partir des méthodes de génération de scénarios proposées ont été comparées à celles obtenues par échantillonnage pur et par l'optimisation déterministe. Pour le problème du vendeur de journaux avec distribution de probabilités connue, des gains substantiels de nos méthodes sont observés pour la quasi-totalité des instances étudiées. Lorsque la distribution n'est pas connue, nos méthodes induisent des erreurs de discrétisation moins de 340 fois plus petites que celles de l'optimisation déterministe avec 100 scénarios. Les erreurs obtenues par les algorithmes d'échange des centres et de Lloyd sont similaires, mais ce dernier reste généralement plus pratique à cause de sa simplicité et sa rapidité d'exécution. Dans le cas du problème de confection d'horaires, nous utilisons toutefois l'algorithme d'échange des centres puisqu'il permet de générer des scénarios de la demande en nombres entiers. Malgré la dimension élevée du problème et les faibles variances, nos méthodes de génération de scénarios permettent tout de même d'obtenir des gains modestes par rapport à l'optimisation déterministe.----------ABSTRACT : Stochastic optimization is a branch of operations research that deals with optimization problems involving random processes. The mathematical program dened by the objective function and the constraints then contains one or several random variables and is called stochastic program. Prior to its resolution, we must rst model the random vector appearing in the problem. However, it is generally not possible to solve a stochastic program for which the support of the random variables is innite, such as continuous distributions. Therefore, we must discretize the probabilistic law over a nite set of events, called scenarios, to which we assign probabilities. Their quantity is chosen according to the desired convergence time and discretization precision. The main objective of this paper is to develop scenario generation methods that lead to near optimal solutions of the stochastic program containing high dimensional random vectors. There are several methods for generating scenarios, amongst which the most common is pure sampling and consists in randomly selecting scenarios from the estimated distribution. However, the scenarios obtained by pure sampling are rarely those which represent the law of probability best. In this paper, we justify using experimental and theoretical results that the scenarios should rather be generated dy optimal quantization. We then show that when the data set is innite, the clustering analysis k-means and k-medians problems are equivalent to optimal quantization with L1 and L2 norm respectively. As a result, the techniques developed for generating scenarios are inspired by clustering analysis algorithms. It is not always possible to condently estimate the distribution of a random vector from data. The cases where the probability distribution is known (or can be estimated) and unknown are thus treated separately. In the event where the probability law is known and the problem includes a single random variable, we use Lloyd's algorithm, which converges to the global minimum of the continuous k-medians and k-means problems. In the multivariate cases, we will rather chose the competitive learning vector quantization (CLVQ) method. Optimal quantization suggests the use of the L1-norm, since it allows us to establish an upper bound on the stochastic program discretization error. In order to quantify the random vector with the L1-norm, we adapt the CLVQ step parameter, which is ordinarily used with euclidean distance. However, we nd that the upper bound on the discretization error may be much larger than the error itself. Hence, we deduce that the L2-norm may also be used to generate scenarios and provides greater coverage of extreme events. When the distribution is unknown, we use the swapping centers and Lloyd (k-medians and k-means) algorithms that allow direct scenario generation from the data. In the last chapter, we analyze the eects of the number of scenarios, norm, variance and dimension of the random vector on our scenario generation methods. As expected, we observe that it is particularly dicult to obtain quality solutions when the dimension is high. Three methods are then proposed to reduce the eective dimensionality of the problem, including principal components analysis and copulas. Amongst these, it is noted that only principal components analysis reduces the costs of high-dimensional stochastic optimization. Our scenarios are tested on a virtual news vendor problem, where demand follows a log-normal distribution, and on a real data set for employee scheduling. The stochastic optimization solutions obtained by our methods are compared to those of pure sampling and deterministic optimization. For the news vendor problem with known probability distribution, substantial gains of our methods are observed for almost all instances studied. When the distribution is unknown, our methods induce costs less than 340 times that of deterministic optimization with 100 scenarios. The discretization errors obtained by the swapping center algorithm and Lloyd's method are similar, but the latter is most appealing due to its simplicity and execution speed. Nonetheless, for the employee scheduling problem, we still use the swapping algorithm since it allows us to generate integer scenarios of demand. Despite the high dimensionality of the problem and low variances, our scenario generation methods allow modest prots compared to deterministic optimization

PolyPublie

Analyse de faisabilité de l'implantation d'un protocole de communication sur processeur multicoeurs

Author: Gémieux Michel
Publication venue
Publication date: 01/04/2015
Field of study

RÉSUMÉ Les travaux de ce mémoire s’inscrivent dans le cadre d’un projet qui fait l’objet d’un parrainage industriel. Les résultats visent à comprendre le comportement d’un système de traitement opérant dans des contextes précis. Nous situons ce projet à l’intersection des principes d’ordonnancements de tâches, des systèmes d’exécution, de la virtualisation de fonctions de réseaux et surtout les contraintes associées à la virtualisation d’une pile de protocole LTE (Long Term Evolution), la norme de téléphonie cellulaire la plus en vue en ce moment. Une revue de littérature est proposée pour expliquer en détail les concepts vus plus haut, afin d’avoir une idée précise de la situation de test. D’abord, une étude des grappes d’unités de traitement temps réel est effectuée dans l’optique de l’implémentation de ce qu’il est convenu d’appeler un Cloud Radio Area Network (C-RAN), qui supporte sur une plateforme infonuagique l’électronique qui effectue le traitement de signal requis pour un point d’accès de téléphonie cellulaire. L’étude développée dans ce mémoire vise à évaluer les différents goulots d’étranglement qui peuvent survenir suite à la réception d’un paquet LTE au sein d’une trame CPRI (Common Public Radio Interface), jusqu’à l’envoi de ce paquet d’un serveur maitre jusqu’aux esclaves. Nous évaluons donc les latences et bandes passantes observées pour les différents protocoles composant la plateforme. Nous caractérisons notamment les communications CPRI des antennes vers le bassin de stations de base virtuelles, une communication de type Quick Path Interconnect (QPI) entre des cœurs de traitement et un réseau logique programmable de type FPGA, une communication dédiée point à point entre le FPGA et une carte NIC (Network Interface Card) pour finir avec l’envoi de trames Ethernet vers les serveurs esclaves. Cette étude nous permet de déduire que la virtualisation d’une pile LTE est viable sur une telle grappe de calcul temps réel.----------ABSTRACT The work performed as part of this Master thesis is done in the context of an industrially sponsored project. The objective is to understand the runtime behavior of a class of systems in specific contexts. We place this project at the intersection of the principles of task scheduling, runtimes, Network Functions Virtualisation (NFVs) and especially with the constraints associated with virtualization of an LTE (Long Term Evolution) stack that is the most prominent cellular telecommunication standard at the moment. A literature review is proposed to explain in detail the concepts discussed above, in order to have a clear idea of the target environment. First, a study of a real time processing cluster is carried out in relation to the implementation of the so-called Cloud Radio Area Network (C-RAN) that supports on a cloud platform all the electronics which performs the signal processing required for a cellular access point. The study developed in this paper is to evaluate the various bottlenecks that can occur following the receipt of an LTE packet within a Common Public Radio Interface (CPRI) frame, then as part of sending the package to a master server before routing it to the slaves. We evaluate the latencies and bandwidths observed for the different protocols used on the platform components. In particular, we characterize the CPRI communications from the antennas to the virtual base stations units, a Quick Path Interconnect (QPI) communication between processing cores and a programmable logic array in the type of a FPGA, a dedicated point to point communication between the FPGA and a NIC (Network Interface Card) to end with the sending Ethernet frames to the slave servers. This study allows us to infer that the virtualization of an LTE stack is viable on a real time computation cluster with the implied architecture. Then, to be able to validate the effectiveness of different scheduling algorithms, an emulation of a LTE Uplink stack virtualization will be made. Through a runtime called StarPU coupled with profiling tools, we deliver results to assess the need for dedicated thread or cores to manage tasks within a server

PolyPublie

Résolution exacte du problème de partitionnement de données avec minimisation de variance sous contraintes de cardinalité par programmation par contraintes

Author: Haouas Mohammed Najib
Publication venue
Publication date: 01/01/2020
Field of study

Le partitionnement de données représente une procédure destinée à regrouper un ensemble d’observations dans plusieurs sous ensembles homogènes et/ou bien séparés. L’idée derrière une telle activité est de simplifier l’extraction d’information utile en étudiant les groupes résultants plutôt que les observations elles-mêmes. Cela dit, plusieurs situations appellent à ce que la solution générée respecte un ensemble de contraintes données. En particulier, on exige parfois que les groupes résultants comportent un nombre prédéfini d’éléments. On parle de partitionnement avec contraintes de cardinalité. On présente alors, dans ce travail, une approche de résolution exacte pour le partitionnement de données avec minimisation de la variance sous contraintes de cardinalité. En utilisant le paradigme de la Programmation par Contraintes, on propose d’abord un modèle adéquat du problème selon celui-ci. Ensuite, on suggère à la fois une stratégie de recherche rehaussée ainsi que deux algorithmes de filtrage. Ces outils ainsi développés tirent avantage de la structure particulière du problème afin de naviguer l’espace de recherche de façon efficace, à la recherche d’une solution globalement optimale. Des expérimentations pratiques montrent que notre approche procure un avantage important par rapport aux autres méthodes exactes existantes lors de la résolution de plusieurs exemplaires du problème.----------ABSTRACT: Data clustering is a procedure designed to group a set of observations into subsets that are homogeneous and/or well separated. The idea behind such an endeavor is to simplify extraction of useful information by studying the resulting groups instead of directly dealing with the observations themselves. However, many situations mandate that the answer conform to a set of constraints. Particularly one that involves the target number of elements each group must possess. This is known as cardinality constrained clustering. In this work we present an exact approach to solve the cardinality constrained Euclidian minimum sum-of-squares clustering. Based on the Constraint Programming paradigm, we first present an adequate model for this problem in the aforementioned framework. We then suggest both an upgraded search heuristic as well as two filtering algorithms. We take advantage of the structure of the problem in designing these tools to efficiently navigate the search space, looking for a globally optimal solution. Computational experiments show that our approach provides a substantial boost to the resolution of several instances of the problem in comparison to existing exact methods

PolyPublie

Contributions à l'étude de la classification spectrale et applications

Author: Mouysset Sandrine
Publication venue: Institut National Polytechnique de Toulouse
Publication date: 07/12/2010
Field of study

La classification spectrale consiste à créer, à partir des éléments spectraux d'une matrice d'affinité gaussienne, un espace de dimension réduite dans lequel les données sont regroupées en classes. Cette méthode non supervisée est principalement basée sur la mesure d'affinité gaussienne, son paramètre et ses éléments spectraux. Cependant, les questions sur la séparabilité des classes dans l'espace de projection spectral et sur le choix du paramètre restent ouvertes. Dans un premier temps, le rôle du paramètre de l'affinité gaussienne sera étudié à travers des mesures de qualités et deux heuristiques pour le choix de ce paramètre seront proposées puis testées. Ensuite, le fonctionnement même de la méthode est étudié à travers les éléments spectraux de la matrice d'affinité gaussienne. En interprétant cette matrice comme la discrétisation du noyau de la chaleur définie sur l'espace entier et en utilisant les éléments finis, les vecteurs propres de la matrice affinité sont la représentation asymptotique de fonctions dont le support est inclus dans une seule composante connexe. Ces résultats permettent de définir des propriétés de classification et des conditions sur le paramètre gaussien. A partir de ces éléments théoriques, deux stratégies de parallélisation par décomposition en sous-domaines sont formulées et testées sur des exemples géométriques et de traitement d'images. Enfin dans le cadre non supervisé, le classification spectrale est appliquée, d'une part, dans le domaine de la génomique pour déterminer différents profils d'expression de gènes d'une légumineuse et, d'autre part dans le domaine de l'imagerie fonctionnelle TEP, pour segmenter des régions du cerveau présentant les mêmes courbes d'activités temporelles. ABSTRACT : The Spectral Clustering consists in creating, from the spectral elements of a Gaussian affinity matrix, a low-dimension space in which data are grouped into clusters. This unsupervised method is mainly based on Gaussian affinity measure, its parameter and its spectral elements. However, questions about the separability of clusters in the projection space and the spectral parameter choices remain open. First, the rule of the parameter of Gaussian affinity will be investigated through quality measures and two heuristics for choosing this setting will be proposed and tested. Then, the method is studied through the spectral element of the Gaussian affinity matrix. By interpreting this matrix as the discretization of the heat kernel defined on the whole space and using finite elements, the eigenvectors of the affinity matrix are asymptotic representation of functions whose support is included in one connected component. These results help define the properties of clustering and conditions on the Gaussian parameter. From these theoretical elements, two parallelization strategies by decomposition into sub-domains are formulated and tested on geometrical examples and images. Finally, as unsupervised applications, the spectral clustering is applied, first in the field of genomics to identify different gene expression profiles of a legume and the other in the imaging field functional PET, to segment the brain regions with similar time-activity curves

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

Institut National Polytechnique de Toulouse (Theses)

HAL Descartes

Méthodes de séparation aveugle de sources pour le démélange d'images de télédétection

Author: Benachir Djaouad
Publication venue
Publication date: 17/11/2014
Field of study

Nous proposons dans le cadre de cette thèse, de nouvelles méthodes de séparation aveugle de mélanges linéaires instantanés pour des applications de télédétection. La première contribution est fondée sur la combinaison de deux grandes classes de méthodes de Séparation Aveugle de Sources (SAS) : l'Analyse en Composantes Indépendantes (ACI), et la Factorisation en Matrices Non-négatives (NMF). Nous montrons comment les contraintes physiques de notre problème peuvent être utilisées pour éliminer une partie des indéterminations liées à l'ACI et fournir une première approximation des spectres de endmembers et des fractions d'abondance associées. Ces approximations sont ensuite utilisées pour initialiser un algorithme de NMF, avec pour objectif de les améliorer. Les résultats obtenus avec notre méthode sont satisfaisants en comparaison avec les méthodes de la littérature utilisées dans les tests réalisés. La deuxième méthode proposée est fondée sur la parcimonie ainsi que sur des propriétés géométriques. Nous commençons par mettre en avant quelques propriétés facilitant la présentation des hypothèses considérées dans cette méthode, puis nous mettons en lumière les grandes lignes de cette dernière qui est basée sur la détermination des zones bi-sources contenues dans une image de télédétection, ceci à l'aide d'un critère de corrélation. A partir des intersections des droites générées par ces zones bi-sources, nous détaillons le moyen d'obtention des colonnes de la matrice de mélange et enfin des sources recherchées. Les résultats obtenus, en comparaison avec plusieurs méthodes de la littérature sont très encourageants puisque nous avons obtenu les meilleures performances.Within this thesis, we propose new blind source separation (BSS) methods intended for instantaneous linear mixtures, aimed at remote sensing applications. The first contribution is based on the combination of two broad classes of BSS methods : Independent Component Analysis (ICA), and Non-negative Matrix Factorization (NMF). We show how the physical constraints of our problem can be used to eliminate some of the indeterminacies related to ICA and provide a first approximation of endmembers spectra and associated sources. These approximations are then used to initialize an NMF algorithm with the goal of improving them. The results we reached are satisfactory as compared with the classical methods used in our undertaken tests. The second proposed method is based on sparsity as well as on geometrical properties. We begin by highlighting some properties facilitating the presentation of the hypotheses considered 153 in the method. We then provide the broad lines of this approach which is based on the determination of the two-source zones that are contained in a remote sensing image, with the help of a correlation criterion. From the intersections of the lines generated by these two-source zones, we detail how to obtain the columns of the mixing matrix and the sought sources. The obtained results are quite attractive as compared with those reached by several methods from literature

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Application de la compression à la tractographie en imagerie par résonance magnétique de diffusion

Author: Presseau Caroline
Publication venue: 'Universite de Sherbrooke'
Publication date: 01/01/2014
Field of study

Ce mémoire présente un nouvel algorithme de compression de fibres développé spécifiquement pour la tractographie. Validé et testé sur un large éventail d’algorithmes et de paramètres de tractographie, celui-ci présente trois grandes étapes : la linéarisation, la quantization ainsi que l’encodage. Les concepts clés de l’imagerie par résonance magnétique de diffusion (IRMd) et de la compression sont également introduits afin de faciliter la compréhension du lecteur

Savoirs UdeS

Partitionnement d’une zone géographique en territoires homogènes et contigus

Author: De la Poix de Fréminville Pierre
Publication venue
Publication date: 26/04/2012
Field of study

« RÉSUMÉ : Le problème de régionalisation ou de "districting" consiste à diviser une zone géographique en un nombre prédéfini de sous-zones contigües tout en minimisant un critère de partitionnement fonction de données non géographiques. Le problème de régionalisation peut être vu comme un processus de regroupement d'unités élémentaires, les unités géographiques (UG), en groupes appelés territoires qui, une fois assemblés, reconstituent la carte ou la configuration donnée. Ce problème a surtout été étudié dans le cadre du découpage électoral. Le problème qui nous intéresse consiste à grouper les UG selon une valeur associée à chacune d'elle en des territoires homogènes respectant un poids minimum. Pour cela nous utilisons comme critère d'agrégation la variance intra-territoire qui est la somme pondérée de la variance de chaque territoire en solution. La variance d'un territoire est la variance de la valeur associée à chaque UG lui appartenant, et la pondération d'un territoire dans l'objectif est la somme des poids de chaque UG qui lui est associé. Ce problème est difficile à résoudre et une technique d'énumération de tous les territoires n'est donc pas envisageable pour de grandes instances. La difficulté par rapport à quelques travaux déjà réalisés est la présence simultanée d'une fonction objectif quadratique et d'une contrainte de contiguïté, ainsi que la taille des instances (500 UG). Ce travail présente une méthode heuristique de génération de colonnes couplée avec une méthode de branchement pour résoudre un tel problème de partitionnement avec contrainte de contiguïté. Dans la méthode de génération de colonnes, le sous-problème génère de nouveaux territoires et il est résolu par un algorithme heuristique de type glouton avec plusieurs points de départ. La méthode de branchement est aussi heuristique car les décisions prises sont fixées de façon permanente, i.e., aucun retour en arrière n'est permis dans l'arbre de branchement. A notre connaissance une telle méthode de résolution avec des instances de l'ordre de 500 UG n'a pas encore été appliquée. Cette méthode a été développée dans un contexte industriel et permet d'obtenir des solutions réalisables de bonne qualité sur les instances testées dans des temps relativement courts (15 min. à 40 min.). Abstract: The regionalization or districting problem consists of dividing a geographical area into a predefined number of contiguous territories, while optimizing a clustering criterion. The regionalization problem can be seen as a process of aggregating elementary geographical units (GU) into clusters called territories, that combined, cover the entire map or given configuration. The most studied variant of this problem is the electoral districting problem. The variant of the regionalization problem studied here, referred to as the PPHCT, consists of aggregating the GU according to their value into homogeneous and contiguous territories, satisfying a minimum weight constraint. For this matter, an aggregation criterion, namely the within-territory variance, is used, which is the weighted sum of the variance of each territory in the solution. The variance of a territory is the variance of the value assigned to each GU in that territory, and the weight of a territory is the sum of the weights of each GU in that territory.» et «-----------ABSTRACT : The PPHCT is difficult to solve optimally and an enumeration of all the feasible territories cannot be applied for large instances. The main difficulty of this variant, in comparison to other variants previously studied, is the simultaneous presence of a contiguity constraint and a quadratic objective function, together with large instances (500 GU). The purpose of this paper is to present a heuristic column-generation model and branch-and-bound algorithm designed to solve the PPHCT. In the column-generation method, the sub-problem generates new feasible territories and is solved by a greedy multi-start algorithm. The branching method is also heuristic, as branching decisions are taken permanently, that is, no back -tracking is possible in the branching tree. This solution method was developed in an industrial context and is able to produce good quality feasible solutions on the tested data, in relatively short computing times (15 min. to 40 min.).

PolyPublie