196 research outputs found

    Détection et classification non supervisées de relations sémantiques dans des articles scientifiques

    No full text
    International audienceDans cet article, nous abordons une tĂąche encore peu explorĂ©e, consistant Ă  extraire automatiquement l'Ă©tat de l'art d'un domaine scientifique Ă  partir de l'analyse d'articles de ce domaine. Nous la ramenons Ă  deux sous-tĂąches Ă©lĂ©mentaires : l'identification de concepts et la reconnaissance de relations entre ces concepts. Une extraction terminologique permet d'identifier les concepts candidats, qui sont ensuite alignĂ©s Ă  des ressources externes. Dans un deuxiĂšme temps, nous cherchons Ă  reconnaĂźtre et classifier automatiquement les relations sĂ©mantiques entre concepts de maniĂšre non-supervisĂ©e, en nous appuyant sur diffĂ©rentes techniques de clustering et de biclustering. Nous mettons en oeuvre ces deux Ă©tapes dans un corpus extrait de l'archive de l'ACL Anthology. Une analyse manuelle nous a permis de proposer une typologie des relations sĂ©mantiques, et de classifier un Ă©chantillon d'instances de relations. Les premiĂšres Ă©valuations suggĂšrent l'intĂ©rĂȘt du biclustering pour dĂ©tecter de nouveaux types de relations dans le corpus. ABSTRACT Unsupervised Classification of Semantic Relations in Scientific Papers In this article, we tackle the yet unexplored task of automatically building the "state of the art" of a scientific domain from a corpus of research papers. This task is defined as a sequence of two basic steps : finding concepts and recognizing the relations between them. First, candidate concepts are identified using terminology extraction, and subsequently linked to external resources. Second, semantic relations between entities are categorized with different clustring and biclustering algorithms. Experiences were carried out on the ACL Anthology Corpus. Results are evaluated against a hand-crafted typology of semantic relations and manually categorized examples. The first results indicate that biclustering techniques may indeed be useful for detecting new types of relations. MOTS-CLÉS : analyse de la littĂ©rature scientifique, extraction de relations, clustering, biclustering

    Étude de la dynamique des populations du viroĂŻde de la mosaĂŻque latente du pĂȘcher par sĂ©quençage Ă  haut dĂ©bit et segmentation

    Get PDF
    Les viroĂŻdes sont des agents pathogĂšnes responsables de maladies affectant les plantes telles que l'avocatier, le pĂȘcher, la tomate, la pomme dĂ© terre, etc. Parce qu'ils dĂ©gradent la qualitĂ© des fruits et des lĂ©gumes qu'ils infectent, les viroĂŻdes sont la cause de la perte d'environ 50 % de la production mondiale des cultures touchĂ©es. La comprĂ©hension des mĂ©canismes couvrant l'infection aux viroĂŻdes constitue un enjeu Ă©conomique majeur visant l'amĂ©lioration de la productivitĂ©, dans l'exploitation de ces plantes. Cette Ă©tude aborde l'analyse des processus liĂ©s Ă  l'infection aux viroĂŻdes par la dĂ©couverte de nouveaux aspects caractĂ©risant la variabilitĂ© gĂ©nĂ©tique du viroĂŻde de la mosaĂŻque latente du pĂȘcher (PLMVd). Elle dĂ©crit la dynamique des populations de PLMVd. La grande variabilitĂ© de PLMVd, expliquĂ©e par un fort taux de mutations, implique la gĂ©nĂ©ration de sĂ©quences diverses et variĂ©es, prenant la forme de nuages. Notre approche pour comprendre cette variabilitĂ© gĂ©nĂ©tique de PLMVd consiste Ă  infecter un pĂȘcher Ă  partir d'une seule sĂ©quence de PLMVd, puis Ă  en extraire les sĂ©quences et analyser leurs caractĂ©ristiques intrinsĂšques par une nouvelle mĂ©thode bio-informatique. À notre connaissance, notre Ă©tude, Ă  ce jour, est la premiĂšre Ă  utiliser les rĂ©centes techniques de sĂ©quençage Ă  haut dĂ©bit, Ă  des fins d'analyses des viroĂŻdes. La structure relativement simple des viroĂŻdes, brin d'ARN circulaire d'environ 240 Ă  400 nuclĂ©otides, leur confĂšre l'avantage de pouvoir ĂȘtre sĂ©quencĂ© dans leur longueur totale par le sĂ©quençage Ă  haut dĂ©bit. Ce dernier couvre de grands volumes de donnĂ©es biologiques, ce qui convient pour sĂ©quencer les nuages de sĂ©quences qu'on peut retrouver au sein de la population de PLMVd. En bio-informatique, il existe de nombreux algorithmes permettant de comparer des sĂ©quences pour en extraire de l'information. L'un des dĂ©fis majeurs de ces algorithmes est la prise en charge efficace et rapide de quantitĂ© de donnĂ©es en constante croissance. Dans le cadre de notre Ă©tude, le volume de sĂ©quences gĂ©nĂ©rĂ© par PLMVd rend impraticable l'application des algorithmes d'alignement pour comparer les sĂ©quences et en estimer leurs similaritĂ©s. D'autres algorithmes tels que ceux basĂ©s sur les N-grammes impliquent une perte partielle de l'information contenue dans les sĂ©quences. Nous avons donc utilisĂ© une mesure de similaritĂ© basĂ©e sur le modĂšle de probabilitĂ© conditionnelle (CPD) qui nous permet d'une part, de conserver l'information sous forme de patrons (sous-sĂ©quences) contenus dans les sĂ©quences, et d'autre part, d'Ă©viter l'alignement de sĂ©quences tout en comparant directement chaque sĂ©quence avec un ensemble de sĂ©quences. Le modĂšle CPD est intĂ©grĂ© dans un nouvel algorithme de segmentation pour les sĂ©quences catĂ©goriques, appelĂ© DHCS. Cette Ă©tude rĂ©vĂšle de nouveaux aspects dans la variabilitĂ© gĂ©nĂ©tique de PLMVd. En effet, elle nous a permis d'une part d'extraire des familles de sĂ©quences caractĂ©risĂ©es par des mutations spĂ©cifiques, puis d'autre part, de reprĂ©senter la distribution de ces mutations dans une arborescence. Par la suite, elle a favorisĂ© l'observation de mutations localisĂ©es dans le noyau d'un motif particulier, nommĂ© le ribozyme en tĂȘte de marteau des sĂ©quences, servant Ă  l'amĂ©lioration de l'adaptation de PLMVd. Celui-ci est effectivement sujet Ă  mutations parce que la sĂ©quence inoculĂ©e au pĂȘcher aprĂšs 6 mois d'infections n'a pas Ă©tĂ© retrouvĂ©e et que le nombre de mutations enregistrĂ©es varie de 2 Ă  51. Des deux librairies obtenues, nous avons rĂ©pertoriĂ© 1125 et 1061 sĂ©quences pour un total de 2186 nouvelles sĂ©quences de PLMVd. Seules 300 sĂ©quences Ă©taient connues Ă  ce jour. Nous avons observĂ© que les sĂ©quences possĂšdent, selon la librairie, en moyenne 4.6 et 6.3 mutations par rapport Ă  la sĂ©quence inoculĂ©e. Certaines d'entre elles ont jusqu'Ă  20 % de dissimilaritĂ© par rapport Ă  la sĂ©quence inoculĂ©e, ce qui est considĂ©rable. GrĂące Ă  DHCS, les diffĂ©rentes sĂ©quences ont pu ĂȘtre groupĂ©es en familles, au nombre de 7 et 8 selon la librairie

    Représentations parcimonieuses pour les signaux multivariés

    Get PDF
    Dans cette thĂšse, nous Ă©tudions les mĂ©thodes d'approximation et d'apprentissage qui fournissent des reprĂ©sentations parcimonieuses. Ces mĂ©thodes permettent d'analyser des bases de donnĂ©es trĂšs redondantes Ă  l'aide de dictionnaires d'atomes appris. Etant adaptĂ©s aux donnĂ©es Ă©tudiĂ©es, ils sont plus performants en qualitĂ© de reprĂ©sentation que les dictionnaires classiques dont les atomes sont dĂ©finis analytiquement. Nous considĂ©rons plus particuliĂšrement des signaux multivariĂ©s rĂ©sultant de l'acquisition simultanĂ©e de plusieurs grandeurs, comme les signaux EEG ou les signaux de mouvements 2D et 3D. Nous Ă©tendons les mĂ©thodes de reprĂ©sentations parcimonieuses au modĂšle multivariĂ©, pour prendre en compte les interactions entre les diffĂ©rentes composantes acquises simultanĂ©ment. Ce modĂšle est plus flexible que l'habituel modĂšle multicanal qui impose une hypothĂšse de rang 1. Nous Ă©tudions des modĂšles de reprĂ©sentations invariantes : invariance par translation temporelle, invariance par rotation, etc. En ajoutant des degrĂ©s de libertĂ© supplĂ©mentaires, chaque noyau est potentiellement dĂ©multipliĂ© en une famille d'atomes, translatĂ©s Ă  tous les Ă©chantillons, tournĂ©s dans toutes les orientations, etc. Ainsi, un dictionnaire de noyaux invariants gĂ©nĂšre un dictionnaire d'atomes trĂšs redondant, et donc idĂ©al pour reprĂ©senter les donnĂ©es Ă©tudiĂ©es redondantes. Toutes ces invariances nĂ©cessitent la mise en place de mĂ©thodes adaptĂ©es Ă  ces modĂšles. L'invariance par translation temporelle est une propriĂ©tĂ© incontournable pour l'Ă©tude de signaux temporels ayant une variabilitĂ© temporelle naturelle. Dans le cas de l'invariance par rotation 2D et 3D, nous constatons l'efficacitĂ© de l'approche non-orientĂ©e sur celle orientĂ©e, mĂȘme dans le cas oĂč les donnĂ©es ne sont pas tournĂ©es. En effet, le modĂšle non-orientĂ© permet de dĂ©tecter les invariants des donnĂ©es et assure la robustesse Ă  la rotation quand les donnĂ©es tournent. Nous constatons aussi la reproductibilitĂ© des dĂ©compositions parcimonieuses sur un dictionnaire appris. Cette propriĂ©tĂ© gĂ©nĂ©rative s'explique par le fait que l'apprentissage de dictionnaire est une gĂ©nĂ©ralisation des K-means. D'autre part, nos reprĂ©sentations possĂšdent de nombreuses invariances, ce qui est idĂ©al pour faire de la classification. Nous Ă©tudions donc comment effectuer une classification adaptĂ©e au modĂšle d'invariance par translation, en utilisant des fonctions de groupement consistantes par translation.In this thesis, we study approximation and learning methods which provide sparse representations. These methods allow to analyze very redundant data-bases thanks to learned atoms dictionaries. Being adapted to studied data, they are more efficient in representation quality than classical dictionaries with atoms defined analytically. We consider more particularly multivariate signals coming from the simultaneous acquisition of several quantities, as EEG signals or 2D and 3D motion signals. We extend sparse representation methods to the multivariate model, to take into account interactions between the different components acquired simultaneously. This model is more flexible that the common multichannel one which imposes a hypothesis of rank 1. We study models of invariant representations: invariance to temporal shift, invariance to rotation, etc. Adding supplementary degrees of freedom, each kernel is potentially replicated in an atoms family, translated at all samples, rotated at all orientations, etc. So, a dictionary of invariant kernels generates a very redundant atoms dictionary, thus ideal to represent the redundant studied data. All these invariances require methods adapted to these models. Temporal shift-invariance is an essential property for the study of temporal signals having a natural temporal variability. In the 2D and 3D rotation invariant case, we observe the efficiency of the non-oriented approach over the oriented one, even when data are not revolved. Indeed, the non-oriented model allows to detect data invariants and assures the robustness to rotation when data are revolved. We also observe the reproducibility of the sparse decompositions on a learned dictionary. This generative property is due to the fact that dictionary learning is a generalization of K-means. Moreover, our representations have many invariances that is ideal to make classification. We thus study how to perform a classification adapted to the shift-invariant model, using shift-consistent pooling functions.SAVOIE-SCD - Bib.Ă©lectronique (730659901) / SudocGRENOBLE1/INP-Bib.Ă©lectronique (384210012) / SudocGRENOBLE2/3-Bib.Ă©lectronique (384219901) / SudocSudocFranceF

    Génération de scénarios par quantification optimale en dimension élevée

    Get PDF
    RÉSUMÉ : L'optimisation stochastique est une branche de la recherche opĂ©rationnelle qui traite de problĂšmes d'optimisation impliquant des phĂ©nomĂšnes alĂ©atoires. Le programme mathĂ©matique, dĂ©fini par une fonction objectif et des contraintes, contient alors une ou plusieurs variables alĂ©atoires et est appelĂ© programme stochastique. Avant de procĂ©der Ă  sa rĂ©solution, on doit d'abord modĂ©liser le vecteur alĂ©atoire apparaissant dans le problĂšme. Or, il n'est gĂ©nĂ©ralement pas possible de rĂ©soudre un programme stochastique pour lequel le support des variables alĂ©atoires est infini, tel que les distributions continues. On doit donc discrĂ©tiser la loi probabiliste sur un ensemble fini de rĂ©alisations, appelĂ©es scĂ©narios, auxquelles on assigne une probabilitĂ©. Leur quantitĂ© est choisie en fonction du temps de convergence numĂ©rique et de la finesse de l'approximation dĂ©sirĂ©s. L'objectif principal de ce mĂ©moire est de dĂ©velopper des mĂ©thodes de gĂ©nĂ©ration de scĂ©narios permettant d'obtenir des solutions prĂšs de l'optimalitĂ© pour les programmes stochastiques comprenant des vecteurs alĂ©atoires en haute dimension. Il existe plusieurs mĂ©thodes de gĂ©nĂ©ration de scĂ©narios, dont la plus courante est l'Ă©chantillonnage pur et consiste Ă  tirer les scĂ©narios au hasard Ă  partir de la distribution estimĂ©e du vecteur alĂ©atoire. Cependant, les scĂ©narios obtenus par Ă©chantillonnage pur sont rarement ceux qui reprĂ©sentent le mieux la loi de probabilitĂ©s. Dans ce mĂ©moire, nous justifions Ă  l'aide de rĂ©sultats thĂ©oriques et expĂ©rimentaux que les scĂ©narios devraient plutĂŽt ĂȘtre gĂ©nĂ©rĂ©s par la mĂ©thode de quantification optimale. Nous montrons ensuite que lorsque le nombre de donnes tend vers l'infini, les problĂšmes de k-mĂ©dianes et k-moyennes sont Ă©quivalents Ă  la quantification optimale avec les normes L1 et L2 respectivement. Les techniques dĂ©veloppĂ©es pour gĂ©nĂ©rer les scĂ©narios sont donc inspirĂ©es d'algorithmes de partitionnement de donnĂ©es. Il n'est pas toujours possible d'estimer avec confiance la distribution d'un vecteur alĂ©atoire Ă  partir d'un ensemble de donnĂ©es. Le cas oĂč la distribution est connue (ou estimable) est donc traitĂ© sĂ©parĂ©ment de celui oĂč elle ne l'est pas. Lorsque la distribution est connue et que le problĂšme ne contient qu'une seule variable alĂ©atoire, nous utilisons l'algorithme de Lloyd qui nous permet d'atteindre le minimum global des problĂšmes de k-moyennes et k-mĂ©dianes continus. Dans le cas multidimensionnel, nous choisirons plutĂŽt la mĂ©thode de quantification vectorielle par apprentissage compĂ©titif (QVAC). La quantification optimale suggĂ©rĂ© l'utilisation de la distance induite par la norme L1, puisqu'elle permet d'Ă©tablir une borne supĂ©rieure sur l'erreur de discrĂ©tisation du programme stochastique. Afin de quantifier le vecteur alĂ©atoire avec la norme L1, nous adaptons le paramĂštre de saut de la QVAC, qui est gĂ©nĂ©ralement utilisĂ© avec la distance euclidienne. Nous trouvons cependant que la borne supĂ©rieure sur l'erreur de discrĂ©tisation peut ĂȘtre beaucoup plus grande que l'erreur elle-mĂȘme. On en dĂ©duit que la norme L2 peut Ă©galement ĂȘtre utilisĂ©e pour gĂ©nĂ©rer les scĂ©narios et offre une plus grande couverture des Ă©vĂ©nements extrĂȘmes. Lorsque la distribution n'est pas connue, nous utilisons les algorithmes d'Ă©change des centres et de Lloyd (k-mĂ©dianes et k-moyennes) qui permettent de gĂ©nĂ©rer les scĂ©narios directement Ă  partir des donnĂ©es. Dans le dernier chapitre, on analyse entre autres les effets du nombre de scĂ©narios, de la norme utilisĂ©e, de la variance et de la dimension du vecteur alĂ©atoire sur nos mĂ©thodes de gĂ©nĂ©ration de scĂ©narios. On observe sans surprises qu'il est particuliĂšrement difficile d'obtenir des solutions de qualitĂ© lorsque la dimension est Ă©levĂ©e. Trois mĂ©thodes sont donc proposĂ©es pour rĂ©duire la dimension effective du problĂšme, dont l'analyse par composantes principales et les copules. Parmi celles-ci, on constate cependant que seule l'analyse par composantes principales permet de rĂ©duire les coĂ»ts de l'optimisation stochastique en dimension Ă©levĂ©e. Les scĂ©narios sont testĂ©s sur le problĂšme du vendeur de journaux, oĂč la demande suit une loi log-normale ainsi que sur une application rĂ©elle Ă  partir d'un ensemble de donnĂ©es historiques liĂ© Ă  la confection d'horaire de personnels. Les solutions de l'optimisation stochastique Ă  partir des mĂ©thodes de gĂ©nĂ©ration de scĂ©narios proposĂ©es ont Ă©tĂ© comparĂ©es Ă  celles obtenues par Ă©chantillonnage pur et par l'optimisation dĂ©terministe. Pour le problĂšme du vendeur de journaux avec distribution de probabilitĂ©s connue, des gains substantiels de nos mĂ©thodes sont observĂ©s pour la quasi-totalitĂ© des instances Ă©tudiĂ©es. Lorsque la distribution n'est pas connue, nos mĂ©thodes induisent des erreurs de discrĂ©tisation moins de 340 fois plus petites que celles de l'optimisation dĂ©terministe avec 100 scĂ©narios. Les erreurs obtenues par les algorithmes d'Ă©change des centres et de Lloyd sont similaires, mais ce dernier reste gĂ©nĂ©ralement plus pratique Ă  cause de sa simplicitĂ© et sa rapiditĂ© d'exĂ©cution. Dans le cas du problĂšme de confection d'horaires, nous utilisons toutefois l'algorithme d'Ă©change des centres puisqu'il permet de gĂ©nĂ©rer des scĂ©narios de la demande en nombres entiers. MalgrĂ© la dimension Ă©levĂ©e du problĂšme et les faibles variances, nos mĂ©thodes de gĂ©nĂ©ration de scĂ©narios permettent tout de mĂȘme d'obtenir des gains modestes par rapport Ă  l'optimisation dĂ©terministe.----------ABSTRACT : Stochastic optimization is a branch of operations research that deals with optimization problems involving random processes. The mathematical program dened by the objective function and the constraints then contains one or several random variables and is called stochastic program. Prior to its resolution, we must rst model the random vector appearing in the problem. However, it is generally not possible to solve a stochastic program for which the support of the random variables is innite, such as continuous distributions. Therefore, we must discretize the probabilistic law over a nite set of events, called scenarios, to which we assign probabilities. Their quantity is chosen according to the desired convergence time and discretization precision. The main objective of this paper is to develop scenario generation methods that lead to near optimal solutions of the stochastic program containing high dimensional random vectors. There are several methods for generating scenarios, amongst which the most common is pure sampling and consists in randomly selecting scenarios from the estimated distribution. However, the scenarios obtained by pure sampling are rarely those which represent the law of probability best. In this paper, we justify using experimental and theoretical results that the scenarios should rather be generated dy optimal quantization. We then show that when the data set is innite, the clustering analysis k-means and k-medians problems are equivalent to optimal quantization with L1 and L2 norm respectively. As a result, the techniques developed for generating scenarios are inspired by clustering analysis algorithms. It is not always possible to condently estimate the distribution of a random vector from data. The cases where the probability distribution is known (or can be estimated) and unknown are thus treated separately. In the event where the probability law is known and the problem includes a single random variable, we use Lloyd's algorithm, which converges to the global minimum of the continuous k-medians and k-means problems. In the multivariate cases, we will rather chose the competitive learning vector quantization (CLVQ) method. Optimal quantization suggests the use of the L1-norm, since it allows us to establish an upper bound on the stochastic program discretization error. In order to quantify the random vector with the L1-norm, we adapt the CLVQ step parameter, which is ordinarily used with euclidean distance. However, we nd that the upper bound on the discretization error may be much larger than the error itself. Hence, we deduce that the L2-norm may also be used to generate scenarios and provides greater coverage of extreme events. When the distribution is unknown, we use the swapping centers and Lloyd (k-medians and k-means) algorithms that allow direct scenario generation from the data. In the last chapter, we analyze the eects of the number of scenarios, norm, variance and dimension of the random vector on our scenario generation methods. As expected, we observe that it is particularly dicult to obtain quality solutions when the dimension is high. Three methods are then proposed to reduce the eective dimensionality of the problem, including principal components analysis and copulas. Amongst these, it is noted that only principal components analysis reduces the costs of high-dimensional stochastic optimization. Our scenarios are tested on a virtual news vendor problem, where demand follows a log-normal distribution, and on a real data set for employee scheduling. The stochastic optimization solutions obtained by our methods are compared to those of pure sampling and deterministic optimization. For the news vendor problem with known probability distribution, substantial gains of our methods are observed for almost all instances studied. When the distribution is unknown, our methods induce costs less than 340 times that of deterministic optimization with 100 scenarios. The discretization errors obtained by the swapping center algorithm and Lloyd's method are similar, but the latter is most appealing due to its simplicity and execution speed. Nonetheless, for the employee scheduling problem, we still use the swapping algorithm since it allows us to generate integer scenarios of demand. Despite the high dimensionality of the problem and low variances, our scenario generation methods allow modest prots compared to deterministic optimization

    Analyse de faisabilité de l'implantation d'un protocole de communication sur processeur multicoeurs

    Get PDF
    RÉSUMÉ Les travaux de ce mĂ©moire s’inscrivent dans le cadre d’un projet qui fait l’objet d’un parrainage industriel. Les rĂ©sultats visent Ă  comprendre le comportement d’un systĂšme de traitement opĂ©rant dans des contextes prĂ©cis. Nous situons ce projet Ă  l’intersection des principes d’ordonnancements de tĂąches, des systĂšmes d’exĂ©cution, de la virtualisation de fonctions de rĂ©seaux et surtout les contraintes associĂ©es Ă  la virtualisation d’une pile de protocole LTE (Long Term Evolution), la norme de tĂ©lĂ©phonie cellulaire la plus en vue en ce moment. Une revue de littĂ©rature est proposĂ©e pour expliquer en dĂ©tail les concepts vus plus haut, afin d’avoir une idĂ©e prĂ©cise de la situation de test. D’abord, une Ă©tude des grappes d’unitĂ©s de traitement temps rĂ©el est effectuĂ©e dans l’optique de l’implĂ©mentation de ce qu’il est convenu d’appeler un Cloud Radio Area Network (C-RAN), qui supporte sur une plateforme infonuagique l’électronique qui effectue le traitement de signal requis pour un point d’accĂšs de tĂ©lĂ©phonie cellulaire. L’étude dĂ©veloppĂ©e dans ce mĂ©moire vise Ă  Ă©valuer les diffĂ©rents goulots d’étranglement qui peuvent survenir suite Ă  la rĂ©ception d’un paquet LTE au sein d’une trame CPRI (Common Public Radio Interface), jusqu’à l’envoi de ce paquet d’un serveur maitre jusqu’aux esclaves. Nous Ă©valuons donc les latences et bandes passantes observĂ©es pour les diffĂ©rents protocoles composant la plateforme. Nous caractĂ©risons notamment les communications CPRI des antennes vers le bassin de stations de base virtuelles, une communication de type Quick Path Interconnect (QPI) entre des cƓurs de traitement et un rĂ©seau logique programmable de type FPGA, une communication dĂ©diĂ©e point Ă  point entre le FPGA et une carte NIC (Network Interface Card) pour finir avec l’envoi de trames Ethernet vers les serveurs esclaves. Cette Ă©tude nous permet de dĂ©duire que la virtualisation d’une pile LTE est viable sur une telle grappe de calcul temps rĂ©el.----------ABSTRACT The work performed as part of this Master thesis is done in the context of an industrially sponsored project. The objective is to understand the runtime behavior of a class of systems in specific contexts. We place this project at the intersection of the principles of task scheduling, runtimes, Network Functions Virtualisation (NFVs) and especially with the constraints associated with virtualization of an LTE (Long Term Evolution) stack that is the most prominent cellular telecommunication standard at the moment. A literature review is proposed to explain in detail the concepts discussed above, in order to have a clear idea of the target environment. First, a study of a real time processing cluster is carried out in relation to the implementation of the so-called Cloud Radio Area Network (C-RAN) that supports on a cloud platform all the electronics which performs the signal processing required for a cellular access point. The study developed in this paper is to evaluate the various bottlenecks that can occur following the receipt of an LTE packet within a Common Public Radio Interface (CPRI) frame, then as part of sending the package to a master server before routing it to the slaves. We evaluate the latencies and bandwidths observed for the different protocols used on the platform components. In particular, we characterize the CPRI communications from the antennas to the virtual base stations units, a Quick Path Interconnect (QPI) communication between processing cores and a programmable logic array in the type of a FPGA, a dedicated point to point communication between the FPGA and a NIC (Network Interface Card) to end with the sending Ethernet frames to the slave servers. This study allows us to infer that the virtualization of an LTE stack is viable on a real time computation cluster with the implied architecture. Then, to be able to validate the effectiveness of different scheduling algorithms, an emulation of a LTE Uplink stack virtualization will be made. Through a runtime called StarPU coupled with profiling tools, we deliver results to assess the need for dedicated thread or cores to manage tasks within a server

    Résolution exacte du problÚme de partitionnement de données avec minimisation de variance sous contraintes de cardinalité par programmation par contraintes

    Get PDF
    Le partitionnement de donnĂ©es reprĂ©sente une procĂ©dure destinĂ©e Ă  regrouper un ensemble d’observations dans plusieurs sous ensembles homogĂšnes et/ou bien sĂ©parĂ©s. L’idĂ©e derriĂšre une telle activitĂ© est de simplifier l’extraction d’information utile en Ă©tudiant les groupes rĂ©sultants plutĂŽt que les observations elles-mĂȘmes. Cela dit, plusieurs situations appellent Ă  ce que la solution gĂ©nĂ©rĂ©e respecte un ensemble de contraintes donnĂ©es. En particulier, on exige parfois que les groupes rĂ©sultants comportent un nombre prĂ©dĂ©fini d’élĂ©ments. On parle de partitionnement avec contraintes de cardinalitĂ©. On prĂ©sente alors, dans ce travail, une approche de rĂ©solution exacte pour le partitionnement de donnĂ©es avec minimisation de la variance sous contraintes de cardinalitĂ©. En utilisant le paradigme de la Programmation par Contraintes, on propose d’abord un modĂšle adĂ©quat du problĂšme selon celui-ci. Ensuite, on suggĂšre Ă  la fois une stratĂ©gie de recherche rehaussĂ©e ainsi que deux algorithmes de filtrage. Ces outils ainsi dĂ©veloppĂ©s tirent avantage de la structure particuliĂšre du problĂšme afin de naviguer l’espace de recherche de façon efficace, Ă  la recherche d’une solution globalement optimale. Des expĂ©rimentations pratiques montrent que notre approche procure un avantage important par rapport aux autres mĂ©thodes exactes existantes lors de la rĂ©solution de plusieurs exemplaires du problĂšme.----------ABSTRACT: Data clustering is a procedure designed to group a set of observations into subsets that are homogeneous and/or well separated. The idea behind such an endeavor is to simplify extraction of useful information by studying the resulting groups instead of directly dealing with the observations themselves. However, many situations mandate that the answer conform to a set of constraints. Particularly one that involves the target number of elements each group must possess. This is known as cardinality constrained clustering. In this work we present an exact approach to solve the cardinality constrained Euclidian minimum sum-of-squares clustering. Based on the Constraint Programming paradigm, we first present an adequate model for this problem in the aforementioned framework. We then suggest both an upgraded search heuristic as well as two filtering algorithms. We take advantage of the structure of the problem in designing these tools to efficiently navigate the search space, looking for a globally optimal solution. Computational experiments show that our approach provides a substantial boost to the resolution of several instances of the problem in comparison to existing exact methods

    Contributions Ă  l'Ă©tude de la classification spectrale et applications

    Get PDF
    La classification spectrale consiste Ă  crĂ©er, Ă  partir des Ă©lĂ©ments spectraux d'une matrice d'affinitĂ© gaussienne, un espace de dimension rĂ©duite dans lequel les donnĂ©es sont regroupĂ©es en classes. Cette mĂ©thode non supervisĂ©e est principalement basĂ©e sur la mesure d'affinitĂ© gaussienne, son paramĂštre et ses Ă©lĂ©ments spectraux. Cependant, les questions sur la sĂ©parabilitĂ© des classes dans l'espace de projection spectral et sur le choix du paramĂštre restent ouvertes. Dans un premier temps, le rĂŽle du paramĂštre de l'affinitĂ© gaussienne sera Ă©tudiĂ© Ă  travers des mesures de qualitĂ©s et deux heuristiques pour le choix de ce paramĂštre seront proposĂ©es puis testĂ©es. Ensuite, le fonctionnement mĂȘme de la mĂ©thode est Ă©tudiĂ© Ă  travers les Ă©lĂ©ments spectraux de la matrice d'affinitĂ© gaussienne. En interprĂ©tant cette matrice comme la discrĂ©tisation du noyau de la chaleur dĂ©finie sur l'espace entier et en utilisant les Ă©lĂ©ments finis, les vecteurs propres de la matrice affinitĂ© sont la reprĂ©sentation asymptotique de fonctions dont le support est inclus dans une seule composante connexe. Ces rĂ©sultats permettent de dĂ©finir des propriĂ©tĂ©s de classification et des conditions sur le paramĂštre gaussien. A partir de ces Ă©lĂ©ments thĂ©oriques, deux stratĂ©gies de parallĂ©lisation par dĂ©composition en sous-domaines sont formulĂ©es et testĂ©es sur des exemples gĂ©omĂ©triques et de traitement d'images. Enfin dans le cadre non supervisĂ©, le classification spectrale est appliquĂ©e, d'une part, dans le domaine de la gĂ©nomique pour dĂ©terminer diffĂ©rents profils d'expression de gĂšnes d'une lĂ©gumineuse et, d'autre part dans le domaine de l'imagerie fonctionnelle TEP, pour segmenter des rĂ©gions du cerveau prĂ©sentant les mĂȘmes courbes d'activitĂ©s temporelles. ABSTRACT : The Spectral Clustering consists in creating, from the spectral elements of a Gaussian affinity matrix, a low-dimension space in which data are grouped into clusters. This unsupervised method is mainly based on Gaussian affinity measure, its parameter and its spectral elements. However, questions about the separability of clusters in the projection space and the spectral parameter choices remain open. First, the rule of the parameter of Gaussian affinity will be investigated through quality measures and two heuristics for choosing this setting will be proposed and tested. Then, the method is studied through the spectral element of the Gaussian affinity matrix. By interpreting this matrix as the discretization of the heat kernel defined on the whole space and using finite elements, the eigenvectors of the affinity matrix are asymptotic representation of functions whose support is included in one connected component. These results help define the properties of clustering and conditions on the Gaussian parameter. From these theoretical elements, two parallelization strategies by decomposition into sub-domains are formulated and tested on geometrical examples and images. Finally, as unsupervised applications, the spectral clustering is applied, first in the field of genomics to identify different gene expression profiles of a legume and the other in the imaging field functional PET, to segment the brain regions with similar time-activity curves

    Méthodes de séparation aveugle de sources pour le démélange d'images de télédétection

    Get PDF
    Nous proposons dans le cadre de cette thĂšse, de nouvelles mĂ©thodes de sĂ©paration aveugle de mĂ©langes linĂ©aires instantanĂ©s pour des applications de tĂ©lĂ©dĂ©tection. La premiĂšre contribution est fondĂ©e sur la combinaison de deux grandes classes de mĂ©thodes de SĂ©paration Aveugle de Sources (SAS) : l'Analyse en Composantes IndĂ©pendantes (ACI), et la Factorisation en Matrices Non-nĂ©gatives (NMF). Nous montrons comment les contraintes physiques de notre problĂšme peuvent ĂȘtre utilisĂ©es pour Ă©liminer une partie des indĂ©terminations liĂ©es Ă  l'ACI et fournir une premiĂšre approximation des spectres de endmembers et des fractions d'abondance associĂ©es. Ces approximations sont ensuite utilisĂ©es pour initialiser un algorithme de NMF, avec pour objectif de les amĂ©liorer. Les rĂ©sultats obtenus avec notre mĂ©thode sont satisfaisants en comparaison avec les mĂ©thodes de la littĂ©rature utilisĂ©es dans les tests rĂ©alisĂ©s. La deuxiĂšme mĂ©thode proposĂ©e est fondĂ©e sur la parcimonie ainsi que sur des propriĂ©tĂ©s gĂ©omĂ©triques. Nous commençons par mettre en avant quelques propriĂ©tĂ©s facilitant la prĂ©sentation des hypothĂšses considĂ©rĂ©es dans cette mĂ©thode, puis nous mettons en lumiĂšre les grandes lignes de cette derniĂšre qui est basĂ©e sur la dĂ©termination des zones bi-sources contenues dans une image de tĂ©lĂ©dĂ©tection, ceci Ă  l'aide d'un critĂšre de corrĂ©lation. A partir des intersections des droites gĂ©nĂ©rĂ©es par ces zones bi-sources, nous dĂ©taillons le moyen d'obtention des colonnes de la matrice de mĂ©lange et enfin des sources recherchĂ©es. Les rĂ©sultats obtenus, en comparaison avec plusieurs mĂ©thodes de la littĂ©rature sont trĂšs encourageants puisque nous avons obtenu les meilleures performances.Within this thesis, we propose new blind source separation (BSS) methods intended for instantaneous linear mixtures, aimed at remote sensing applications. The first contribution is based on the combination of two broad classes of BSS methods : Independent Component Analysis (ICA), and Non-negative Matrix Factorization (NMF). We show how the physical constraints of our problem can be used to eliminate some of the indeterminacies related to ICA and provide a first approximation of endmembers spectra and associated sources. These approximations are then used to initialize an NMF algorithm with the goal of improving them. The results we reached are satisfactory as compared with the classical methods used in our undertaken tests. The second proposed method is based on sparsity as well as on geometrical properties. We begin by highlighting some properties facilitating the presentation of the hypotheses considered 153 in the method. We then provide the broad lines of this approach which is based on the determination of the two-source zones that are contained in a remote sensing image, with the help of a correlation criterion. From the intersections of the lines generated by these two-source zones, we detail how to obtain the columns of the mixing matrix and the sought sources. The obtained results are quite attractive as compared with those reached by several methods from literature

    Application de la compression à la tractographie en imagerie par résonance magnétique de diffusion

    Get PDF
    Ce mémoire présente un nouvel algorithme de compression de fibres développé spécifiquement pour la tractographie. Validé et testé sur un large éventail d’algorithmes et de paramètres de tractographie, celui-ci présente trois grandes étapes : la linéarisation, la quantization ainsi que l’encodage. Les concepts clés de l’imagerie par résonance magnétique de diffusion (IRMd) et de la compression sont également introduits afin de faciliter la compréhension du lecteur

    Partitionnement d’une zone gĂ©ographique en territoires homogĂšnes et contigus

    Get PDF
    « RÉSUMÉ : Le problĂšme de rĂ©gionalisation ou de "districting" consiste Ă  diviser une zone gĂ©ographique en un nombre prĂ©dĂ©fini de sous-zones contigĂŒes tout en minimisant un critĂšre de partitionnement fonction de donnĂ©es non gĂ©ographiques. Le problĂšme de rĂ©gionalisation peut ĂȘtre vu comme un processus de regroupement d'unitĂ©s Ă©lĂ©mentaires, les unitĂ©s gĂ©ographiques (UG), en groupes appelĂ©s territoires qui, une fois assemblĂ©s, reconstituent la carte ou la configuration donnĂ©e. Ce problĂšme a surtout Ă©tĂ© Ă©tudiĂ© dans le cadre du dĂ©coupage Ă©lectoral. Le problĂšme qui nous intĂ©resse consiste Ă  grouper les UG selon une valeur associĂ©e Ă  chacune d'elle en des territoires homogĂšnes respectant un poids minimum. Pour cela nous utilisons comme critĂšre d'agrĂ©gation la variance intra-territoire qui est la somme pondĂ©rĂ©e de la variance de chaque territoire en solution. La variance d'un territoire est la variance de la valeur associĂ©e Ă  chaque UG lui appartenant, et la pondĂ©ration d'un territoire dans l'objectif est la somme des poids de chaque UG qui lui est associĂ©. Ce problĂšme est difficile Ă  rĂ©soudre et une technique d'Ă©numĂ©ration de tous les territoires n'est donc pas envisageable pour de grandes instances. La difficultĂ© par rapport Ă  quelques travaux dĂ©jĂ  rĂ©alisĂ©s est la prĂ©sence simultanĂ©e d'une fonction objectif quadratique et d'une contrainte de contiguĂŻtĂ©, ainsi que la taille des instances (500 UG). Ce travail prĂ©sente une mĂ©thode heuristique de gĂ©nĂ©ration de colonnes couplĂ©e avec une mĂ©thode de branchement pour rĂ©soudre un tel problĂšme de partitionnement avec contrainte de contiguĂŻtĂ©. Dans la mĂ©thode de gĂ©nĂ©ration de colonnes, le sous-problĂšme gĂ©nĂšre de nouveaux territoires et il est rĂ©solu par un algorithme heuristique de type glouton avec plusieurs points de dĂ©part. La mĂ©thode de branchement est aussi heuristique car les dĂ©cisions prises sont fixĂ©es de façon permanente, i.e., aucun retour en arriĂšre n'est permis dans l'arbre de branchement. A notre connaissance une telle mĂ©thode de rĂ©solution avec des instances de l'ordre de 500 UG n'a pas encore Ă©tĂ© appliquĂ©e. Cette mĂ©thode a Ă©tĂ© dĂ©veloppĂ©e dans un contexte industriel et permet d'obtenir des solutions rĂ©alisables de bonne qualitĂ© sur les instances testĂ©es dans des temps relativement courts (15 min. Ă  40 min.). Abstract: The regionalization or districting problem consists of dividing a geographical area into a predefined number of contiguous territories, while optimizing a clustering criterion. The regionalization problem can be seen as a process of aggregating elementary geographical units (GU) into clusters called territories, that combined, cover the entire map or given configuration. The most studied variant of this problem is the electoral districting problem. The variant of the regionalization problem studied here, referred to as the PPHCT, consists of aggregating the GU according to their value into homogeneous and contiguous territories, satisfying a minimum weight constraint. For this matter, an aggregation criterion, namely the within-territory variance, is used, which is the weighted sum of the variance of each territory in the solution. The variance of a territory is the variance of the value assigned to each GU in that territory, and the weight of a territory is the sum of the weights of each GU in that territory.» et «-----------ABSTRACT : The PPHCT is difficult to solve optimally and an enumeration of all the feasible territories cannot be applied for large instances. The main difficulty of this variant, in comparison to other variants previously studied, is the simultaneous presence of a contiguity constraint and a quadratic objective function, together with large instances (500 GU). The purpose of this paper is to present a heuristic column-generation model and branch-and-bound algorithm designed to solve the PPHCT. In the column-generation method, the sub-problem generates new feasible territories and is solved by a greedy multi-start algorithm. The branching method is also heuristic, as branching decisions are taken permanently, that is, no back -tracking is possible in the branching tree. This solution method was developed in an industrial context and is able to produce good quality feasible solutions on the tested data, in relatively short computing times (15 min. to 40 min.).
    • 

    corecore