556 research outputs found

    Modélisation et comparaison de la structure de gÚnes

    Get PDF
    La bio-informatique est un domaine de recherche multi-disciplinaire, Ă  la croisĂ©e de diffĂ©rents domaines : biologie, mĂ©decine, mathĂ©matiques, statistiques, chimie, physique et informatique. Elle a pour but de concevoir et d’appliquer des modĂšles et outils statistiques et computationnels visant l’avancement des connaissances en biologie et dans les sciences connexes. Dans ce contexte, la comprĂ©hension du fonctionnement et de l’évolution des gĂšnes fait l’objet de nombreuses Ă©tudes en bio-informatique. Ces Ă©tudes sont majoritairement fondĂ©es sur la comparaison des gĂšnes et en particulier sur l’alignement de sĂ©quences gĂ©nomiques. Cependant, dans leurs calculs d’alignement de sĂ©quences gĂ©nomiques, les mĂ©thodes existantes se basent uniquement sur la similaritĂ© des sĂ©quences et ne tiennent pas compte de la structure des gĂšnes. L’alignement prenant en compte la structure des sĂ©quences offre l’opportunitĂ© d’en amĂ©liorer la prĂ©cision ainsi que les rĂ©sultats des mĂ©thodes dĂ©veloppĂ©es Ă  partir de ces alignements. C’est dans cette hypothĂšse que s’inscrit l’objectif de cette thĂšse de doctorat : proposer des modĂšles tenant compte de la structure des gĂšnes lors de l’alignement des sĂ©quences de familles de gĂšnes. Ainsi, par cette thĂšse, nous avons contribuĂ© Ă  accroĂźtre les connaissances scientifiques en dĂ©veloppant des modĂšles d’alignement de sĂ©quences biologiques intĂ©grant des informations sur la structure de codage et d’épissage des sĂ©quences. Nous avons proposĂ© un algorithme et une nouvelle fonction du score pour l’alignement de sĂ©quences codantes d’ADN (CDS) en tenant compte de la longueur des dĂ©calages du cadre de traduction. Nous avons aussi proposĂ© un algorithme pour aligner des paires de sĂ©quences d’une famille de gĂšnes en considĂ©rant leurs structures d’épissage. Nous avons Ă©galement dĂ©veloppĂ© un algorithme pour assembler des alignements Ă©pissĂ©s par paire en alignements multiples de sĂ©quences. Enfin, nous avons dĂ©veloppĂ© un outil pour la visualisation d’alignements Ă©pissĂ©s multiples de famille de gĂšnes. Dans cette thĂšse, nous avons soulignĂ© l’importance et dĂ©montrĂ© l’utilitĂ© de tenir compte de la structure des sĂ©quences en entrĂ©e lors du calcul de leur alignement

    DĂ©veloppement de mĂ©thodes et d’outils chĂ©moinformatiques pour l’analyse et la comparaison de chimiothĂšques

    Get PDF
    Some news areas in biology ,chemistry and computing interface, have emerged in order to respond the numerous problematics linked to the drug research. This is what this thesis is all about, as an interface gathered under the banner of chimocomputing. Though, new on a human scale, these domains are nevertheless, already an integral part of the drugs and medicines research. As the Biocomputing, his fundamental pillar remains storage, representation, management and the exploitation through computing of chemistry data. Chimocomputing is now mostly used in the upstream phases of drug research. Combining methods from various fields ( chime, computing, maths, apprenticeship, statistics, etc
) allows the implantation of computing tools adapted to the specific problematics and data of chime such as chemical database storage, understructure research, data visualisation or physoco-chimecals and biologics properties prediction.In that multidisciplinary frame, the work done in this thesis pointed out two important aspects, both related to chimocomputing : (1) The new methods development allowing to ease the visualization, analysis and interpretation of data related to set of the molecules, currently known as chimocomputing and (2) the computing tools development enabling the implantation of these methods.De nouveaux domaines ont vu le jour, Ă  l’interface entre biologie, chimie et informatique, afin de rĂ©pondre aux multiples problĂ©matiques liĂ©es Ă  la recherche de mĂ©dicaments. Cette thĂšse se situe Ă  l’interface de plusieurs de ces domaines, regroupĂ©s sous la banniĂšre de la chĂ©mo-informatique. RĂ©cent Ă  l’échelle humaine, ce domaine fait nĂ©anmoins dĂ©jĂ  partie intĂ©grante de la recherche pharmaceutique. De maniĂšre analogue Ă  la bioinformatique, son pilier fondateur reste le stockage, la reprĂ©sentation, la gestion et l’exploitation par ordinateur de donnĂ©es provenant de la chimie. La chĂ©moinformatique est aujourd’hui utilisĂ©e principalement dans les phases amont de la recherche de mĂ©dicaments. En combinant des mĂ©thodes issues de diffĂ©rents domaines (chimie, informatique, mathĂ©matique, apprentissage, statistiques, etc.), elle permet la mise en oeuvre d’outils informatiques adaptĂ©s aux problĂ©matiques et donnĂ©es spĂ©cifiques de la chimie, tels que le stockage de l’information chimique en base de donnĂ©es, la recherche par sous-structure, la visualisation de donnĂ©es, ou encore la prĂ©diction de propriĂ©tĂ©s physico-chimiques et biologiques.Dans ce cadre pluri-disciplinaire, le travail prĂ©sentĂ© dans cette thĂšse porte sur deux aspects importants liĂ©s Ă  la chĂ©moinformatique : (1) le dĂ©veloppement de nouvelles mĂ©thodes permettant de faciliter la visualisation, l’analyse et l’interprĂ©tation des donnĂ©es liĂ©es aux ensembles de molĂ©cules, plus communĂ©ment appelĂ©s chimiothĂšques, et (2) le dĂ©veloppement d’outils informatiques permettant de mettre en oeuvre ces mĂ©thodes

    Étude de donnĂ©es spatio-temporelles pour l’analyse du contrĂŽle environnemental en milieu industriel pharmaceutique

    Get PDF
    Une quantitĂ© importante de procĂ©dĂ©s industriels sont aujourd’hui monitorĂ©s Ă  l’aide de capteurs et d’analyses afin d’avoir de l’information sur l’état des opĂ©rations et faciliter la rĂ©ponse Ă  d’éventuelles dĂ©viations. Bien que l’analyse de ces donnĂ©es soit une pratique de plus en plus courante dans l’industrie, l’étude de donnĂ©es spatio-temporelles (avec de l’information rĂ©partie Ă  la fois dans l’espace et dans le temps) comportant un important niveau de bruit reprĂ©sente encore un dĂ©fi. Dans ce projet, des donnĂ©es spatio-temporelles historiques d’un programme de contrĂŽle environnemental en milieu pharmaceutique ont Ă©tĂ© rĂ©coltĂ©es pour mieux comprendre les dynamiques de contamination entre les zones aseptiques de productions. Un dĂ©fi majeur pour l’analyse de ce genre de donnĂ©es est la prĂ©sence importante de bruit en raison de la raretĂ© des rĂ©sultats non-nuls et de l’incertitude reliĂ©e Ă  la dĂ©tection de microorganismes. Les objectifs principaux du projet Ă©taient donc l’étude des donnĂ©es spatio-temporelles et le dĂ©veloppement d’outils algorithmiques permettant de faciliter l’interprĂ©tation des rĂ©sultats. Dans un premier temps, un nouvel indice de similaritĂ© qui utilise une combinaison de la corrĂ©lation de Pearson et le « dynamic time warping » a Ă©tĂ© dĂ©veloppĂ©. Cet indice, employĂ© pour la recherche de similaritĂ© entre variables, permet de mieux traduire les dynamiques de contamination dans les donnĂ©es de contrĂŽle environnemental. En combinant les rĂ©sultats des recherches de similaritĂ© avec des outils de visualisation, les patrons de contamination entre les diffĂ©rentes zones de productions ont pu facilement ĂȘtre mis en Ă©vidence. Dans un second temps, une nouvelle approche multivariĂ©e pour l’étude de donnĂ©es spatio-temporelles fortement bruitĂ©es Ă  l’aide de l’algorithme MCR-LLM a aussi Ă©tĂ© explorĂ©e. Cette mĂ©thode, prĂ©cĂ©demment dĂ©veloppĂ©e pour l’analyse de donnĂ©es spectroscopiques, a permis d’extraire des composants reprĂ©sentant les diffĂ©rents patrons de contamination dans les donnĂ©es de contrĂŽle environnemental. L’application de cette mĂ©thode a grandement facilitĂ© l’étude des donnĂ©es en mettant en Ă©vidence les principales dynamiques spatiales prĂ©sentes et en simplifiant la visualisation des variations temporelles. Les approches prĂ©sentĂ©es peuvent aussi ĂȘtre utilisĂ©es sur d’autres jeux de donnĂ©es avec des caractĂ©ristiques spatio-temporelles similaires

    Acquisitions d'IRM de diffusion à haute résolution spatiale : nouvelles perspectives grùce au débruitage spatialement adaptatif et angulaire

    Get PDF
    Le dĂ©but des annĂ©es 2000 a vu la cartographie du gĂ©nome humain se rĂ©aliser aprĂšs 13 ans de recherche. Le dĂ©fi du prochain siĂšcle rĂ©side dans la construction du connectome humain, qui consiste Ă  cartographier les connexions du cerveau en utilisant l’imagerie par rĂ©sonance magnĂ©tique (IRM) de diffusion. Cette technique permet en effet d’étudier la matiĂšre blanche du cerveau de façon complĂštement non invasive. Bien que le dĂ©fi soit monumental, la rĂ©solution d’une image d’IRM se situe Ă  l’échelle macroscopique et est environ 1000 fois infĂ©rieure Ă  la taille des axones qu’il faut cartographier. Pour aider Ă  pallier Ă  ce problĂšme, ce mĂ©moire propose une nouvelle technique de dĂ©bruitage spĂ©cialement conçue pour l’imagerie de diffusion. L’algorithme Non Local Spatial and Angular Matching (NLSAM) se base sur les principes du block matching et du dictionary learning pour exploiter la redondance des donnĂ©es d’IRM de diffusion. Un seuillage sur les voisins angulaire est aussi rĂ©alisĂ© Ă  l’aide du sparse coding, oĂč l’erreur de reconstruction en norme l2 est bornĂ©e par la variance locale du bruit. L’algorithme est aussi conçu pour gĂ©rer le biais du bruit Ricien et Chi non centrĂ© puisque les images d’IRM contiennent du bruit non Gaussien. Ceci permet ainsi d’acquĂ©rir des donnĂ©es d’IRM de diffusion Ă  une plus grande rĂ©solution spatiale que prĂ©sentement disponible en milieu clinique. Ce travail ouvre donc la voie Ă  un meilleur type d’acquisition, ce qui pourrait contribuer Ă  rĂ©vĂ©ler de nouveaux dĂ©tails anatomiques non discernables Ă  la rĂ©solution spatiale prĂ©sentement utilisĂ©e par la communautĂ© d’IRM de diffusion. Ceci pourrait aussi Ă©ventuellement contribuer Ă  identifier de nouveaux biomarqueurs permettant de comprendre les maladies dĂ©gĂ©nĂ©ratives telles que la sclĂ©rose en plaques, la maladie d’Alzheimer et la maladie de Parkinson

    Contribution à l'analyse des séquences de protéines similarité, clustering et alignement

    Get PDF
    La prédiction des fonctions biologiques des protéines est primordiale en biologie cellulaire. On peut comprendre facilement tout l'enjeu de pouvoir différencier efficacement les protéines par leurs fonctions, quand on sait que ceci peut rendre possible la réparation des protéines anormales causants des maladies, ou du moins corriger ou améliorer leurs fonctions. Les méthodes expérimentales, basées sur la structure tridimensionnelle des protéines sont les plus fiables pour la prédiction des fonctions biologiques des protéines. Néanmoins, elles sont souvent coûteuses en temps et en ressources, et ne permettent pas de traiter de grands nombres de protéines. Il existe toutefois des algorithmes qui permettent aux biologistes d'arriver à de bons résultats de prédictions en utilisant des moyens beaucoup moins coûteux. Le plus souvent, ces algorithmes sont basés sur la similarité, le clustering, et l'alignement. Cependant, les algorithmes qui sont basés sur la similarité et le clustering utilisent souvent l'alignement des séquences et ne sont donc pas efficaces sur les protéines non alignables. Et lorsqu'ils ne sont pas basés sur l 'alignement, ces algorithmes utilisent souvent des approches qui ne tiennent pas compte de l'aspect biologique des séquences de protéines. D'autre part, l'efficacité des algorithmes d'alignements dépend souvent de la nature structurelle des protéines, ce qui rend difficile le choix de l'algorithme à utiliser quand la structure est inconnue. Par ailleurs, les algorithmes d'alignement ignorent les divergences entre les séquences à aligner, ce qui contraint souvent les biologistes à traiter manuellement les séquences à aligner, une tùche qui n'est pas toujours possible en pratique. Dans cette thÚse nous présentons un ensemble de nouveaux algorithmes que nous avons conçus pour l'analyse des séquences de protéines. Dans le premier chapitre, nous présentons CLUSS, le premier algorithme de clustering capable de traiter des séquences de protéines non-alignables. Dans le deuxiÚme chapitre, nous présentons CLUSS2 une version améliorée de CLUSS, capable de traiter de plus grands ensembles de protéines avec plus de de fonctions biologiques. Dans le troisiÚme chapitre, nous présentons SCS, une nouvelle mesure de similarité capable de traiter efficacement non seulement les séquences de protéines mais aussi plusieurs types de séquences catégoriques. Dans le dernier chapitre, nous présentons ALIGNER, un algorithme d'alignement, efficace sur les séquences de protéines indépendamment de leurs types de structures. De plus, ALIGNER est capable de détecter automatiquement, parmi les protéines à aligner, les groupes de protéines dont l'alignement peut révéler d'importantes propriétés biochimiques structurelles et fonctionnelles, et cela sans faire appel à l'utilisateur

    Société Francophone de Classification (SFC) Actes des 26Úmes Rencontres

    Get PDF
    National audienceLes actes des rencontres de la SociĂ©tĂ© Francophone de Classification (SFC, http://www.sfc-classification.net/) contiennent l'ensemble des contributions,prĂ©sentĂ©s lors des rencontres entre les 3 et 5 septembre 2019 au Centre de Recherche Inria Nancy Grand Est/LORIA Nancy. La classification sous toutes ces formes, mathĂ©matiques, informatique (apprentissage, fouille de donnĂ©es et dĂ©couverte de connaissances ...), et statistiques, est la thĂ©matique Ă©tudiĂ©e lors de ces journĂ©es. L'idĂ©e est d'illustrer les diffĂ©rentes facettes de la classification qui reflĂštent les intĂ©rĂȘts des chercheurs dans la matiĂšre, provenant des mathĂ©matiques et de l'informatique

    Corridors de demande : modélisation et contributions à l'évaluation du niveau de durabilité

    Get PDF
    RÉSUMÉ Le corridor de transport apparaĂźt dans la littĂ©rature comme un concept permettant de traiter Ă  la fois des enjeux traditionnels liĂ©s Ă  la mobilitĂ© que des impacts et interactions liĂ©s au dĂ©veloppement durable tels que l’occupation du sol, l’environnement, la santĂ© humaine et le dĂ©veloppement Ă©conomique. L’utilisation du concept dans le domaine du transport n’est pas nouvelle. En effet, il existe une importante littĂ©rature qui Ă©tudie le corridor en tant que produit Ă©conomique et politique issu du dĂ©veloppement urbain notamment associĂ© Ă  la prĂ©sence de services et d’infrastructures de transport (offre de transport). Cependant, l’utilisation de ce concept plurivoque dans la planification et l’évaluation de l’offre au niveau urbain demeure encore limitĂ©e, compte tenu de l’absence d’une dĂ©finition claire et d’une approche de modĂ©lisation adaptĂ©e Ă  la nature des dĂ©placements, trĂšs dispersĂ©s, dans l’aire urbaine.----------ABSTRACT Many researchers have benefited from the concept of the transport corridor to cover mobility issues and their interactions with land use, the environment, human health, and economic development. However, most of the available literature examines the economic and the political impacts of corridors and links it to the presence of transportation services and infrastructures (the supply). Moreover, the use of this concept in the urban transportation assessment and planning process remains limited due to the lack of a clear definition and modeling approach adapted to the very scattered nature of travel in urban areas. This thesis provides a deep reflection on the transport corridor’s definition and characteristics and offers a modeling framework to identify urban transportation corridors using the transport demand, represented by the Origin and Destination (OD), in the absence of supply elements

    Algorithmes de recommandation musicale

    Full text link
    Ce mémoire est composé de trois articles qui s’unissent sous le thème de la recommandation musicale à grande échelle. Nous présentons d’abord une méthode pour effectuer des recommandations musicales en récoltant des étiquettes (tags) décrivant les items et en utilisant cette aura textuelle pour déterminer leur similarité. En plus d’effectuer des recommandations qui sont transparentes et personnalisables, notre méthode, basée sur le contenu, n’est pas victime des problèmes dont souffrent les systèmes de filtrage collaboratif, comme le problème du démarrage à froid (cold start problem). Nous présentons ensuite un algorithme d’apprentissage automatique qui applique des étiquettes à des chansons à partir d’attributs extraits de leur fichier audio. L’ensemble de données que nous utilisons est construit à partir d’une très grande quantité de données sociales provenant du site Last.fm. Nous présentons finalement un algorithme de génération automatique de liste d’écoute personnalisable qui apprend un espace de similarité musical à partir d’attributs audio extraits de chansons jouées dans des listes d’écoute de stations de radio commerciale. En plus d’utiliser cet espace de similarité, notre système prend aussi en compte un nuage d’étiquettes que l’utilisateur est en mesure de manipuler, ce qui lui permet de décrire de manière abstraite la sorte de musique qu’il désire écouter.This thesis is composed of three papers which unite under the general theme of large-scale music recommendation. The first paper presents a recommendation technique that works by collecting text descriptions of items and using this textual aura to compute the similarity between them using techniques drawn from information retrieval. We show how this representation can be used to explain the similarities between items using terms from the textual aura and further how it can be used to steer the recommender. Because our system is content-based, it is not victim of the usual problems associated with collaborative filtering recommenders like the cold start problem. The second paper presents a machine learning model which automatically applies tags to music. The model uses features extracted from the audio files and was trained on a very large data set constructed with social data from the online community Last.fm. The third paper presents an approach to generating steerable playlists. We first demonstrate a method for learning song transition probabilities from audio features extracted from songs played in professional radio station playlists. We then show that by using this learnt similarity function as a prior, we are able to generate steerable playlists by choosing the next song to play not simply based on that prior, but on a tag cloud that the user is able to manipulate to express the high-level characteristics of the music he wishes to listen to
    • 

    corecore