3 research outputs found

    A roadmap for global synthesis of the plant tree of life

    Get PDF
    Providing science and society with an integrated, up-to-date, high quality, open, reproducible and sustainable plant tree of life would be a huge service that is now coming within reach. However, synthesizing the growing body of DNA sequence data in the public domain and disseminating the trees to a diverse audience are often not straightforward due to numerous informatics barriers. While big synthetic plant phylogenies are being built, they remain static and become quickly outdated as new data are published and tree-building methods improve. Moreover, the body of existing phylogenetic evidence is hard to navigate and access for non-experts. We propose that our community of botanists, tree builders, and informaticians should converge on a modular framework for data integration and phylogenetic analysis, allowing easy collaboration, updating, data sourcing and flexible analyses. With support from major institutions, this pipeline should be re-run at regular intervals, storing trees and their metadata long-term. Providing the trees to a diverse global audience through user-friendly front ends and application development interfaces should also be a priority. Interactive interfaces could be used to solicit user feedback and thus improve data quality and to coordinate the generation of new data. We conclude by outlining a number of steps that we suggest the scientific community should take to achieve global phylogenetic synthesis

    Modélisation et comparaison de la structure de gènes

    Get PDF
    La bio-informatique est un domaine de recherche multi-disciplinaire, à la croisée de différents domaines : biologie, médecine, mathématiques, statistiques, chimie, physique et informatique. Elle a pour but de concevoir et d’appliquer des modèles et outils statistiques et computationnels visant l’avancement des connaissances en biologie et dans les sciences connexes. Dans ce contexte, la compréhension du fonctionnement et de l’évolution des gènes fait l’objet de nombreuses études en bio-informatique. Ces études sont majoritairement fondées sur la comparaison des gènes et en particulier sur l’alignement de séquences génomiques. Cependant, dans leurs calculs d’alignement de séquences génomiques, les méthodes existantes se basent uniquement sur la similarité des séquences et ne tiennent pas compte de la structure des gènes. L’alignement prenant en compte la structure des séquences offre l’opportunité d’en améliorer la précision ainsi que les résultats des méthodes développées à partir de ces alignements. C’est dans cette hypothèse que s’inscrit l’objectif de cette thèse de doctorat : proposer des modèles tenant compte de la structure des gènes lors de l’alignement des séquences de familles de gènes. Ainsi, par cette thèse, nous avons contribué à accroître les connaissances scientifiques en développant des modèles d’alignement de séquences biologiques intégrant des informations sur la structure de codage et d’épissage des séquences. Nous avons proposé un algorithme et une nouvelle fonction du score pour l’alignement de séquences codantes d’ADN (CDS) en tenant compte de la longueur des décalages du cadre de traduction. Nous avons aussi proposé un algorithme pour aligner des paires de séquences d’une famille de gènes en considérant leurs structures d’épissage. Nous avons également développé un algorithme pour assembler des alignements épissés par paire en alignements multiples de séquences. Enfin, nous avons développé un outil pour la visualisation d’alignements épissés multiples de famille de gènes. Dans cette thèse, nous avons souligné l’importance et démontré l’utilité de tenir compte de la structure des séquences en entrée lors du calcul de leur alignement

    Modèles et algorithmes pour la segmentation de séquences biologiques et la reconstruction de leurs histoires évolutives

    Get PDF
    L’informatique est de plus en plus utilisée pour résoudre des problèmes dans divers domaines. C’est ainsi qu’avec l’accroissement des données biologiques générées par les techniques expérimentales à haut débit, la bio-informatique intervient pour tirer profit de ces masses de données et contribuer à l’avancement des connaissances en sciences biologiques. La bio-informatique est un domaine interdisciplinaire ayant pour but d’étudier et de résoudre des problèmes computationnels issus des sciences biologiques. Un des problèmes intemporels étudié en bio-informatique est la reconstruction de l’histoire évolutive de génomes, qui sous-entend essentiellement celle des gènes. Les gènes sont le support de l’information génétique et sont les unités de base de l’hérédité. De nos jours, un grand nombre de maladies, telles les cancers, ont une base génétique. Une bonne compréhension de l’évolution des gènes permettrait de mieux comprendre les processus impliqués dans ces maladies pour mieux les traiter. De plus, les connaissances sur l’évolution de gènes sont utiles pour la prédiction et l’annotation de nouveaux gènes. Il a été montré que les gènes eucaryotes subissent un phénomène d’épissage alternatif qui permet aux gènes de produire plusieurs transcrits différents afin de se diversifier fonctionnellement. C’est dans ce contexte que se situe cette thèse de doctorat. L’objectif de la thèse est de définir des modèles et des algorithmes efficaces et précis pour la segmentation de séquences biologiques et la reconstruction de leurs histoires évolutives en tenant compte de l’épissage alternatif. Dans cette thèse, j'ai contribué à accroître les connaissances scientifiques en introduisant et en formalisant des modèles d’évolution de transcrits et de gènes. Nous avons proposé deux algorithmes pour la segmentation de transcrits alternatifs. Nous avons également proposé un outil de simulation de l’évolution des séquences biologiques et un outil de visualisation de coévolution. Pour chacun des modèles et algorithmes proposés, nous avons développé des applications pour permettre l’utilisation facile de nos outils
    corecore