4 research outputs found

    TRStalker: an efficient heuristic for finding fuzzy tandem repeats

    Get PDF
    Motivation: Genomes in higher eukaryotic organisms contain a substantial amount of repeated sequences. Tandem Repeats (TRs) constitute a large class of repetitive sequences that are originated via phenomena such as replication slippage and are characterized by close spatial contiguity. They play an important role in several molecular regulatory mechanisms, and also in several diseases (e.g. in the group of trinucleotide repeat disorders). While for TRs with a low or medium level of divergence the current methods are rather effective, the problem of detecting TRs with higher divergence (fuzzy TRs) is still open. The detection of fuzzy TRs is propaedeutic to enriching our view of their role in regulatory mechanisms and diseases. Fuzzy TRs are also important as tools to shed light on the evolutionary history of the genome, where higher divergence correlates with more remote duplication events

    Barry Smith an sich

    Get PDF
    Festschrift in Honor of Barry Smith on the occasion of his 65th Birthday. Published as issue 4:4 of the journal Cosmos + Taxis: Studies in Emergent Order and Organization. Includes contributions by Wolfgang Grassl, Nicola Guarino, John T. Kearns, Rudolf LĂŒthe, Luc Schneider, Peter Simons, Wojciech Ć»eƂaniec, and Jan WoleƄski

    ModĂ©lisation de rĂ©seaux biochimiques bactĂ©riens – Un aller-retour entre donnĂ©es et modĂšles

    Get PDF
    With the advent of new technologies, experimental data in biology has exploded in size and complexity. It is now possible to simultaneously quantify different components of the cell at metabolic, transcriptomic, proteomic, and phenotypic levels. Connecting these different multi-scale and dynamic datasets provides an integrated view of cellular growth and informs us about the underlying molecular networks of genes, RNAs, proteins and metabolites that control the adaptation of the cell to the environment. This is the perspective offered by math-ematical modelling and computer simulation, allowing the association of different microscopic and macroscopic scales. This is a difficult problem however, because of the noise and the heterogeneity of the data, and of the size and the nonlinearity of the models. As a consequence, a large number of datasets are only partially analysed and underexploited. This manuscript describes the work I have carried out to improve the utilization of experimental data to gain a better understanding of the adaptation of bacterial growth to a changing environment. This work has been carried out within the Ibis project-team (Inria, UniversitĂ© Grenoble Alpes) with my colleagues, especially the students that I have had the chance to supervise. After the introductory Chapter 1, I describe in Chapter 2 the modelling of cellular networks using ordinary differential equations as well as simplification and approximation of the models depending on the nature of the available data and the questions addressed. These principles are applied in Chapter 3 to the qualitative analysis of the dynamics of gene networks in the context of the carbon starvation response in Escherichia colibacteria. With the general trend of biology becoming increasingly quantitative, modelling studies require obtaining reliable gene expression and metabolomic data, the analysis of which requires the development of suitable methods described in Chapter 4. Chapter 5 examines the strong link between the activity of the cellular gene expression machinery and bacterial growth rate. This understanding is used to develop a synthetic strain of E. coliwhose growth control makes it possible to divert the flow of precursors for growth towards the bioproduction of molecules of biotechnological interest. In Chapter 6, large-scale reconstructions of central carbon metabolism are used as platforms to interpret datasets regarding the post-transcriptional regulation of central carbon metabolisminE. coli. Chapter 7 is dedicated to the genome-scale analysis of mRNA decay by means of dynamic transcriptomics data. I describe in Chapter 8 ongoing and future projects towards the integrative analysis of microbial growth and resource allocation strategies. The scientific developments of these projects are expected to shape my own research activity in the coming years and that of the future project-team, under creation, that I will lead.Avec l’arrivĂ©e des nouvelles technologies, les donnĂ©es expĂ©rimentales en biologie ont explosĂ© en taille et complexitĂ©. Il est dĂ©sormais possible de quantifier en mĂȘme temps diffĂ©rents composants de la cellule au niveau mĂ©tabolique, transcriptomique, protĂ©omique et de caractĂ©ristiques phĂ©notypiques comme le taux de croissance. Relier ces diffĂ©rents jeux de donnĂ©e smulti-Ă©chelles et dynamiques permet d’obtenir une vision intĂ©grĂ©e de la croissance cellulaire,en nous renseignant sur la façon dont les rĂ©seaux molĂ©culaires sous-jacents de gĂšnes, ARN,protĂ©ines et mĂ©tabolites contrĂŽlent l’adaptation des cellules Ă  leur environnement. C’est le cadre qu’offrent la modĂ©lisation mathĂ©matique et la simulation informatique, en permettant d’associer les diffĂ©rentes Ă©chelles microscopiques et macroscopiques. C’est cependant un problĂšme difficile, du fait du bruit et de l’hĂ©tĂ©rogĂ©nĂ©itĂ© des donnĂ©es d’une part, et de la taille et la forme non-linĂ©aire des modĂšles d’autre part. La consĂ©quence est qu’un grand nombre de jeux de donnĂ©es ne sont que partiellement analysĂ©s et sous-exploitĂ©s.Ce manuscrit dĂ©crit les travaux que j’ai menĂ©s pour amĂ©liorer l’utilisation de donnĂ©es expĂ©rimentales afin d’obtenir une meilleure comprĂ©hension de l’adaptation de la croissance bactĂ©rienne Ă  un environnement changeant. Ces travaux ont Ă©tĂ© menĂ©s au sein de l’équipe-projet Ibis (Inria, UniversitĂ© Grenoble Alpes) avec mes collĂšgues, en particulier les Ă©tudiants que j’ai eu la chance d’encadrer. AprĂšs un premier chapitre d’introduction, je dĂ©cris en chapitre 2 les concepts de base de la modĂ©lisation des rĂ©seaux biochimiques. Je dĂ©taillerai en particulier les reconstructions du mĂ©tabolisme cellulaire Ă  l’échelle du gĂ©nome et la modĂ©lisation cinĂ©tique des rĂ©actions enzymatiques, dont les concepts sont utilisĂ©s dans plusieurs travaux prĂ©sentĂ©s dans ce manuscrit. La grande dimension et non linĂ©aritĂ© des modĂšles cinĂ©tiques complique l’estimation de leurs paramĂštres et l’analyse de leur dynamique. Je prĂ©senterai des travaux sur des simplifications appropriĂ©es pour ces modĂšles selon la nature des donnĂ©es Ă  disposition et les questions abordĂ©es, comme la rĂ©duction de modĂšles d’équations diffĂ©rentielles ordinaires (ODE) par sĂ©paration des Ă©chelles de temps ou l’approximation des modĂšles ODE par des modĂšles linĂ©aires par morceaux. Du fait de leur dĂ©rivation rigoureuse, les modĂšles simplifiĂ©s retiennent les principales caractĂ©ristiques des modĂšles ODE. Ces approches seront utilisĂ©es pour les diffĂ©rents modĂšles dynamiques prĂ©sentĂ©s dans ce manuscrit. Dans le chapitre 3, je prĂ©sente des travaux d’analyse de la dynamique d’un rĂ©seau de rĂ©gulation gĂ©nique contrĂŽlant la rĂ©ponse Ă  la privation en carbon de la bactĂ©rie Escherichiacoli. Lors de ces travaux, l’absence de donnĂ©es quantitatives dans la littĂ©rature ne permettait pas d’utiliser un modĂšle ODE pour dĂ©crire la dynamique du systĂšme. J’ai plutĂŽt analysĂ© la dynamique d’une version linĂ©aire par morceaux de ce modĂšle par une approche de modĂ©lisation et simulation qualitative. Je dĂ©crirai le principe de cette approche avec un exemple simple et son application Ă  l’étude du rĂ©seau de la rĂ©ponse au manque de source de carbone. Cette approche a permis pour la premiĂšre fois de relier la croissance d’E. coliavec les principaux rĂ©gulateurs transcriptionnels de la bactĂ©rie, et de comprendre les cascades de rĂ©gulations mises en place lors de la rĂ©ponse Ă  une privation en glucose ou du rĂ©dĂ©marrage de croissance sur ce sucre.L’évolution de la biologie en une science quantitative permet d’obtenir de nombreusesviidonnĂ©es d’expression gĂ©nique et du mĂ©tabolisme cellulaire. La fiabilitĂ© de ces donnĂ©es nĂ©cessite le dĂ©veloppement de mĂ©thodes d’analyse adaptĂ©es dĂ©crites dans le chapitre 4. Je dĂ©crirai des travaux sur l’analyse de donnĂ©es de gĂšnes rapporteurs et l’analyse de donnĂ©es de mĂ©tabolomique afin de pouvoir reconstruire des profils d’activitĂ©s de promoteurs et de concentrations de protĂ©ines dans le premier cas, et des vitesses d’import et secrĂ©tion de mĂ©tabolites extracellulaires,ainsi que des taux de croissance dans le second cas. Les donnĂ©es quantitatives utilisĂ©es dans le reste du manuscrit ont Ă©tĂ© analysĂ©es grĂące Ă  ces approches. Le chapitre 5 s’intĂ©resse au lien Ă©troit entre activitĂ© de la machinerie cellulaire d’expression gĂ©nique et taux de croissance bactĂ©rien. A l’aide de modĂšles simples intĂ©grant des donnĂ©es expĂ©rimentales de gĂšnes rapporteurs, nous montrons le rĂŽle clĂ© jouĂ© par la machinerie d’expression gĂ©nique dans l’adaptation globale de l’expression des gĂšnes au cours de la croissance. Ces travaux montrent que le fonctionnement des rĂ©seaux biochimiques ne peut ĂȘtre dĂ©connectĂ© de l’état physiologique de la cellule. Cette comprĂ©hension est utilisĂ©e pour l’ingĂ©nierie d’une souched’E. colisynthĂ©tique dont le contrĂŽle de la croissance permet de divertir les flux de prĂ©curseurs pour la croissance vers la bioproduction de molĂ©cules d’intĂ©rĂȘt biotechnologique. Dans le chapitre 6, de grandes reconstructions du mĂ©tabolisme et diffĂ©rents jeux de donnĂ©es (mĂ©tabolomique, activitĂ©s spĂ©cifiques) sont utilisĂ©es pour Ă©tudier la rĂ©gulation post-transcriptionnelle du mĂ©tabolisme central carbonĂ© chezE. coli. Ces travaux ont permis d’expliquer les consĂ©quences physiologiques de l’attĂ©nuation du gĂšne de la protĂ©ine CsrA et d’identifier des ARNm cibles de cette protĂ©ine. Nous avons en outre pu montrer que chezE. coliĂ©galement, le glycogĂšne joue un rĂŽle de stockage de sucre qui sert de source d’énergie pour faciliter la transition de la croissance bactĂ©rienne d’une source de carbone Ă  une autre.Le chapitre 7 s’intĂ©resse Ă  la dĂ©gradation de l’ensemble des ARNm d’E. coli. Je dĂ©crirai le dĂ©veloppement d’un modĂšle simple reposant sur des approches de quasi-Ă©quilibre et permettant de prĂ©dire la cinĂ©tique de dĂ©gradation de chacun des ARNm cellulaires de la bactĂ©rieE. coli. Nous avons pu formuler de nouvelles hypothĂšses sur le rĂŽle possible de la compĂ©tition entre ARNm pour leur fixation au dĂ©gradosome lors de l’adaptation de la croissance bactĂ©rienne Ă  des changements environnementaux. Nous montrons Ă©galement que ce mĂ©canisme de compĂ©tition joue un rĂŽle physiologique grĂące Ă  une approche de modĂ©lisation non linĂ©aire Ă  effets mixtes utilisant le modĂšle mĂ©canistique de la dĂ©gradation des ARNm et des jeux de donnĂ©es de transcriptomique dynamique mesurant la cinĂ©tique de disparition des ARNm cellulaires.Le chapitre 8 est dĂ©diĂ© Ă  des projets en cours et futurs sur l’analyse intĂ©grative de la croissance microbienne et les stratĂ©gies d’allocation de ressources des bactĂ©ries. Les travaux menĂ©s dans le cadre de ces projets vont dĂ©finir mon activitĂ© scientifique dans les annĂ©es Ă  venir et celle de la future Ă©quipe-projet, en cours de crĂ©ation, dont je prendrai la direction

    What we leave behind : reproducibility in chromatin analysis within and across species

    Get PDF
    Epigenetics is the field of biology that investigates heritable factors regulating gene expression without being directly encoded in the genome of an organism. The human genome is densely packed inside a cell's nucleus in the form of chromatin. Certain constituents of chromatin play a vital role as epigenetic factors in the dynamic regulation of gene expression. Epigenetic changes on the chromatin level are thus an integral part of the mechanisms governing the development of the functionally diverse cell types in multicellular species such as human. Studying these mechanisms is not only important to understand the biology of healthy cells, but also necessary to comprehend the epigenetic component in the formation of many complex diseases. Modern wet lab technology enables scientists to probe the epigenome with high throughput and in extensive detail. The fast generation of epigenetic datasets burdens computational researchers with the challenge of rapidly performing elaborate analyses without compromising on the scientific reproducibility of the reported findings. To facilitate reproducible computational research in epigenomics, this thesis proposes a task-oriented metadata model, relying on web technology and supported by database engineering, that aims at consistent and human-readable documentation of standardized computational workflows. The suggested approach features, e.g., computational validation of metadata records, automatic error detection, and progress monitoring of multi-step analyses, and was successfully field-tested as part of a large epigenome research consortium. This work leaves aside theoretical considerations, and intentionally emphasizes the realistic need of providing scientists with tools that assist them in performing reproducible research. Irrespective of the technological progress, the dynamic and cell-type specific nature of the epigenome commonly requires restricting the number of analyzed samples due to resource limitations. The second project of this thesis introduces the software tool SCIDDO, which has been developed for the differential chromatin analysis of cellular samples with potentially limited availability. By combining statistics, algorithmics, and best practices for robust software development, SCIDDO can quickly identify biologically meaningful regions of differential chromatin marking between cell types. We demonstrate SCIDDO's usefulness in an exemplary study in which we identify regions that establish a link between chromatin and gene expression changes. SCIDDO's quantitative approach to differential chromatin analysis is user-customizable, providing the necessary flexibility to adapt SCIDDO to specific research tasks. Given the functional diversity of cell types and the dynamics of the epigenome in response to environmental changes, it is hardly realistic to map the complete epigenome even for a single organism like human or mouse. For non-model organisms, e.g., cow, pig, or dog, epigenome data is particularly scarce. The third project of this thesis investigates to what extent bioinformatics methods can compensate for the comparatively little effort that is invested in charting the epigenome of non-model species. This study implements a large integrative analysis pipeline, including state-of-the-art machine learning, to transfer chromatin data for predictive modeling between 13 species. The evidence presented here indicates that a partial regulatory epigenetic signal is stably retained even over millions of years of evolutionary distance between the considered species. This finding suggests complementary and cost-effective ways for bioinformatics to contribute to comparative epigenome analysis across species boundaries.Epigenetik ist das Teilgebiet der Biologie, welches vererbbare Faktoren untersucht, die die Genexpression regulieren, ohne dabei direkt im Genom eines Organismus kodiert zu sein. Das menschliche Genom liegt dicht gepackt im Zellkern in der Form von Chromatin vor. Bestimmte Bestandteile des Chromatin spielen als epigenetische Faktoren eine zentrale Rolle bei der dynamischen Regulation von Genexpression. Epigenetische VerĂ€nderungen auf Chromatinebene sind daher ein integraler Teil jener Mechanismen, die die Entwicklung von funktionell diversen Zelltypen in multizellulĂ€ren Spezies wie Mensch maßgeblich steuern. Diese Mechanismen zu untersuchen ist nicht nur wichtig, um die Biologie von gesunden Zellen zu erklĂ€ren, sondern auch, um den epigenetischen Anteil an der Entstehung von vielen komplexen Krankheiten zu verstehen. Moderne Labortechnologien erlauben es Wissenschaftlern, Epigenome mit hohem Durchsatz und sehr detailliert zu erforschen. Ein schneller Aufbau von epigenetischen DatensĂ€tzen stellt die computerbasierte Forschung vor die Herausforderung, schnell aufwendige Analysen durchzufĂŒhren, ohne dabei Kompromisse bei der wissenschaftlichen Reproduzierbarkeit der gelieferten Ergebnisse einzugehen. Um die computerbasierte reproduzierbare Forschung im Bereich der Epigenomik zu vereinfachen, schlĂ€gt diese Dissertation ein aufgabenorientiertes Metadaten-Modell vor, welches, aufbauend auf Internet- und Datenbanktechnologie, auf eine konsistente und gleichzeitig menschenlesbare Dokumentation fĂŒr standardisierte computerbasierte ArbeitsablĂ€ufe abzielt. Das vorgeschlagene Modell ermöglicht unter anderem eine computergestĂŒtzte Validierung von Metadaten, automatische Fehlererkennung, sowie Fortschrittskontrollen bei mehrstufigen Analysen, und wurde unter realen Bedingungen in einem epigenetischen Forschungskonsortium erfolgreich getestet. Die beschriebene Arbeit prĂ€sentiert keine theoretischen Betrachtungen, sondern setzt den Schwerpunkt auf die realistische Notwendigkeit, Forscher mit Werkzeugen auszustatten, die ihnen bei der DurchfĂŒhrung von reproduzierbarer Arbeit helfen. UnabhĂ€ngig vom technologischen Fortschritt, erfordert die zellspezifische und dynamische Natur des Epigenoms hĂ€ufig eine BeschrĂ€nkung bei der Anzahl an zu untersuchenden Proben, um Ressourcenvorgaben einzuhalten. Das zweite Projekt dieser Arbeit stellt die Software SCIDDO vor, welche fĂŒr die differenzielle Analyse von Chromatindaten auch bei geringer VerfĂŒgbarkeit von Zellproben entwickelt wurde. Durch die Kombination von Statistik, Algorithmik, und bewĂ€hrten Methoden zur robusten Software-Entwicklung, erlaubt es SCIDDO, schnell biologisch sinnvolle Regionen zu identifizieren, die ein differenzielles Chromatinprofil zwischen Zelltypen aufzeigen. Wir demonstrieren SCIDDOs Nutzwert in einer beispielhaften Studie, z.B. durch die Identifikation von Regionen, die eine Verbindung von Ă€nderungen auf Chromatinebene und Genexpression herstellen. SCIDDOs quantitativer Ansatz bei der differenziellen Analyse von Chromatindaten erlaubt eine nutzer- und aufgabenspezifische Anpassung, was FlexibilitĂ€t bei der Bearbeitung anderer Fragestellungen ermöglicht. Bedingt durch die funktionelle Vielfalt an Zelltypen und die Dynamik des Epigenoms resultierend aus UmgebungsverĂ€nderungen, ist es kaum realistisch, das komplette Epigenom von auch nur einer einzigen Spezies wie Mensch zu erfassen. Insbesondere fĂŒr nicht-Modellorganismen wie Kuh, Schwein, oder Hund sind sehr wenig Epigenomdaten verfĂŒgbar. Das dritte Projekt dieser Dissertation untersucht, inwieweit bioinformatische Methoden dazu verwendet werden könnten, den vergleichsweise geringen Aufwand, welcher betrieben wird um das Epigenom von nicht-Modellspezies zu erforschen, zu kompensieren. Diese Studie realisiert eine große, integrative Computeranalyse, welche basierend auf Methoden des maschinellen Lernens und auf Transfer von Chromatindaten Modelle zur Genexpressionsvorhersage ĂŒber Speziesgrenzen hinweg etabliert. Die gewonnenen Erkenntnisse lassen vermuten, dass ein Teil des regulatorischen epigenetischen Signals auch ĂŒber Millionen von Jahren an evolutionĂ€rer Distanz zwischen den 13 betrachteten Spezies stabil erhalten bleibt. Diese Arbeit zeigt dadurch ergĂ€nzende und kosteneffektive Möglichkeiten auf, wie Bioinformatik einen Beitrag zur vergleichenden Epigenomanalyse ĂŒber Speziesgrenzen hinweg leisten könnte
    corecore