11,286 research outputs found

    Computational analysis of transcriptional regulation in metazoans

    Get PDF
    This HDR thesis presents my work on transcriptional regulation in metazoans (animals). As a computational biologist, my research activities cover both the development of new bioinformatics tools, and contributions to a better understanding of biological questions. The first part focuses on transcription factors, with a study of the evolution of Hox and ParaHox gene families across meta- zoans, for which I developed HoxPred, a bioinformatics tool to automatically classify these genes into their groups of homology. Transcription factors regulate their target genes by binding to short cis-regulatory elements in DNA. The second part of this thesis introduces the prediction of these cis-regulatory elements in genomic sequences, and my contributions to the development of user- friendly computational tools (RSAT software suite and TRAP). The third part covers the detection of these cis-regulatory elements using high-throughput sequencing experiments such as ChIP-seq or ChIP-exo. The bioinformatics developments include reusable pipelines to process these datasets, and novel motif analysis tools adapted to these large datasets (RSAT peak-motifs and ExoProfiler). As all these approaches are generic, I naturally apply them to diverse biological questions, in close collaboration with experimental groups. In particular, this third part presents the studies uncover- ing new DNA sequences that are driving or preventing the binding of the glucocorticoid receptor. Finally, my research perspectives are introduced, especially regarding further developments within the RSAT suite enabling cross-species conservation analyses, and new collaborations with exper- imental teams, notably to tackle the epigenomic remodelling during osteoporosis.Cette thèse d’HDR présente mes travaux concernant la régulation transcriptionelle chez les métazoaires (animaux). En tant que biologiste computationelle, mes activités de recherche portent sur le développement de nouveaux outils bioinformatiques, et contribuent à une meilleure compréhension de questions biologiques. La première partie concerne les facteurs de transcriptions, avec une étude de l’évolution des familles de gènes Hox et ParaHox chez les métazoaires. Pour cela, j’ai développé HoxPred, un outil bioinformatique qui classe automatiquement ces gènes dans leur groupe d’homologie. Les facteurs de transcription régulent leurs gènes cibles en se fixant à l’ADN sur des petites régions cis-régulatrices. La seconde partie de cette thèse introduit la prédiction de ces éléments cis-régulateurs au sein de séquences génomiques, et présente mes contributions au développement d’outils accessibles aux non-spécialistes (la suite RSAT et TRAP). La troisième partie couvre la détection de ces éléments cis-régulateurs grâce aux expériences basées sur le séquençage à haut débit comme le ChIP-seq ou le ChIP-exo. Les développements bioinformatiques incluent des pipelines réutilisables pour analyser ces jeux de données, ainsi que de nouveaux outils d’analyse de motifs adaptés à ces grands jeux de données (RSAT peak-motifs et ExoProfiler). Comme ces approches sont génériques, je les applique naturellement à des questions biologiques diverses, en étroite collaboration avec des groupes expérimentaux. En particulier, cette troisième partie présente les études qui ont permis de mettre en évidence de nouvelles séquences d’ADN qui favorisent ou empêchent la fixation du récepteur aux glucocorticoides. Enfin, mes perspectives de recherche sont présentées, plus particulièrement concernant les nouveaux développements au sein de la suite RSAT pour permettre des analyses basées sur la conservation inter-espèces, mais aussi de nouvelles collaborations avec des équipes expérimentales, notamment pour éudier le remodelage épigénomique au cours de l’ostéoporose

    RL-MD: A Novel Reinforcement Learning Approach for DNA Motif Discovery

    Full text link
    The extraction of sequence patterns from a collection of functionally linked unlabeled DNA sequences is known as DNA motif discovery, and it is a key task in computational biology. Several deep learning-based techniques have recently been introduced to address this issue. However, these algorithms can not be used in real-world situations because of the need for labeled data. Here, we presented RL-MD, a novel reinforcement learning based approach for DNA motif discovery task. RL-MD takes unlabelled data as input, employs a relative information-based method to evaluate each proposed motif, and utilizes these continuous evaluation results as the reward. The experiments show that RL-MD can identify high-quality motifs in real-world data.Comment: This paper is accepted by DSAA2022. The 9th IEEE International Conference on Data Science and Advanced Analytic
    • …
    corecore