Etude des éléments cis-régulateurs : identification et caractérisation

Abstract

The regulation of gene transcription is largely based on the existence of non-codingDNA sequences in the genome. These DNA sequences, called "cis-regulatory elements",have the particularity of recruiting many proteins capable of regulating the level of genetranscription. Among these proteins, transcription factors are capable of directly bindingto DNA. Transcription factors cooperate with other regulatory proteins, called cofactors,to regulate transcription. Transcription regulatory proteins allow the binding andregulation of the RNA polymerase II enzyme that transcribes genes into messenger RNA.The fixation of transcription factors on the cis-regulatory elements allows the regulationof genes in space and time. To better understand the regulation of gene expression, it isnecessary to identify cis-regulatory elements in the genome in order to characterize andidentify the mechanisms of action of regulatory elements and the proteins that are linkedto them. The rapid development of high throughput sequencing methods has made itpossible to identify DNA/protein interactions on a large scale. The massive accumulationof sequencing data in public databases allows the integration of many experiments thatcapture the interactions between transcription factors and DNA through bioinformatics.The purpose of my PhD was to annotate and process in a uniform way the raw data fromsequencing experiments whose objective is to identify the binding regions of regulatoryproteins for humans and then for Arabidopsis Thaliana. We processed data from ChIPseq, ChIP-exo and DAP-seq to develop several catalogues of regulatory regions in humansand Arabidopsis Thaliana. All this data is available within the ReMap project. Wecompleted them with an analysis of all histone brands for Arabidopsis Thaliana. To carryout these analyses we have developed reproducible, scalable and portable workflowsworking on different architectures. This high throughput integrative analysis has allowedus to identify many new cis-regulatory elements. These data were also used to identifythe attachment sites recognized by the transcription factors and to consolidate theJASPAR database for humans and Arabidopsis Thaliana. Finally, this catalogue was usedin the development of a new method applying an entropy-based algorithm to differentiatebetween direct and indirect protein binding events in ChIP-seq results.Le processus de régulation de la transcription des gènes repose très largement surl’existence de séquences d’ADN non codantes dans le génome. Ces séquences d’ADN,appelées “éléments cis-régulateurs”, ont la particularité de recruter de nombreusesprotéines capables de réguler le niveau de transcription des gènes. Parmi ces protéines,les facteurs de transcription sont capables de se fixer directement sur l’ADN. Les facteursde transcription coopèrent avec d’autres protéines régulatrices, les cofacteurs, afin deréguler la transcription. Les protéines régulatrices de la transcription permettent lafixation et la régulation de l’enzyme d’ARN polymérase II qui transcrit les gènes en ARNmessager. Leurs fixations sur les éléments cis-régulateurs permettent une régulation desgènes dans l’espace et dans le temps. Pour mieux comprendre la régulation del’expression des gènes, il est nécessaire d’identifier les éléments cis-régulateurs dans legénome afin de caractériser et d’identifier les mécanismes d’action des élémentsrégulateurs et des protéines qui leur sont liés. Le développement rapide des méthodes deséquençage à haut débit a permis l’identification des interactions ADN/protéines à grandeéchelle. L'accumulation massive des données de séquençage dans les banques de donnéespubliques permet l'intégration de nombreuses expériences capturant les interactionsentre les facteurs de transcription et l’ADN par des moyens bioinformatiques. Le but demon doctorat a été d’annoter et traiter de façon uniforme les données brutes issuesd’expériences de séquençage ayant pour objectif d’identifier les régions de fixation desprotéines régulatrices pour l’Homme puis chez Arabidopsis Thaliana. Nous avons traitédes données de ChIP-seq, ChIP-exo et DAP-seq afin d'élaborer plusieurs catalogues derégions régulatrices chez l’homme et chez Arabidopsis Thaliana. Toutes ces données sontdisponibles au sein du projet ReMap. Pour Arabidopsis Thaliana, nous avons complété cesdonnées par une analyse de toutes les marques d’histones. Pour effectuer ces analyses,nous avons développé des workflows reproductibles, scalables et portables sur desarchitectures différentes. Cette analyse intégrative à haut débit nous a permis d’identifierde nombreux nouveaux éléments cis-régulateurs. Ces données ont également été utiliséespour identifier les sites de fixations reconnus par les facteurs de transcription etpour consolider la base de données JASPAR pour l’Homme et pour Arabidopsis Thaliana.Enfin, ce catalogue a été utilisé dans le développement d’une nouvelle méthodeappliquant un algorithme basé sur l’entropie. Cet algorithme permet de différencier lesévénements de fixations directes et indirectes par les protéines dans les résultats de ChIPseq

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 25/05/2024