98 research outputs found

    Computational representation and discovery of transcription factor binding sites

    Get PDF
    Tesi per compendi de publicacions.The information about how, when, and where are produced the proteins has been one of the major challenge in molecular biology. The studies about the control of the gene expression are essential in order to have a better knowledge about the protein synthesis. The gene regulation is a highly controlled process that starts with the DNA transcription. This process operates at the gene level, hereditary basic units, which will be copied into primary ribonucleic acid (RNA). This first step is controlled by the binding of specific proteins, called as Transcription Factors (TF), with a sequence of the DNA (Deoxyribonucleic Acid) in the regulatory region of the gene. These DNA sequences are known as binding sites (BS). The binding sites motifs are usually very short (5 to 20 bp long) and highly degenerate. These sequences are expected to occur at random every few hundred base pairs. Besides, a TF can bind among different sites. Due to its highly variability, it is difficult to establish a consensus sequence. The study and identification binding sites is important to clarify the control of the gene expression. Due to the importance of identifying binding sites sequences, projects such as ENCODE (Encyclopedia of DNA elements), have dedicated efforts to map binding sites for large set of transcription factor to identify regulatory regions. In this thesis, we have approached the problem of the binding site detection from another angle. We have developed a set of toolkit for motif binding detection based on linear and non-linear models. First of all, we have been able to characterize binding sites using different approaches. The first one is based on the information that there is in each binding sites position. The second one is based on the covariance model of an aligned set of binding sites sequences. From these motif characterizations, we have proposed a new set of computational methods to detect binding sites. First, it was developed a new method based on parametric uncertainty measurement (Rényi entropy). This detection algorithm evaluates the variation on the total Rényi entropy of a set of sequences when a candidate sequence is assumed to be a true binding site belonging to the set. This method was found to perform especially well on transcription factors that the correlation among binding sites was null. The correlation among binding sites positions was considered through linear, Q-residuals, and non-linear models, alpha-Divergence and SIGMA. Q-residuals is a novel motif finding method which constructs a subspace based on the covariance of numerical DNA sequences. When the number of available sequences was small, The Q-residuals performance was significantly better and faster than all the others methodologies. Alpha-Divergence was based on the variation of the total parametric divergence in a set of aligned sequenced with binding evidence when a candidate sequence is added. Given an optimal q-value, the alpha-Divergence performance had a better behavior than the others methodologies in most of the studied transcription factor binding sites. And finally, a new computational tool, SIGMA, was developed as a trade-off between the good generalisation properties of pure entropy methods and the ability of position-dependency metrics to improve detection power. In approximately 70% of the cases considered, SIGMA exhibited better performance properties, at comparable levels of computational resources, than the methods which it was compared. This set of toolkits and the models for the detection of a set of transcription factor binding sites (TFBS) has been included in an R-package called MEET.La informació sobre com, quan i on es produeixen les proteïnes ha estat un dels majors reptes en la biologia molecular. Els estudis sobre el control de l'expressió gènica són essencials per conèixer millor el procés de síntesis d'una proteïna. La regulació gènica és un procés altament controlat que s'inicia amb la transcripció de l'ADN. En aquest procés, els gens, unitat bàsica d'herència, són copiats a àcid ribonucleic (RNA). El primer pas és controlat per la unió de proteïnes, anomenades factors de transcripció (TF), amb una seqüència d'ADN (àcid desoxiribonucleic) en la regió reguladora del gen. Aquestes seqüències s'anomenen punts d'unió i són específiques de cada proteïna. La unió dels factors de transcripció amb el seu corresponent punt d'unió és l'inici de la transcripció. Els punts d'unió són seqüències molt curtes (5 a 20 parells de bases de llargada) i altament degenerades. Aquestes seqüències poden succeir de forma aleatòria cada centenar de parells de bases. A més a més, un factor de transcripció pot unir-se a diferents punts. A conseqüència de l'alta variabilitat, és difícil establir una seqüència consensus. Per tant, l'estudi i la identificació del punts d'unió és important per entendre el control de l'expressió gènica. La importància d'identificar seqüències reguladores ha portat a projectes com l'ENCODE (Encyclopedia of DNA Elements) a dedicar grans esforços a mapejar les seqüències d'unió d'un gran conjunt de factors de transcripció per identificar regions reguladores. L'accés a seqüències genòmiques i els avanços en les tecnologies d'anàlisi de l'expressió gènica han permès també el desenvolupament dels mètodes computacionals per la recerca de motius. Gràcies aquests avenços, en els últims anys, un gran nombre de algorismes han sigut aplicats en la recerca de motius en organismes procariotes i eucariotes simples. Tot i la simplicitat dels organismes, l'índex de falsos positius és alt respecte als veritables positius. Per tant, per estudiar organismes més complexes és necessari mètodes amb més sensibilitat. En aquesta tesi ens hem apropat al problema de la detecció de les seqüències d'unió des de diferents angles. Concretament, hem desenvolupat un conjunt d'eines per la detecció de motius basats en models lineals i no-lineals. Les seqüències d'unió dels factors de transcripció han sigut caracteritzades mitjançant dues aproximacions. La primera està basada en la informació inherent continguda en cada posició de les seqüències d'unió. En canvi, la segona aproximació caracteritza la seqüència d'unió mitjançant un model de covariància. A partir d'ambdues caracteritzacions, hem proposat un nou conjunt de mètodes computacionals per la detecció de seqüències d'unió. Primer, es va desenvolupar un nou mètode basat en la mesura paramètrica de la incertesa (entropia de Rényi). Aquest algorisme de detecció avalua la variació total de l'entropia de Rényi d'un conjunt de seqüències d'unió quan una seqüència candidata és afegida al conjunt. Aquest mètode va obtenir un bon rendiment per aquells seqüències d'unió amb poca o nul.la correlació entre posicions. La correlació entre posicions fou considerada a través d'un model lineal, Qresiduals, i dos models no-lineals, alpha-Divergence i SIGMA. Q-residuals és una nova metodologia per la recerca de motius basada en la construcció d'un subespai a partir de la covariància de les seqüències d'ADN numèriques. Quan el nombre de seqüències disponible és petit, el rendiment de Q-residuals fou significant millor i més ràpid que en les metodologies comparades. Alpha-Divergence avalua la variació total de la divergència paramètrica en un conjunt de seqüències d'unió quan una seqüència candidata és afegida. Donat un q-valor òptim, alpha-Divergence va tenir un millor rendiment que les metodologies comparades en la majoria de seqüències d'unió dels factors de transcripció considerats. Finalment, un nou mètode computacional, SIGMA, va ser desenvolupat per tal millorar la potència de deteccióPostprint (published version

    Els ponts antics de Mollet del Vallès

    Get PDF

    Sequence information gain based motif analysis

    Get PDF
    Background: The detection of regulatory regions in candidate sequences is essential for the understanding of the regulation of a particular gene and the mechanisms involved. This paper proposes a novel methodology based on information theoretic metrics for finding regulatory sequences in promoter regions. Results: This methodology (SIGMA) has been tested on genomic sequence data for Homo sapiens and Mus musculus. SIGMA has been compared with different publicly available alternatives for motif detection, such as MEME/MAST, Biostrings (Bioconductor package), MotifRegressor, and previous work such Qresiduals projections or information theoretic based detectors. Comparative results, in the form of Receiver Operating Characteristic curves, show how, in 70 % of the studied Transcription Factor Binding Sites, the SIGMA detector has a better performance and behaves more robustly than the methods compared, while having a similar computational time. The performance of SIGMA can be explained by its parametric simplicity in the modelling of the non-linear co-variability in the binding motif positions. Conclusions: Sequence Information Gain based Motif Analysis is a generalisation of a non-linear model of the cis-regulatory sequences detection based on Information Theory. This generalisation allows us to detect transcription factor binding sites with maximum performance disregarding the covariability observed in the positions of the training set of sequences. SIGMA is freely available to the public at http://b2slab.upc.edu.Postprint (published version

    Transcription factor binding site detection through position cross-mutual information variability analysis

    Get PDF
    Regulatory sequence detection is a fundamental challenge in computational biology. One key process in protein synthesis starts with the binding of the transcription factor to its binding site. Different sites can show binding to the same factor. This variability found in binding sequences increases the difficulty of their detection using computational algorithms. In this manuscript, a method for the detection of binding sites is proposed, based on the correlation between binding sequence positions through information theoretical measures. Efficiency values of the method are reported in the form of Receiver Operating Characteristic curves on the detection of different transcription factors of the Saccharomyces cerevisiae organism. We compare our results with other known motif detection Motif Discovery scan (MDscan).Peer ReviewedPostprint (published version

    MEET: Motif Elements Estimation Toolki

    Get PDF
    MEET (Motif Elements Estimation Toolkit) es un paquete en R que integra un conjunto de algoritmos para la detección computacional de los puntos de unión de los factores de transcripción (TFBS). El paquete en R MEET incluye cinco programas de búsqueda de motivos: MEME/MAST (Multiple Expectation-Maximization for Motif Elicitation), Q-residuals, MDscan (Motif Discovery scan), ITEME (Information Theory Elements for Motif Estimation) y Match. Además, permite al usuario trabajar con diferentes algoritmos de alineamiento múltiple: MUSCLE (Multiple Sequence Comparison by Log-Expectation), ClustalW y MEME. El paquete puede trabajar en dos modos diferentes, entrenamiento y detección. El modo entrenamiento permite escoger los parámetros óptimos del detector escogido. Y el modo detección permite, una vez escogidos los parámetros, analizar un genoma en busca de puntos de unión. Además, ambos modos pueden combinar los diferentes métodos de alineamiento y de detección, permitiendo al usuario un amplio abanico de posibilidades. Esta característica permite comparar los diferentes métodos computacionales al mismo nivel,sin realizar ningún agravio comparativo debido al alineamiento.Postprint (published version

    Caracterización y análisis de las interacciones de regulación entre los factores de transcripción y los genes

    Get PDF
    El estudio y la comprensión de las redes de interacción entre proteínas es fundamental para entender el funcionamiento de los diferentes procesos biológicos a nivel celular. El conjunto de interacciones entre proteínas, definido como interactoma, es muy complejo debido al número y a los diferentes tipos de interacciones existentes. En este contexto, estudiar las interacciones de regulación entre proteína y ácido desoxirribonucleico (Factor de Transcripción -ADN) es importante para comprender el nivel de expresión de los genes afectados. El principal objetivo de este trabajo es la caracterización desde el punto de vista estadístico de los factores de transcripción que regulan un gen y de los genes regulados por un factor de transcripción. Los datos han sido obtenidos de la base de datos String 1 y de la aplicación de minería de datos de SabioSciences 2. El trabajo se centra en las interacciones de regulación TF-gen para el organismo Homo sapiens.Peer ReviewedPostprint (author’s final draft

    Climate Influence on Deep Sea Populations

    Get PDF
    Dynamics of biological processes on the deep-sea floor are traditionally thought to be controlled by vertical sinking of particles from the euphotic zone at a seasonal scale. However, little is known about the influence of lateral particle transport from continental margins to deep-sea ecosystems. To address this question, we report here how the formation of dense shelf waters and their subsequent downslope cascade, a climate induced phenomenon, affects the population of the deep-sea shrimp Aristeus antennatus. We found evidence that strong currents associated with intense cascading events correlates with the disappearance of this species from its fishing grounds, producing a temporary fishery collapse. Despite this initial negative effect, landings increase between 3 and 5 years after these major events, preceded by an increase of juveniles. The transport of particulate organic matter associated with cascading appears to enhance the recruitment of this deep-sea living resource, apparently mitigating the general trend of overexploitation. Because cascade of dense water from continental shelves is a global phenomenon, we anticipate that its influence on deep-sea ecosystems and fisheries worldwide should be larger than previously thought

    Estimating Trends of Population Decline in Long-Lived Marine Species in the Mediterranean Sea Based on Fishers' Perceptions

    Get PDF
    We conducted interviews of a representative sample of 106 retired fishers in Italy, Spain and Greece, asking specific questions about the trends they perceived in dolphin and shark abundances between 1940 and 1999 (in three 20 year periods) compared to the present abundance. The large marine fauna studied were not target species of the commercial fleet segment interviewed (trawl fishery). The fishers were asked to rank the perceived abundance in each period into qualitative ordinal classes based on two indicators: frequency of sightings and frequency of catches (incidental or intentional) of each taxonomic group. The statistical analysis of the survey results showed that both incidental catches and the sighting frequency of dolphins have decreased significantly over the 60+ years of the study period (except for in Greece due to the recent population increase). This shows that fishers' perceptions are in agreement with the declining population trends detected by scientists. Shark catches were also perceived to have diminished since the early 1940s for all species. Other long-lived Mediterranean marine fauna (monk seals, whales) were at very low levels in the second half of the 20th century and no quantitative data could be obtained. Our study supports the results obtained in the Mediterranean and other seas that show the rapid disappearance (over a few decades) of marine fauna. We show that appropriately designed questionnaires help provide a picture of animal abundance in the past through the valuable perceptions of fishers. This information can be used to complement scientific sources or in some cases be taken as the only information source for establishing population trends in the abundance of sensitive species
    • …
    corecore