11 research outputs found

    ImmTree: Database of evolutionary relationships of genes and proteins in the human immune system

    Get PDF
    BACKGROUND: The immune system, which is a complex machinery, is based on the highly coordinated expression of a wide array of genes and proteins. The evolutionary history of the human immune system is not well characterised. Although several studies related to the development and evolution of immunological processes have been published, a full-scale genome-based analysis is still missing. A database focused on the evolutionary relationships of immune related genes would contribute to and facilitate research on immunology and evolutionary biology. RESULTS: An Internet resource called ImmTree was constructed for studying the evolution and evolutionary trees of the human immune system. ImmTree contains information about orthologs in 80 species collected from the HomoloGene, OrthoMCL and EGO databases. In addition to phylogenetic trees, the service provides data for the comparison of human-mouse ortholog pairs, including synonymous and non-synonymous mutation rates, Z values, and K(a)/K(s )quotients. A versatile search engine allows complex queries from the database. Currently, data is available for 847 human immune system related genes and proteins. CONCLUSION: ImmTree provides a unique data set of genes and proteins from the human immune system, their phylogenetics, and information for comparisons of human-mouse ortholog pairs, synonymous and non-synonymous mutation rates, as well as other statistical information

    Clustering of gene ontology terms in genomes.

    Get PDF
    Although protein coding genes occupy only a small fraction of genomes in higher species, they are not randomly distributed within or between chromosomes. Clustering of genes with related function(s) and/or characteristics has been evident at several different levels. To study how common the clustering of functionally related genes is and what kind of functions the end products of these genes are involved, we collected gene ontology (GO) terms for complete genomes and developed a method to detect previously undefined gene clustering. Exhaustive analysis was performed for seven widely studied species ranging from human to Escherichia coli. To overcome problems related to varying gene lengths and densities, a novel method was developed and a fixed number of genes were analyzed irrespective of the genome span covered. Statistically very significant GO term clustering was apparent in all the investigated genomes. The analysis window, which ranged from 5 to 50 consecutive genes, revealed extensive GO term clusters for genes with widely varying functions. Here, the most interesting and significant results are discussed and the complete dataset for each analyzed species is available at the GOme database at http://bioinf.uta.fi/GOme. The results indicated that clusters of genes with related functions are very common, not only in bacteria, in which operons are frequent, but also in all the studied species irrespective of how complex they are. There are some differences between species but in all of them GO term clusters are common and of widely differing sizes. The presented method can be applied to analyze any genome or part of a genome for which descriptive features are available, and thus is not restricted to ontology terms. This method can also be applied to investigate gene and protein expression patterns. The results pave a way for further studies of mechanisms that shape genome structure and evolutionary forces related to them

    Dynamic covariation between gene expression and proteome characteristics

    Get PDF
    Background Cells react to changing intra- and extracellular signals by dynamically modulating complex biochemical networks. Cellular responses to extracellular signals lead to changes in gene and protein expression. Since the majority of genes encode proteins, we investigated possible correlations between protein parameters and gene expression patterns to identify proteome-wide characteristics indicative of trends common to expressed proteins. Results Numerous bioinformatics methods were used to filter and merge information regarding gene and protein annotations. A new statistical time point-oriented analysis was developed for the study of dynamic correlations in large time series data. The method was applied to investigate microarray datasets for different cell types, organisms and processes, including human B and T cell stimulation, Drosophila melanogaster life span, and Saccharomyces cerevisiae cell cycle. Conclusion We show that the properties of proteins synthesized correlate dynamically with the gene expression profile, indicating that not only is the actual identity and function of expressed proteins important for cellular responses but that several physicochemical and other protein properties correlate with gene expression as well. Gene expression correlates strongly with amino acid composition, composition- and sequence-derived variables, functional, structural, localization and gene ontology parameters. Thus, our results suggest that a dynamic relationship exists between proteome properties and gene expression in many biological systems, and therefore this relationship is fundamental to understanding cellular mechanisms in health and disease.BioMed Central Open acces

    Local prediction of secondary structures of proteins from viewpoints of rare structure

    Get PDF
    Proteiinit eli valkuaisaineet ovat elämän ja solun toiminnan kannalta keskeisiä makromolekyylejä. Valkuaisaineiden rakennetutkimus on tärkeätä, kun selvitetään proteiinien rakennetta ja toimintaa geneettisen informaation ja valikuaisaineiden rakennekomponenttien, aminohappojen, järjestäytymisen kautta. Kokeellisesti tapahtuva rakennetutkimus on kuitenkin vaikeiden ongelmien ympäröimä: atomitason rakenteiden selvittäminen on monimutkaista, siihen liittyy monenlaisia epävarmuustekijöitä ja puhtaan proteiiniaineksen hankkiminen on työlästä. Näiden ongelmien takia kokeellinen tutkimus on kallista ja hidasta. Kokeellisen tutkimuksen rinnalle on muodostonut voimakkaasti kasvava biologiseen informaatioon perustuvien menetelmien käytön tutkimus, bioinformatiikka. Tämän alan tutkimus kohtaa puolestaan väistämättä informaatioalojen perustana olevia keskeisiä kysymyksiä: mitä yleensä voidaan laskea, miten biologinen informaatio saadaan ihmisten ja tietokoneiden ymmärtämään muotoon, kuinka luotettavia tehtävät ennusteet ovat ja onko käytettävissä oleva informaation määrä riittävä. Työssäni selvitin tutkimusryhmämme saamia tuloksia sekundaarirakenteiden ennustustyössä. Tarkastelemme sekundaarirakenne-ennustamista koneoppimisen näkökulmasta. Proteiinissa selkäranka muodostaa rakenteellisia elementtejä eli sekundaarirakenteita. Paikallinen sekundaarirakenne-ennustus perustuu lyhyen määrämittaisen sekvenssin sisältämän informaation käyttämiseen. Yksittäinen ennustus määrää sekundaarirakenteen tyypin proteiinin selkärangassa sekvenssin keskimmäisen aminohapon kohdalla. Tyypillisesti bioinformatiikan alan julkaisuissa esitellyt paikalliseen informaatioon perustuvat sekundaarirakenteiden ennustusmenetelmät ennustavat datan kolmeen luokkaan: kierteet, säikeet ja muut. Väitöskirjatutkimuksessa kysymykset kohdistuivat aluksi harvinaiseen polyproliini tyypin II sekundaarirakenteeseen ja lopulta kaikkiin tunnettuihin sekundaarirakennetyyppeihin. Täten työmme tarkastelee sekundaarirakenteiden ennustamista täysin uudesta näkökulmasta. Määrämittaisen sekvenssidatan muodostama avaruus todetaan työssä todella vaikeasti hallittavaksi perinteisillä koneoppimismenetelmillä. Avaruudessa ei ole suuren mittakaavan organisoitumista sekundaarirakennetyyppien suhteen, vaan organisoituminen on hyvin matalalla tasolla luonnossa havaitun sekvenssin lähistöllä. Lisäksi valtava avaruus on melkein tyhjä vaikka mukana on lähes kaikki sekvenssidata, josta tämänhetkinen tiede tuntee rakenteet. Lisäksi työssäni näytetään, miksi ennustus on sitä vaikeampaa, mitä harvinaisempaa tyyppiä yritetään ennustaa. Nämä ongelmat vaikeuttavat erityisesti sekundaarirakenteiden ennustamista perinteisesti menestyksellisillä koneoppimismenetelmillä kuten esim. neuroverkoilla. Tutkimuksessa kehiteltiin ennustusmenetelmä, joka keskittyy pääosin ennustuksen varmuuden parantamiseen käyttäen paikallista organisoitumista hyväkseen. Tämän takia menetelmä tuottaa poikkeuksellisen korkeita ennustustarkkuuksia myös harvinaisille sekundaarirakennetyypeille. Työssä paneuduttiin myös neuroverkon päätöksenteon ymmärtämiseen, datan siroontumiseen muuttuja-avaruudessa sekä biologisten sekvenssien muuttamiseen numeeriseen koneen ymmärtämään muotoon hävittämättä biologisia ominaisuuksia. Avaruuden ominaisuuksien ja datan käyttäytymisen tutkiminen auttoi myös löytämään mielenkiintoisen hypoteesin. Hypoteesin avulla voidaan ymmärtää, miten perinteisten menetelmien ennustustarkkuus muodostuu em. kolmen luokan suhteen. Puolet datasta näyttäisi sisältävän vihjeitä matalan tason organisoitumisesta. Ennustusmenetelmät löytävät helposti tämän. Loppu ennusteista menee oikein sattuman määräämässä suhteessa.This dissertation deals with the local prediction of protein secondary structure from the viewpoint of rare secondary structures. Protein three-dimensional structures are needed in the biomedical field because structures indicate something about the functions of proteins, and functions are almost everything that happens in a living cell. Unfortunately, it is difficult to ascertain the structure of a protein, because the details of the structure are located at the level of atoms. However, an amino acid sequence is fairly easy to solve and can also be produced from a DNA sequence. This could be a shortcut to the structure and function of proteins. We searched for ways to better understand the prediction challenge of secondary structures. Our research started with polyproline type II secondary structure prediction. The results showed that a neural network behaved well when the learning and test sets had a uniform class distribution. However, the identification of amino acid sequences that represent a rare class was difficult with class distribution of the real world. In this context, prediction was hampered by imbalanced class distribution. We developed spectrum and response analysis for the neural network which reveal the reasons for a certain decision. The frequencies of prolines affected a major part of decisions and this was almost all that a neural network could learn from the data. Apparently input sequences can take the evolutionary pre-information to the learning process. With the polyproline II structure this was a promosing idea and aroused interest in using the method with other structures and other pre-information types. With hyperspheres we developed a learning algorithm that achieved excellent prediction accuracy with all known secondary structure types. Unfortunately, the method leaves cases unclassified - if uncertain generalization is reduced, hyperspheres can achieve better prediction accuracies. Finally, for all secondary structure types we analyzed the space used and found explanations or how the structure types behave in the sequence space. The results showed that polyproline II is an exception among other types because of its sensitivity to the amino acid proline. We were able to show that for half of sequences the nearest case seek its one's way to the distance as cases were randomly generated. Therefore, in the sequence space there are no large clusters. Rather, around the individual case (sequence) there is a sphere with high probability of achieving the same secondary structure type

    Local prediction of secondary structures of proteins from viewpoints of rare structure

    Get PDF
    Proteiinit eli valkuaisaineet ovat elämän ja solun toiminnan kannalta keskeisiä makromolekyylejä. Valkuaisaineiden rakennetutkimus on tärkeätä, kun selvitetään proteiinien rakennetta ja toimintaa geneettisen informaation ja valikuaisaineiden rakennekomponenttien, aminohappojen, järjestäytymisen kautta. Kokeellisesti tapahtuva rakennetutkimus on kuitenkin vaikeiden ongelmien ympäröimä: atomitason rakenteiden selvittäminen on monimutkaista, siihen liittyy monenlaisia epävarmuustekijöitä ja puhtaan proteiiniaineksen hankkiminen on työlästä. Näiden ongelmien takia kokeellinen tutkimus on kallista ja hidasta. Kokeellisen tutkimuksen rinnalle on muodostonut voimakkaasti kasvava biologiseen informaatioon perustuvien menetelmien käytön tutkimus, bioinformatiikka. Tämän alan tutkimus kohtaa puolestaan väistämättä informaatioalojen perustana olevia keskeisiä kysymyksiä: mitä yleensä voidaan laskea, miten biologinen informaatio saadaan ihmisten ja tietokoneiden ymmärtämään muotoon, kuinka luotettavia tehtävät ennusteet ovat ja onko käytettävissä oleva informaation määrä riittävä. Työssäni selvitin tutkimusryhmämme saamia tuloksia sekundaarirakenteiden ennustustyössä. Tarkastelemme sekundaarirakenne-ennustamista koneoppimisen näkökulmasta. Proteiinissa selkäranka muodostaa rakenteellisia elementtejä eli sekundaarirakenteita. Paikallinen sekundaarirakenne-ennustus perustuu lyhyen määrämittaisen sekvenssin sisältämän informaation käyttämiseen. Yksittäinen ennustus määrää sekundaarirakenteen tyypin proteiinin selkärangassa sekvenssin keskimmäisen aminohapon kohdalla. Tyypillisesti bioinformatiikan alan julkaisuissa esitellyt paikalliseen informaatioon perustuvat sekundaarirakenteiden ennustusmenetelmät ennustavat datan kolmeen luokkaan: kierteet, säikeet ja muut. Väitöskirjatutkimuksessa kysymykset kohdistuivat aluksi harvinaiseen polyproliini tyypin II sekundaarirakenteeseen ja lopulta kaikkiin tunnettuihin sekundaarirakennetyyppeihin. Täten työmme tarkastelee sekundaarirakenteiden ennustamista täysin uudesta näkökulmasta. Määrämittaisen sekvenssidatan muodostama avaruus todetaan työssä todella vaikeasti hallittavaksi perinteisillä koneoppimismenetelmillä. Avaruudessa ei ole suuren mittakaavan organisoitumista sekundaarirakennetyyppien suhteen, vaan organisoituminen on hyvin matalalla tasolla luonnossa havaitun sekvenssin lähistöllä. Lisäksi valtava avaruus on melkein tyhjä vaikka mukana on lähes kaikki sekvenssidata, josta tämänhetkinen tiede tuntee rakenteet. Lisäksi työssäni näytetään, miksi ennustus on sitä vaikeampaa, mitä harvinaisempaa tyyppiä yritetään ennustaa. Nämä ongelmat vaikeuttavat erityisesti sekundaarirakenteiden ennustamista perinteisesti menestyksellisillä koneoppimismenetelmillä kuten esim. neuroverkoilla. Tutkimuksessa kehiteltiin ennustusmenetelmä, joka keskittyy pääosin ennustuksen varmuuden parantamiseen käyttäen paikallista organisoitumista hyväkseen. Tämän takia menetelmä tuottaa poikkeuksellisen korkeita ennustustarkkuuksia myös harvinaisille sekundaarirakennetyypeille. Työssä paneuduttiin myös neuroverkon päätöksenteon ymmärtämiseen, datan siroontumiseen muuttuja-avaruudessa sekä biologisten sekvenssien muuttamiseen numeeriseen koneen ymmärtämään muotoon hävittämättä biologisia ominaisuuksia. Avaruuden ominaisuuksien ja datan käyttäytymisen tutkiminen auttoi myös löytämään mielenkiintoisen hypoteesin. Hypoteesin avulla voidaan ymmärtää, miten perinteisten menetelmien ennustustarkkuus muodostuu em. kolmen luokan suhteen. Puolet datasta näyttäisi sisältävän vihjeitä matalan tason organisoitumisesta. Ennustusmenetelmät löytävät helposti tämän. Loppu ennusteista menee oikein sattuman määräämässä suhteessa.This dissertation deals with the local prediction of protein secondary structure from the viewpoint of rare secondary structures. Protein three-dimensional structures are needed in the biomedical field because structures indicate something about the functions of proteins, and functions are almost everything that happens in a living cell. Unfortunately, it is difficult to ascertain the structure of a protein, because the details of the structure are located at the level of atoms. However, an amino acid sequence is fairly easy to solve and can also be produced from a DNA sequence. This could be a shortcut to the structure and function of proteins. We searched for ways to better understand the prediction challenge of secondary structures. Our research started with polyproline type II secondary structure prediction. The results showed that a neural network behaved well when the learning and test sets had a uniform class distribution. However, the identification of amino acid sequences that represent a rare class was difficult with class distribution of the real world. In this context, prediction was hampered by imbalanced class distribution. We developed spectrum and response analysis for the neural network which reveal the reasons for a certain decision. The frequencies of prolines affected a major part of decisions and this was almost all that a neural network could learn from the data. Apparently input sequences can take the evolutionary pre-information to the learning process. With the polyproline II structure this was a promosing idea and aroused interest in using the method with other structures and other pre-information types. With hyperspheres we developed a learning algorithm that achieved excellent prediction accuracy with all known secondary structure types. Unfortunately, the method leaves cases unclassified - if uncertain generalization is reduced, hyperspheres can achieve better prediction accuracies. Finally, for all secondary structure types we analyzed the space used and found explanations or how the structure types behave in the sequence space. The results showed that polyproline II is an exception among other types because of its sensitivity to the amino acid proline. We were able to show that for half of sequences the nearest case seek its one's way to the distance as cases were randomly generated. Therefore, in the sequence space there are no large clusters. Rather, around the individual case (sequence) there is a sphere with high probability of achieving the same secondary structure type

    Restricted universe data structures

    No full text
    corecore