45 research outputs found

    Molecular Phylogenetics 2016

    Get PDF

    COMPARATIVE ANALYSIS OF RELATED SEQUENCES AND THEIR INCREMENTS ON THE BASIS OF DISCRIMINANT ANALYSIS

    Get PDF
    The article is devoted to the study of the relationship between the lengths of orthologous proteins of four organisms, one of which is taken as the basic one ( more than 1200 proteins in total). The methods of multivariate statistical analysis are used, it is applied to pairs, triples and fours (strings) composed of lengths of orthologous proteins. The number of such lines is from 200 to 400. The analysis of pair correlations, orthogonal transformation and cluster analysis allowed us to distinguish two homogeneous clusters of four-lengths. At the same time, we studied the increments of the length of the orthologous protein relative to the basic organism. We showed that the lines form a non-uniform sample, and the increments form a homogeneous sample. Then the task was to expand the clusters with rows with incomplete data. It was shown that cluster analysis is not applicable for this task, so we used discriminant analysis with a training sample — clustering with complete data. A 100 percent separation of all incomplete rows by clusters was obtained; with the following description of the length dependences of clusters on the base. The adequacy of the resulting regression equations was tested. As a result of statistical analysis, the following conclusions were made. For a set of lengths of orthologous series, a generalizing factor was obtained, let's call it the size of an orthologic object from 4 lengths of orthologous proteins. For the given task such sizes of objects were obtained, and their average group values differ, they form two separate ranges of values, one for each group of the values obtained by other methods. For series of increments of the lengths of orthologous proteins from objects of four, an analysis performed by all methods showed homogeneity of the set. It was shown that the lengths of orthologous proteins have significant autocorrelation, as is the case with rows associated with the same basic series

    Regulation of gene expression in the dinoflagellate Lingulodinium polyedrum

    Full text link
    Les dinoflagellés sont des eucaryotes unicellulaires que l’on retrouve autant en eau douce qu’en milieu marin. Ils sont particulièrement connus pour causer des fleurs d’algues toxiques nommées ‘marée-rouge’, ainsi que pour leur symbiose avec les coraux et pour leur importante contribution à la fixation du carbone dans les océans. Au point de vue moléculaire, ils sont aussi connus pour leur caractéristiques nucléaires uniques, car on retrouve généralement une quantité immense d’ADN dans leurs chromosomes et ceux-ci sont empaquetés et condensés sous une forme cristalline liquide au lieu de nucléosomes. Les gènes encodés par le noyau sont souvent présents en multiples copies et arrangés en tandem et aucun élément de régulation transcriptionnelle, y compris la boite TATA, n’a encore été observé. L’organisation unique de la chromatine des dinoflagellés suggère que différentes stratégies sont nécessaires pour contrôler l’expression des gènes de ces organismes. Dans cette étude, j’ai abordé ce problème en utilisant le dinoflagellé photosynthétique Lingulodinium polyedrum comme modèle. L. polyedrum est d’un intérêt particulier, car il a plusieurs rythmes circadiens (journalier). À ce jour, toutes les études sur l’expression des gènes lors des changements circadiens ont démontrées une régulation à un niveau traductionnel. Pour mes recherches, j’ai utilisé les approches transcriptomique, protéomique et phosphoprotéomique ainsi que des études biochimiques pour donner un aperçu de la mécanique de la régulation des gènes des dinoflagellés, ceci en mettant l’accent sur l’importance de la phosphorylation du système circadien de L. polyedrum. L’absence des protéines histones et des nucléosomes est une particularité des dinoflagellés. En utilisant la technologie RNA-Seq, j’ai trouvé des séquences complètes encodant des histones et des enzymes modifiant les histones. L polyedrum exprime donc des séquences conservées codantes pour les histones, mais le niveau d’expression protéique est plus faible que les limites de détection par immunodétection de type Western. Les données de séquençage RNA-Seq ont également été utilisées pour générer un transcriptome, qui est une liste des gènes exprimés par L. polyedrum. Une recherche par homologie de séquences a d’abord été effectuée pour classifier les transcrits en diverses catégories (Gene Ontology; GO). Cette analyse a révélé une faible abondance des facteurs de transcription et une surprenante prédominance, parmi ceux-ci, des séquences à domaine Cold Shock. Chez L. polyedrum, plusieurs gènes sont répétés en tandem. Un alignement des séquences obtenues par RNA-Seq avec les copies génomiques de gènes organisés en tandem a été réalisé pour examiner la présence de transcrits polycistroniques, une hypothèse formulée pour expliquer le manque d’élément promoteur dans la région intergénique de la séquence de ces gènes. Cette analyse a également démontré une très haute conservation des séquences codantes des gènes organisés en tandem. Le transcriptome a également été utilisé pour aider à l’identification de protéines après leur séquençage par spectrométrie de masse, et une fraction enrichie en phosphoprotéines a été déterminée comme particulièrement bien adapté aux approches d’analyse à haut débit. La comparaison des phosphoprotéomes provenant de deux périodes différentes de la journée a révélée qu’une grande partie des protéines pour lesquelles l’état de phosphorylation varie avec le temps est reliées aux catégories de liaison à l’ARN et de la traduction. Le transcriptome a aussi été utilisé pour définir le spectre des kinases présentes chez L. polyedrum, qui a ensuite été utilisé pour classifier les différents peptides phosphorylés qui sont potentiellement les cibles de ces kinases. Plusieurs peptides identifiés comme étant phosphorylés par la Casein Kinase 2 (CK2), une kinase connue pour être impliquée dans l’horloge circadienne des eucaryotes, proviennent de diverses protéines de liaison à l’ARN. Pour évaluer la possibilité que quelques-unes des multiples protéines à domaine Cold Shock identifiées dans le transcriptome puissent moduler l’expression des gènes de L. polyedrum, tel qu’observé chez plusieurs autres systèmes procaryotiques et eucaryotiques, la réponse des cellules à des températures froides a été examinée. Les températures froides ont permis d’induire rapidement un enkystement, condition dans laquelle ces cellules deviennent métaboliquement inactives afin de résister aux conditions environnementales défavorables. Les changements dans le profil des phosphoprotéines seraient le facteur majeur causant la formation de kystes. Les phosphosites prédits pour être phosphorylés par la CK2 sont la classe la plus fortement réduite dans les kystes, une découverte intéressante, car le rythme de la bioluminescence confirme que l’horloge a été arrêtée dans le kyste.Dinoflagellates are unicellular eukaryotes found in both marine and freshwater environments. They are best known for causing toxic blooms called ‘red-tides’, for their symbiosis with corals, and for their important contribution to carbon fixation in the ocean. On a more molecular level, they are also known for their unique nuclear characteristics, as they generally have huge amount of DNA found in chromosomes that are permanently condensed and packaged into liquid crystalline forms instead of nucleosomes. Nuclear-encoded genes are often present in multiple copies and arranged in tandem, and no putative promoter elements including the conserved TATA box, have yet been observed. The unique organization of dinoflagellate chromatin suggests different strategies may be required to regulate gene expression in these organisms. In this study, I have started to address this problem using the photosynthetic dinoflagellate Lingulodinium polyedrum as a model. L. polyedrum is of particular interest because it shows a number of circadian (daily) rhythms. To date, all circadian changes in gene expression studied are regulated at a translational level. I have used transcriptomic, proteomic and phosphoproteomic approaches along with biochemical studies to provide insight into the gene regulatory mechanisms in dinoflagellates, with particular emphasis on the importance of phosphorylation in the L. polyedrum circadian system. The absence of histone proteins and nucleosomes is a hallmark of the dinoflagellates. Using high throughput RNA-seq technology, I found complete set of sequences encoding the core histones as well as sequences encoding histone-modifying enzymes in L. polyedrum. Thus L. polyedrum expresses conserved histone transcripts, although levels of proteins are still below what can be detected using immunoblotting studies. Using the de novo assembly algorithm the RNA-seq data was used to generate a transcriptome. This transcriptome, a list of genes expressed by L. polyedrum, has been extensively characterized. First, homology based sequence searches were used to classify the transcripts in gene ontology (GO) categories, and this analysis revealed a reduced number of transcription factor types and a surprising predominance of sequences containing a cold shock domain. Alignments of reads from the RNA–seq to genomic copies of L. polyedrum tandem repeat sequences was performed to assess the possibility of polycistronic transcripts, a hypothesis proposed to explain the lack of promoter elements in the intergenic region of the tandem repeat gene sequences. This analysis also showed a surprisingly high conservation of tandemly repeated gene sequences. The transcriptome database was also used to fuel gene identification after protein sequencing by mass spectrometry, and a purified phosphoproteome fraction was found to be particularly amenable to high throughput approaches. A comparison of the phosphoproteome at two different times of day revealed that a major class of proteins whose phosphorylation state varied over time belonged to the RNA binding and translation GO category. The transcriptome was also used to define the spectrum of kinases present in L. polyedrum, which in turn was used to classify the different phosphorylated peptides as potential kinase targets. Predicted peptides of casein kinase 2 (CK2), a kinase known to be involved in the circadian clocks of other eukaryotes, were found to include many RNA binding proteins. To assess the possibility that some of the many cold shock domain proteins identified in the transcriptome might modulate gene expression in L. polyedrum, as has been observed in many other eukaryotic and prokaryotic systems, the cellular response to cold temperatures was examined. Cold temperatures were found to induce rapid encystment, a metabolically inactive cell type whose role is to combat unfavourable environmental conditions. Changes in phosphoproteome profile were found to be the major molecular correlates to cyst formation. Predicted CK2 phosphosites are the most highly reduced class of kinase targets, a finding of interest as measurements of the bioluminescence rhythm confirmed that the clock is stopped in cyst

    Transcriptional regulation in the dinoflagellates

    Full text link
    Les dinoflagellés sont une famille d'eucaryotes unicellulaires trouvés dans les écosystèmes marins et d'eau douce et sont d'importants producteurs primaires. Ils sont réputés pour plusieurs comportements distinctifs, notamment la formation de proliférations d'algues nuisibles appelées « marées rouges », l'émission de bioluminescence dans l'océan et leur contribution à la formation de récifs coralliens. Leur structure génomique est inhabituelle avec de grandes quantités d'ADN et des chromosomes condensés en permanence à toutes les étapes du cycle cellulaire. L’ADN est sans nucléosome et se trouve dans une structure de cristaux liquides. Plusieurs gènes sont codés dans de multiples répétitions situées dans des réseaux en tandem produisant des protéines pratiquement identiques sans aucun élément conservé détecté dans les régions présumées promotrices en amont de la séquence codante. Ces caractéristiques uniques rendent difficile à comprendre comment les cellules régulent l'expression des gènes. Cette thèse examine l’hypothèse que la régulation de transcription est difficile et peu utilisée chez les dinoflagellés. Les dinoflagellés présentent une rareté des facteurs de transcription, les protéines du domaine de choc froid (CSP) représentant la majorité des protéines de liaison à l'ADN potentielles dans le transcriptome de Lingulodinium polyedra et le génome de Symbiodinium kawagutii. Le potentiel des CSP de dinoflagellés à agir en tant que facteurs de transcription spécifiques à la séquence a été testé en utilisant des tests de déplacement de mobilité électrophorétique. Ces études ont révélé que quatre CSP différentes ont montré une préférence pour l'ARN par rapport à l'ADN simple et double brin. Une deuxième approche a examiné le ciblage de la séquence spécifique par des tests de sélection et de liaison d'amplification, et cela n'a révélé aucun motif consensus détectable dans la liaison à l'ADN. Nous concluons que les CSP dinoflagellés sont plus susceptibles de fonctionner comme des protéines de liaison à l'ARN que comme des facteurs de transcription. Il a été rapporté que l'expression de nombreux gènes chez plusieurs espèces de dinoflagellés était régulée par l'exposition à la lumière. Cela a été testé pour trois gènes, dont l'expression régulée par la lumière chez l'espèce formant des récifs Symbiodinium kawagutii. La régulation de ces gènes a été rapportée dans la littérature suggérant la possibilité d’identifier les éléments régulateurs dans le promoteur. Cependant, l'analyse par transfert de Northern n'a pas pu valider le modèle d'expression de ces trois gènes chez S. kawagutii. De plus, le séquençage d'ARN à haut débit a confirmé que ces trois gènes n'étaient pas induits par la lumière. Au total, seuls sept gènes ont été exprimés de manière différentielle à l'aube et au crépuscule en utilisant RNA-Seq, et tous étaient de moindre abondance à la fin de la période de lumière sur un 12: 12 cycle L: D. Trois des sept ont également été examinés en utilisant une analyse qPCR, et seule deux des trois ont pu être confirmés comme étant altérés, mais avec une différence de facteur inférieure à celle observée avec RNA-Seq. Nous en concluons qu'il y a peu de régulation lumineuse de l'expression génique dans cette espèce dinoflagellé. Dans l’ensemble, les études décrites ici appuient l’hypothèse que les dinoflagellés ont un moins grande dépendance sur la régulation transcriptionnelle que d’autres organismes.Dinoflagellates are a large family of unicellular eukaryotes found in marine and freshwater ecosystems and are important primary producers in marine ecosystem. They are famous for several distinctive behaviors including forming harmful algal blooms called “red tides”, emission of bioluminescence in the ocean, and contributing to the formation of coral reefs. They have an unusual genome structure with large amounts of DNA and permanently condensed chromosomes throughout all stages of the cell cycle. The chromatin lacks observable nucleosomes and has a liquid crystal structure. Some genes are encoded in multiple repeats located in tandem arrays producing virtually identical proteins without any known conserved elements detected in the upstream promoter regions or intergenic spacers. These unique features make it difficult to understand how gene expression is regulated. This thesis describes two experimental tests for the hypothesis that transcriptional regulation is difficult and is not the primary means of regulating gene expression in dinoflagellates. Dinoflagellates show a paucity of transcription factors, and of these, cold shock domain proteins (CSPs) account for the majority of potential DNA binding proteins in the transcriptome. Here, the potential of dinoflagellate CSPs from free-living Lingulodinium polyedra and reef-forming Symbiodinium kawagutii (recently renamed to Fugacium kawagutii) to act as sequence specific transcription factors was tested. These studies using four different CSPs showed a preference for RNA over both single and double stranded DNA using electrophoretic mobility shift assays (EMSA). A second approach, testing for specific sequence binding by three cycles of selection and amplification binding (SAAB) did not enrich any consensus motif for any of the four proteins. We conclude dinoflagellate CSPs are more likely to function as RNA binding proteins than as transcription factors. Expression of many genes in many dinoflagellate species has been reported to be regulated by light. This was tested for three genes whose expression was reported to be light-regulated in Symbiodinium kawagutii. The availability of a genome sequence for this species suggested that it might be possible to identify potential regulatory elements in the promoter of these genes. However, Northern blot analysis was unable to confirm differential expression of these three genes over a 24 hour light-dark cycle. Furthermore, RNA-Seq of samples taken at the end of the day and night also indicated these three genes were not light-induced. In total, only seven genes were found to be differentially expressed at dawn and dusk using RNA-Seq in triplicate with a false discovery rate (FDR) of 0.1. All were of lower abundance at the end of the light period on a 12:12 L:D cycle suggesting possible repression by light. Three of these seven, picked at random, were examined using qPCR analysis. Only two of the three had lower abundance at the end of the day by this technique, and the fold difference was less than what was observed with RNA-Seq. We conclude from this that there is little light regulation of gene expression in this dinoflagellate species. Taken together, the studies described here support the hypothesis that dinoflagellates do not rely on regulation of genes at the transcriptional level to the same extent as other organisms

    Microbial biodiversity in the southern Indian Ocean and Southern Ocean

    Get PDF
    The multi-phylotype and ecologically important community of microbes in aquatic environments ranges from the numerically dominant viruses to the diverse climate-change regulating phytoplankton. Recent advances in next generation sequencing are starting to reveal the true diversity and biological complexity of this previously invisible component of Earth's hydrosphere. An increased awareness of this microbiome's importance has led to the rise of microbial studies with marine environmental samples being collected and sequenced daily around the globe. Despite the rapid advancement in knowledge of marine microbial diversity, technical difficulties have constrained the ability to perform basin wide physical and chemical oceanographic assessments in tandem with microbiological screening with the majority of studies only looking at a single component of the microbial community. In this study the full microbial diversity, from viruses to protists, was characterised within the southern Indian Ocean and the Southern Ocean from a small volume of seawater collected using the same CTD equipment used by oceanographers. Throughout this study it will be demonstrated how this small volume is sufficient to describe the core microbial taxa in the marine environment. The application of a bespoke bioinformatics pipeline, integrated with sequencing replication, improved the description of the dominant core microbiome whilst removing OTUs present due to PCR and sequencing artefacts thereby improving the accurate description of rare phylotypes. Analyses confirmed the dominance of Cyanobacteria, Alphaproteobacteria and Gammaproteobacteria in the pelagic prokaryotic microbiome, while the Stramenopiles-Alveolata-Rhizaria (SAR) cluster dominates the eukaryotic microbiome. A decrease in the SAR community will be reported for the Southern Ocean with a concomitant increase in the haptophyte community. Whilst the virome confirmed the dominance of tailed phages and giant viruses across all stations, there was a significant variation caudoviruses and Nucleocytoplasmic Large DNA viruses (NCLDV) across defined biogeographical boundaries. The described method will allow the characterisation of the microbial biodiversity as well as future integration with oceanographic data with a much reduced sampling effort. The characterisation of the whole microbial community from a single water sample will improve the understanding of microbial interactions and represent a step towards in the inclusion of viruses into biogeochemical models

    Confocal analysis of nervous system architecture in direct-developing juveniles of Neanthes arenaceodentata (Annelida, Nereididae)

    Get PDF
    Background: Members of Family Nereididae have complex neural morphology exemplary of errant polychaetes and are leading research models in the investigation of annelid nervous systems. However, few studies focus on the development of their nervous system morphology. Such data are particularly relevant today, as nereidids are the subjects of a growing body of "evo-devo" work concerning bilaterian nervous systems, and detailed knowledge of their developing neuroanatomy facilitates the interpretation of gene expression analyses. In addition, new data are needed to resolve discrepancies between classic studies of nereidid neuroanatomy. We present a neuroanatomical overview based on acetylated α-tubulin labeling and confocal microscopy for post-embryonic stages of Neanthes arenaceodentata, a direct-developing nereidid. Results: At hatching (2-3 chaetigers), the nervous system has developed much of the complexity of the adult (large brain, circumesophageal connectives, nerve cords, segmental nerves), and the stomatogastric nervous system is partially formed. By the 5-chaetiger stage, the cephalic appendages and anal cirri are well innervated and have clear connections to the central nervous system. Within one week of hatching (9-chaetigers), cephalic sensory structures (e.g., nuchal organs, Langdon's organs) and brain substructures (e.g., corpora pedunculata, stomatogastric ganglia) are clearly differentiated. Additionally, the segmental-nerve architecture (including interconnections) matches descriptions of other, adult nereidids, and the pharynx has developed longitudinal nerves, nerve rings, and ganglia. All central roots of the stomatogastric nervous system are distinguishable in 12-chaetiger juveniles. Evidence was also found for two previously undescribed peripheral nerve interconnections and aspects of parapodial muscle innervation. Conclusions: N. arenaceodentata has apparently lost all essential trochophore characteristics typical of nereidids. Relative to the polychaete Capitella, brain separation from a distinct epidermis occurs later in N. arenaceodentata, indicating different mechanisms of prostomial development. Our observations of parapodial innervation and the absence of lateral nerves in N. arenaceodentata are similar to a 19th century study of Alitta virens (formerly Nereis/Neanthes virens) but contrast with a more recent study that describes a single parapodial nerve pattern and lateral nerve presence in A. virens and two other genera. The latter study apparently does not account for among-nereidid variation in these major neural features

    Naked amoebae of ukrainian Polissya fauna

    Get PDF

    Evolution of I34 modifications in tRNAs and their role in proteome composition

    Get PDF
    [eng] Inosine is a guanosine analogue that when is found at the wobble position of the tRNAs (I34) expands its codon recognition capability. Inosine can wobble pair with cytosine, adenosine and uridine. Because inosine is not genomically encoded, essential enzymes are responsible for the hydrolytic deamination of adenosine to inosine, specifically at the wobble position of the tRNAs. In Bacteria, the modification is mostly found in tRNAArg, catalysed by the homodimeric tRNA adenosine deaminase A (TadA), with a conserved active site coordinated with an atom of Zn+2. In Eukarya, the modification is present in up to eight different tRNAs, catalysed by the heterodimeric enzyme ADAT (ADAT2-ADAT3), which originally evolved from TadA by duplication and divergence. ADAT2 is considered the catalytic subunit because it conserves the active site, whereas ADAT3, which lacks one of the essential catalytic residues, is thought to play a structural role. This substrate expansion, significantly influenced the evolution of eukaryotic genomes in terms of tRNA gene abundance and codon usage. However, the selection pressures driving this process remain unclear. In this thesis, we characterize the human transcriptome and proteome in terms of frequency and distribution of ADAT-related codons. Human codon usage indicates that I34 modified tRNAs are preferred for the translation of highly repetitive coding sequences, suggesting that I34 is an important modification for the synthesis of proteins of highly skewed amino acid composition. Persuaded by these results we extend the analysis to a series of eukaryotic and bacterial organisms, spanning the whole tree of life. We find that the preference for codons that are recognized by I34-modified tRNAs, in genes with highly biased codon composition, is universal among eukaryotes, and we report that, unexpectedly, the bacterial phylum of Firmicutes shows a similar preference. We experimentally demonstrate that the Firmicute Oenococcus oeni presents a functional expansion of I34 modification to other tRNAs other than tRNAArg, and that this process likely starts with the emergence of unmodified A34-containing tRNAs. Our findings also indicate that several ancestral bacterial groups lack both TadA and A34-tRNAs, suggesting that these species never developed the machinery to generate I34- modified tRNAs. On the other hand limited sets of bacterial species have either lost the system secondarily, or expanded it to additional tRNA substrates. In Eukaryotes, we show that a large variability in the use of I34 can be found in protists, while the modification becomes fixed in Metazoa, Fungi and Plant kingdoms.[cat] La inosina és un anàleg de la guanosina, que quan es troba a la posició 34 dels tRNAs, expandeix el nombre de codons que aquests tRNA són capaços de reconèixer. La inosina pot emparellar-se mitjançant wobbling amb citosina, adenosina i uridina. Degut que la inosina no està codificada al genoma, existeixen enzims essencials encarregats de la deaminar la adenosina a inosina específicament a la posició 34 dels tRNAs. Als organismes bacterians, aquesta modificació es troba principalment a tRNAArg i és catalitzada per l’enzim homodimeric tRNA adenosina desaminasa A (TadA), que disposa d’un centre actiu conservat. Als organismes eucariòtics, aquesta modificació és present en fins a vuit tRNAs diferents, catalitzada per l’enzim heterodimeric ADAT (ADAT2-ADAT3). Aquest enzim ha evolucionat a partir de TadA per duplicació i divergència. ADAT2 és considerat la subunitat catalítica, ja que conserva el centre actiu mentre que ADAT3 n’ha perdut un dels residus essencials i es considera que té un paper en el reconeixement dels substrats. L’expansió en el reconeixement de substrats entre TadA i ADAT ha influenciat significativament en la composició dels genomes eucariotes, particularment en l’abundància de gens de tRNA i en el biaix de la composició de codons. Tanmateix, les pressions selectives que condueixen aquests processos romanen desconegudes. En aquesta tesi, hem caracteritzat el transcriptoma i el proteoma humà respecte la freqüència i distribució de codons relacionats amb ADAT. Els nostres resultats indiquen que la composició de codons del transcriptoma humà està esbiaixada promovent una dependència en l’ús de I34, especialment en regions altament repetitives. Persuadits per aquests resultats, hem estès les nostres anàlisis a un conjunt d’organismes eucariotes i bacterians per tal de representar tot l’arbre de la vida. Hem comprovat que aquesta preferència per codons que són reconeguts per tRNAs amb I34 és generalitzada només als eucariotes, tot i que sorprenentment, també és present al fílum bacterià dels Firmicutes. Els nostres resultats també indiquen que alguns grups bacterians ancestrals no disposen de tRNAs amb A34 ni de l’enzim TadA, cosa que suggereix que aquestes espècies mai han desenvolupat la maquinària per generar tRNAs amb I34. Altres conjunts de bactèries indiquen tant la pèrdua secundària d’aquest sistema, com l’expansió a d’altres tRNAs. Hem demostrat experimentalment que Oenococcus oeni, pertanyent als Firmicutes, presenta altres tRNAs amb I34 a part del tRNAArg i que també presenta tRNA amb A34 no modificats. Entre els organismes eucariotes, els protists presenten una gran variabilitat en l’ús de tRNA amb I34, mentre que en Metazoa, Fungi i Plantae, tots els tRNAs amb I34 són presents
    corecore