6 research outputs found

    Υπολογιστική Μελέτη της Δομής και της Οργάνωσης των Συντηρημένων μη Εκφραζομένων Στοιχείων (CNE) στα Ευκαρυωτικά Γονιδιώματα ως εργαλείο διερεύνησης της πιθανής λειτουργίας και της εξελικτικής δυναμικής τους

    Get PDF
    Στην παρούσα διατριβή επιχειρήσαμε να αναλύσουμε την χωροταξική οργάνωση των Συντηρημένων Μη Εκφραζομένων Στοιχείων (CNE) σε γονιδιώματα σπονδυλωτών και ασπόνδυλων, με σκοπό να διαπιστώσουμε αν μπορούμε να εξάγουμε κάποια συμπεράσματα για το πώς εξελίχθησαν αυτές οι αλληλουχίες με βάση την κατανομή τους στα χρωμοσώματα. Διαπιστώσαμε ότι οι αποστάσεις αυτών ακολουθούν κατανομές τύπου νόμου δύναμης σε μια ποικιλία γονιδιωμάτων. Τέτοιου τύπου κατανομές συνδέονται με συσχετίσεις μακράς εμβέλειας και μορφοκλασματικότητα (έννοιες που έχουν προταθεί για τη στερεοδιαμόρφωση της δομής της χρωματίνης του πυρήνα) και φαίνεται ότι απαντώνται πολύ συχνά στο γονιδίωμα, όπως προκύπτει από τη μελέτη διαφόρων στοιχείων του, σε πληθώρα οργανισμών. Δεδομένου ότι τα CNE σχετίζονται χωρικά με γονίδια, ειδικά με αυτά που ρυθμίζουν αναπτυξιακές διαδικασίες, επιβεβαιώσαμε ότι ένα πρότυπο νόμου δύναμης διατηρείται ανεξάρτητα από το εάν συμπεριληφθούν στοιχεία που βρίσκονται εντός ή εκτός γονιδίων. Όσο πιο «αρχαία» είναι αυτά τα στοιχεία τόσο πιο εκτεταμένες γραμμικότητες δίνουν σε διπλή λογαριθμική κλίμακα, δηλαδή τόσο πιο πολύ συμβάλουν στις παρατηρούμενες κατανομές. Προτείναμε ένα εξελικτικό μοντέλο για την κατανόηση αυτών των ευρημάτων που περιλαμβάνει γεγονότα τμηματικών διπλασιασμών ή διπλασιασμών ολόκληρου του γονιδιώματος και απαλοιφές των περισσοτέρων από τα διπλασιασμένα CNE. Προσομοιώσεις που πραγματοποιήσαμε αναπαράγουν τα κύρια χαρακτηριστικά των παρατηρουμένων κατανομών μεγέθους. Τα CNE παρουσιάζουν ενδιαφέρουσες ιδιότητες σύστασης και γι’αυτό επιχειρήσαμε να δούμε αν μπορούν να κατηγοριοποιηθούν με βάση αυτές τους τις ιδιότητες. Πιο συγκεκριμένα είναι γενικά αλληλουχίες πλούσιες σε A+T ενώ περιβάλλονται από περιοχές χαμηλού Α+Τ. Προσπαθήσαμε, λοιπόν, να ταξινομήσουμε στοιχεία που βρίσκονται υπό επιλεκτική πίεση (εξώνια και CNE) με δύο μεθόδους μηχανικής μάθησης: «Γραφήματα Ν-γραμμάτων» (N-Gram Graphs, NGGs) και «Ανάλυση κ-μερών» (Logic Alignment Free, LAF). Διαπιστώσαμε ότι και με τις δύο μεθόδους, που για πρώτη φορά εφαρμόστηκαν στα πλαίσια ανάλυσης γονιδιωματικών δεδομένων, είναι εφικτή η κλασμάτωση αλληλουχιών του γονιδιώματος (CNE, εξώνια) σε διαφορετικές κατηγορίες μεταξύ γονιδιωμάτων ή εντός του ίδιου γονιδιώματος. Χρησιμοποιήσαμε στις αναλύσεις / συγκρίσεις μας κατάλληλες αναπληρωματικές αλληλουχίες που απομονώνονταν από το εκάστοτε γονιδίωμα έτσι ώστε να έχουν ίδιο μήκος και ποσοστό GC% με τις υπό μελέτη αλληλουχίες μας (CNE / εξώνια). Συγκρίναμε τα αποτελέσματα ταξινόμησης που πήραμε και από τις δύο μεθόδους με μια άλλη ευρέως διαδεδομένη προσέγγιση διαχωρισμού ολόκληρων γονιδιωμάτων που αναφέρεται ως «Γονιδιωματικές Υπογραφές» (Genomic Signatures, GS). Η μελέτη μας αυτή ήταν η πρώτη εφαρμογή των «Γονιδιωματικών Υπογραφών» στην κατάταξη μικρών βιολογικών αλληλουχιών μεγέθους < 50 kb. Για τις ανάγκες όλων των προαναφερθέντων πειραματικών προσεγγίσεων προχωρήσαμε και σε ταυτοποίηση καινούριων στοιχείων CNE στα γονιδιώματα του ανθρώπου (H. sapiens), του σκώληκα (C. elegans) και της μύγας (D. melanogaster). Τα στοιχεία αυτά ταυτοποιήθηκαν έτσι ώστε να προέρχονται από οργανισμούς που να έχουν αποκλίνει από τον κοινό τους εξελικτικό πρόγονο παρόμοιες χρονικές περιόδους. Ενδιαφέρουσες συσχετίσεις και διαφοροποιήσεις μεταξύ αυτών των στοιχείων παρατηρήθηκαν με τη χρήση μεθόδων μηχανικής μάθησης που αναφέρθηκαν πιο πριν. Πιο συγκεκριμένα είδαμε ότι αλληλουχίες CNE που παρουσιάζουν υψηλή ομοιότητα ( > 95% και έως 100%) μεταξύ στοιχίσεων γονιδιωμάτων ανθρώπου / κοτόπουλου φαίνεται πως συνιστούν μια διακριτή κατηγορία υπερσυντηρημένων στοιχείων που επιτελεί λειτουργίες που μένει να ανακαλυφθούν. Το εντυπωσιακό αυτό ποσοστό συντηρητικότητας είναι ακόμα μεγαλύτερο από αυτό που παρατηρείται στα εξώνια (συγκρίνοντας τους δύο αυτούς οργανισμούς, άνθρωπο - κοτόπουλο), ενώ δεν είναι γνωστή κάποια λειτουργία στη φύση, που να απαιτεί τόσο υψηλό βαθμό ομοιότητας σε επίπεδο αλληλουχίας.In the present thesis, we attempted to analyse the spatial organization of Conserved Noncoding Elements (CNEs) in vertebrate and invertebrate genomes with the aim to investigate whether we could deduce how those sequences evolved. We found out that the distances of consecutive CNEs follow power law-like distributions in a variety of genomes. Such kinds of distributions are associated with long range correlations and fractality (notions that have been proposed for the conformation of the chromatin inside the nucleus) and seem to occur frequently in the genome as evidenced by the study of different genomic elements in a variety of organisms. Given that CNEs are spatially associated with genes, especially with those that regulate developmental processes, we verified by appropriate gene masking that a power-law-like pattern emerges irrespectively of whether elements found inside protein-coding genes are excluded or not. In addition, we found that the more ancient elements form the most extended linearities in log log plots, when the distances between ancient CNEs are plotted. An evolutionary model was put forward for the understanding of these findings that includes segmental or whole genome duplication events and eliminations (loss) of most of the duplicated CNEs. Simulations reproduce the main features of the observed size distributions. Power-law-like patterns in the genomic distributions of CNEs are in accordance with current knowledge about their evolutionary history in several genomes. CNEs display interesting DNA composition preferences. This prompted us to investigate whether we could classify them by means of their sequence characteristics alone. More specifically, CNEs are generally AT rich sequences while they are surrounded by regions of low AT content. We attempted to classify constrained elements in general (exons and CNEs) using two machine learning approaches: N-Gram Graphs (NGGs) and Logic Alignment Free (LAF). The application of those of two methodologies in the field of genomics is presented for the first time in this thesis. Overall, we managed to effectively classify genomic sequences of functional (or presumably functional) roles into different categories between genomes or inside the same genome. We used pairwise comparisons to do our analysis and naturally – occuring surrogate sequences that are of the same length and GC content with each one of the sequences comprising the studied dataset (CNEs / exons). We compared the classification rates obtained using both these approaches (NGGs and LAF) with another methodology, widely implemented in disciminating whole genomes, that is called «Genomic Signatures» (GS). Our study is the first one demonstrating the applicability of the GS approach in disciminating short biological sequences of length < 50 kb. For the sake of all the above mentioned approaches, we also proceeded to the identification of new Conserved Noncoding Elements in the human (H. sapiens), worm (C. elegans) and insect (D. melanogaster) genomes. In those case, the species selected for CNE identification are characterized by the fact that evolutionary distances with every pair of whole genome alignments are close. We managed to discriminate those sequences efficiently and proposed biological interpretations. More specifically, CNE that display high sequence similarity ( > 95% and up to 100%) between human / chicken whole genome alignments are thought to compose a distinct category of ultraconserved elements that probably play roles in processes that are yet to be determined. This remarkable percentage of sequence similarity is even greater than the one observed for exonic sequences (comparing the two organisms, human / chicken) while there is no known function that requires such a high degree of conservation

    Alignment-Free Probabilistic Proteomics: Patterns to Functionality

    Get PDF
    Major Histocompatibility Complexes class I (MHC I), known as the Human Leukocyte Antigen class (HLA I) in humans, are proteins responsible for antigen presentation to Tlymphocytes. MHCs interact with T Cell Receptors (TCRs). They serve as crucial immune regulators for vertebrates. The three main sub-classes of the HLA class I proteins (HLA-A, HLA-B, HLA-C) are encoded in three different loci. Therefore (as genes within MHC I class are co-dominant), an individual has up to six different alleles of HLA class I protein present on the surface of their cells. The genetic diversity of HLA class I in the human population can be linked to the differentiated immunological response. Based on a combination of established bioinformatic and machine learning tools, we have addressed the challenge to analyse HLA class I protein data-set in order to determine their ability to bind to specific antigens. To achieve this, we have created three dimensional models of HLA class I variants using homology modelling techniques. These have then been placed in three dimensional grids in order to calculate the electrostatic fields around the protein domains. The resultant multi-dimensional data were then analysed using the unsupervised machine learning techniques: both linear Principal Component Analysis (PCA), and nonlinear ones: the auto-encoder neural network (NLPCA) and the Gaussian Process Latent Variable Model (GPLVM). The methods used, accomplished the task of distinguishing between the HLA proteins sub-classes (A, B and C). In addition, the results obtained with the GPLVM dimensionality reduction suggested, that the electrostatic potential calculation may add information necessary to identifying HLA super-types. However, this method by itself, it is not robust enough to be independently conclusive. The sequence alignments methods are not free from assumptions. Results they provide are influenced by the choice of a substitution matrix, as the numerical values are assigned to the differences between compared biomolecules’ primary structures. The increase of the number of known sequences, related to the development of the Next Generation Sequencing techniques created additional challenge, that is a computational time required. As an alternative to the sequence alignment, we implemented the methods from time series analysis, information and chaos theory, and statistical physics to translate information from amino acid sequences into numerical vectors, in order to predict the similarity in proteins structures and functions. We transformed a data set of 9693 amino acid sequences belonging to 100 protein families by replacing each amino acid with numerical values representing its physicochemical and biochemical properties, and based on that, calculated multiple multidimensional vectors of non-alignment protein descriptors with measures such as approximate and sample entropy or persistence, Hurst and Lyapunov exponents. The supervised learning Linear Discriminant Analysis technique, used to assess the ability of the developed protocols to correctly assign proteins to their functional groups, showed an efficiency up to over 99%

    A Study of Fractality and Long-Range Order in the Distribution of Transposable Elements in Eukaryotic Genomes Using the Scaling Properties of Block Entropy and Box-Counting

    No full text
    Repeats or Transposable Elements (TEs) are highly repeated sequence stretches, present in virtually all eukaryotic genomes. We explore the distribution of representative TEs from all major classes in entire chromosomes across various organisms. We employ two complementary approaches, the scaling of block entropy and box-counting. Both converge to the conclusion that well-developed fractality is typical of small genomes while in large genomes it appears sporadically and in some cases is rudimentary. The human genome is particularly prone to develop this pattern, as TE chromosomal distributions therein are often highly clustered and inhomogeneous. Comparing with previous works, where occurrence of power-law-like size distributions in inter-repeat distances is studied, we conclude that fractality in entire chromosomes is a more stringent (thus less often encountered) condition. We have formulated a simple evolutionary scenario for the genomic dynamics of TEs, which may account for their fractal distribution in real genomes. The observed fractality and long-range properties of TE genomic distributions have probably contributed to the formation of the “fractal globule”, a model for the confined chromatin organization of the eukaryotic nucleus proposed on the basis of experimental evidence
    corecore