8 research outputs found
ANASTASIA: An Automated Metagenomic Analysis Pipeline for Novel Enzyme Discovery Exploiting Next Generation Sequencing Data
Metagenomic analysis of environmental samples provides deep insight into the enzymatic mixture of the corresponding niches, capable of revealing peptide sequences with novel functional properties exploiting the high performance of next-generation sequencing (NGS) technologies. At the same time due to their ever increasing complexity, there is a compelling need for ever larger computational configurations to ensure proper bioinformatic analysis, and fine annotation. With the aiming to address the challenges of such an endeavor, we have developed a novel web-based application named ANASTASIA (automated nucleotide aminoacid sequences translational plAtform for systemic interpretation and analysis). ANASTASIA provides a rich environment of bioinformatic tools, either publicly available or novel, proprietary algorithms, integrated within numerous automated algorithmic workflows, and which enables versatile data processing tasks for (meta)genomic sequence datasets. ANASTASIA was initially developed in the framework of the European FP7 project HotZyme, whose aim was to perform exhaustive analysis of metagenomes derived from thermal springs around the globe and to discover new enzymes of industrial interest. ANASTASIA has evolved to become a stable and extensible environment for diversified, metagenomic, functional analyses for a range of applications overarching industrial biotechnology to biomedicine, within the frames of the ELIXIR-GR project. As a showcase, we report the successful in silico mining of a novel thermostable esterase termed “EstDZ4” from a metagenomic sample collected from a hot spring located in Krisuvik, Iceland
Υδροθερμικό σύστημα Θερμοπυλών
Στην παρούσα εργασία παρουσιάζονται γενικά στοιχεία και χαρακτηριστικά που
διέπουν τα υδροθερμικά συστήματα και ειδικότερα τα χαρακτηριστικά που
παρουσιάζει το υδροθερμικό σύστημα των Θερμοπυλών. Τα υδροθερμικά συστήματα
των Θερμοπυλών και της ευρύτερης περιοχής, αποτελούν την επιφανειακή εκδήλωση
του ενεργού υδροθερμικού πεδίου το οποίο σχηματίστηκε γύρω από το ηφαιστειακό
κέντρο των Λιχάδων. Τα ηφαιστειακά νησιά των Λιχάδων βρίσκονται στο κεντρικό
τμήμα του Βόρειου Ευβοϊκού κόλπου και αποτελούνται από τραχιανδεσιτικές λαβές
ηλικίας 0,5 Ma. Ο έντονος τεκτονισμός και τα συστήματα ρηγμάτων της περιοχής
έχουν συμβάλλει καθοριστικά στην κυκλοφορία των υδροθερμικών ρευστών. Οι
θερμές πηγές των Θερμοπυλών τροφοδοτούνται από ένα βαθύτερο μητρικό
υδροθερμικό ρευστό στο οποίο έχει αναμειχθεί και υπεδαφικό νερό. Το βαθύτερο
υδροθερμικό ρευστό είναι μείγμα τοπικού υπεδαφικού νερού (⁓26,3%), θαλάσσιου
νερού (⁓56%) και μαγματικού νερού (⁓17,7%). Η μαγματική συνεισφορά είναι
μεταξύ 1,5% και 3,8%.This paper presents general data and characteristics that
govern hydrothermal systems and in particular the characteristics that
present the hydrothermal system of Thermopylae. Hydrothermal systems
of Thermopylae and the wider area, are the surface event
of the active hydrothermal field that formed around the volcanic
center of Lichades. The volcanic islands of Lichades are located in the main
part of the Northern Gulf of Evia and consist of trachyandesitic lavas
aged 0.5 Ma. The intense tectonism and fault systems of the area
have contributed significantly to the circulation of hydrothermal fluids. The
Thermopylae hot springs are powered by a deeper motherboard
hydrothermal fluid in which groundwater has been mixed. The deepest
hydrothermal fluid is a mixture of local groundwater (⁓26.3%), marine water (⁓56%) and magmatic water (⁓17.7%). The magmatic contribution is between 1.5% and 3.8%
Εύρεση και Μελέτη Ενζύμων Βιοτεχνολογικού Ενδιαφέροντος με τη Χρήση Βιοπληροφορικών Εργαλείων και Αλγόριθμων Μηχανικής Μάθησης
201 σ.Η εργασία είχε σαν σκοπό τη χρήση γνωστών βιοπληροφορικών εργαλείων και βάσεων δεδομένων για την ανάλυση πρωτεϊνικών αλληλουχιών και τη μελέτη της αποτελεσματικότητας τεχνικών μηχανικής μάθησης (machine learning) στο διαχωρισμό πρωτεϊνών συγκεκριμένων κατηγοριών. Οι αλγόριθμοι αναπτύχθηκαν σε περιβάλλον Linux, χρησιμοποιήθηκε η γλώσσα προγραμματισμού Perl (modules όπως BioPerl, DBI) και εντολές της MySQL. Το τεχνικό μέρος της εργασίας αποτελείται από δυο ενότητες.
Στην πρώτη ενότητα αναπτύχθηκε ένας αλγόριθμος πρόβλεψης πρωτεϊνικής λειτουργίας άγνωστων αλληλουχιών. Χρησιμοποιήθηκαν το βιοπληροφορικό εργαλείο BLAST και η βάση δεδομένων UniProt-GOA. Ο χαρακτηρισμός κάθε άγνωστης πρωτεΐνης με λειτουργία, έγινε με τη χρήση του λεξιλογίου της Οντολογίας Γονιδίων (Gene Ontology) και της Ενζυμικής Ονοματολογίας (Enzyme Nomeclature). Ο αλγόριθμος χρησιμοποιήθηκε για την ανάλυση πραγματικών αλληλουχιών από δείγμα μεταγονιδιωματικής ανάλυσης.
Στη δεύτερη ενότητα μελετήθηκε η αποτελεσματικότητα πέντε αλγόριθμων μηχανικής μάθησης στο διαχωρισμό υποκατηγοριών των υδρολασών από μη υδρολάσες, με βάση συγκεκριμένα χαρακτηριστικά (λειτουργικά, φυσικοχημικά). Συγκεκριμένα χρησιμοποιήθηκαν οι αλγόριθμοι Naive Bayes Kernel, Decision Trees, Support Vector Machines, Perceptron και k-Nearest-Neighbor. Στη συνέχεια οι αλγόριθμοι με τις μεγαλύτερες αποδόσεις και την καλύτερη συμπεριφορά χρησιμοποιήθηκαν για το διαχωρισμό θερμοανθεκτικών από μη θερμοανθεκτικά ένζυμα. Οι αλγόριθμοι Naive Bayes Kernel και Decision Trees κατάφεραν να διαχωρίσουν ένζυμα ίδιας λειτουργίας αλλά διαφορετικής αντοχής στη θερμοκρασία με απόδοση 80%-85%.The purpose of this thesis was firstly, the function prediction of unkown protein sequences with the use of well-known bioinformatic tools and secondly, the observation of machine learning algorithms in the classification of enzyme categories. All the algorithms were developed in Linux enviroment, with Perl programming language (modules such as BioPerl, DBI) and MySQL commands.
In the first part, an algorithm which include the bioinformatic tool BLAST, the non-iea UniProt-GOA database was developed. This algorithm is able to predict the function of unknown protein sequences with the use of Gene Ontology vocabulary and Enzyme Nomeclature system. Thus it was executed for the prediction of sequences in a sample of metagenomic analysis.
In the second part, the aim was the observation of accuracy and performance of five machine learning algorithms, Naïve Bayes Kernel, Decicion Trees, Support Vector Machines, Perceptron and k-Nearest-Neighbor. All these algorithms run with the view to classify different enzyme categories, based on functional and physicochemical properties. After this task, the best algorithms were used to separate thermostable from non-thermostable enzymes. Naïve Bayes Kernel and Decision Trees are able to separate enzymes which realize the same function but they have different levels of thermostability with an approximate accuracy of 80-85%.Θεόδωρος Γ. Κουτσανδρέα
A Machine-Learning Approach for theof Enzymatic Activity of Proteins in Metagenomic Samples
Part 3: Medical Informatics and Biomedical EngineeringInternational audienceIn this work, a machine-learning approach was developed, which performs the prediction of the putative enzymatic function of unknown proteins, based on the PFAM protein domain database and the Enzyme Commission (EC) numbers that describe the enzymatic activities. The classifier was trained with well annotated protein datasets from the Uniprot database, in order to define the characteristic domains of each enzymatic sub-category in the class of Hydrolases. As a conclusion, the machine-learning procedure based on Hmmer3 scores against the PFAM database can accurately predict the enzymatic activity of unknown proteins as a part of metagenomic analysis workflows
Role of the early secretory pathway in SARS-CoV-2 infection
International audienceSimilar to other RNA viruses, SARS-CoV-2 must (1) enter a target/host cell, (2) reprogram it to ensure its replication, (3) exit the host cell, and (4) repeat this cycle for exponential growth. During the exit step, the virus hijacks the sophisticated machineries that host cells employ to correctly fold, assemble, and transport proteins along the exocytic pathway. Therefore, secretory pathway-mediated assemblage and excretion of infective particles represent appealing targets to reduce the efficacy of virus biogenesis, if not to block it completely. Here, we analyze and discuss the contribution of the molecular machines operating in the early secretory pathway in the biogenesis of SARS-CoV-2 and their relevance for potential antiviral targeting. The fact that these molecular machines are conserved throughout evolution, together with the redundancy and tissue specificity of their components, provides opportunities in the search for unique proteins essential for SARS-CoV-2 biology that could also be targeted with therapeutic objectives. Finally, we provide an overview of recent evidence implicating proteins of the early secretory pathway as potential antiviral targets with effective therapeutic applications