21 research outputs found

    Optimization of Algorithms for Triplex Detection

    Get PDF
    Současné studie naznačují, že triplexy hrají důležitou roli v mechanismech regulace transkripce, rekombinace DNA a mutageneze a mají proto velký význam pro biologii, biotechnologii a medicínu. Tato bakalářská práce optimalizuje nedávno publikovaný algoritmus pro vyhledávání potenciálních intramolekulárních triplexů na třech úrovních návrhu: uživatelské rozhraní, využití paměti a výpočetní náročnost. V úrovni uživatelského rozhraní byl algoritmus rozšířen o existující vizualizační funkce a transformován do podoby balíčku pro prostředí R/Bioconductor. Optimalizací využití paměti a cache procesoru v kombinaci s redukcí výpočtu na základě analýzy jeho stavu bylo dosaženo více než trojnásobného zrychlení oproti původní implementaci.Triplex-forming DNA sequences have been implicated as important players in several key processes, such as transcriptional regulation, DNA recombination and mutagenesis, which emphasize their importance for biology, biotechnology and medicine. This bachelor thesis optimizes recently publicated dynamic programming algorithm for identification of triplex-forming sequences on three levels of design: user interface, memory usage and computation time. On the level of user interface, the algorithm was extended with existing visualization functions and rewritten into R/Bioconductor package. Memory usage optimization and processor cache analysis in combination with computation time reduction based on current computation state analysis lead to more than three times acceleration.

    Computational Design of Stable and Soluble Biocatalysts

    Get PDF
    Natural enzymes are delicate biomolecules possessing only marginal thermodynamic stability. Poorly stable, misfolded, and aggregated proteins lead to huge economic losses in the biotechnology and biopharmaceutical industries. Consequently, there is a need to design optimized protein sequences that maximize stability, solubility, and activity over a wide range of temperatures and pH values in buffers of different composition and in the presence of organic cosolvents. This has created great interest in using computational methods to enhance biocatalysts' robustness and solubility. Suitable methods include (i) energy calculations, (ii) machine learning, (iii) phylogenetic analyses, and (iv) combinations of these approaches. We have witnessed impressive progress in the design of stable enzymes over the last two decades, but predictions of protein solubility and expressibility are scarce. Stabilizing mutations can be predicted accurately using available force fields, and the number of sequences available for phylogenetic analyses is growing. In addition, complex computational workflows are being implemented in intuitive web tools, enhancing the quality of protein stability predictions. Conversely, solubility predictors are limited by the lack of robust and balanced experimental data, an inadequate understanding of fundamental principles of protein aggregation, and a dearth of structural information on folding intermediates. Here we summarize recent progress in the development of computational tools for predicting protein stability and solubility, critically assess their strengths and weaknesses, and identify apparent gaps in data and knowledge. We also present perspectives on the computational design of stable and soluble biocatalysts

    Mining of soluble enzymes from genomic databases

    Get PDF
    Enzymy jsou proteiny urychlující chemické reakce s velkým potenciálem pro farmaceutický a obecně chemický průmysl. Enzymatická funkce je obvykle zajištěna několika nepostradatelnými aminokyselinami, které tvoří tzv. aktivní místo, kde se odehrává chemická reakce. V této práci jsou prezentovány dva integrované softwarové nástroje pro dolování a racionální výběr nových rozpustných enzymů - EnzymeMiner a SoluProt.  EnzymeMiner slouží k hledání nových enzymů. Na vstupu vyžaduje jednu nebo více sekvencí zvoleného enzymu spolu se seznamem klíčových aminokyselin. Tento seznam slouží k zvýšení pravděpodobnosti, že nalezený enzym bude mít podobnou funkci jako vstupní enzym. Výstupem EnzymeMineru je množina anotovaných sekvencí nalezených v databázi. Za účelem ulehčení výběru několika málo kandidátů pro experimentální ověření v laboratoři integruje EnzymeMiner anotace z dostupných databází - informaci o zdrojovém organismu a prostředí, ve kterém se vyskytuje, a informaci o proteinových doménách, ze kterých se enzym skládá. Hlavním kritériem pro výběr kandidátů je rozpustnost predikovaná druhým prezentovaným nástrojem, SoluProtem. SoluProt je metoda založená na strojovém učení, která predikuje heterologní rozpustnou expresi proteinu v organismu Escherichia coli . Vstupem je sekvence a výstupem je pravděpodobnost, že protein bude exprimován v rozpustné formě. SoluProt využívá model gradient boosting machine a byl trénován na datové sadě odvozené od databáze TargetTrack. Při srovnání na vyvážené nezávislé datové sadě odvozené z databáze NESG dosáhl SoluProt přesnosti 58,5 % a hodnoty AUC 0,62, čímž lehce převyšuje ostatní existující nástroje. Nástroje EnzymeMiner i SoluProt jsou často využívány řadou uživatelů z oblasti proteinového inženýrství za účelem hledání nových rozpustných biokatalyzátorů chemických reakcí. Ty mají velký potenciál snížit energetickou náročnost a ekologickou zátěž mnoha průmyslových procesů.Enzymes are proteins accelerating chemical reactions, which makes them attractive targets for both pharmaceutical and industrial applications. The enzyme function is mediated by several essential amino acids which form the optimal chemical environment to catalyse the reaction. In this work, two integrated bioinformatics tools for mining and rational selection of novel soluble enzymes, EnzymeMiner and SoluProt, are presented. EnzymeMiner uses one or more enzyme sequences as input along with a description of essential residues to search the protein database. The description of essential amino acids is used to increase the probability of similar enzymatic function. EnzymeMiner output is a set of annotated database hits. EnzymeMiner integrates taxonomic, environmental, and protein domain annotations to facilitate selection of promising targets for experiments. The main prioritization criterion is solubility predicted by the second tool being presented, SoluProt.  SoluProt is a machine-learning method for the prediction of soluble protein expression in Escherichia coli . The input is a protein sequence and the output is the probability of such protein to be soluble. SoluProt exploits a gradient boosting machine to decide on the output prediction class. The tool was trained on TargetTrack database. When evaluated against a balanced independent test set derived from the NESG database, SoluProt accuracy was 58.5% and its AUC 0.62, slightly exceeding those of a suite of alternative solubility prediction tools. Both EnzymeMiner and SoluProt are frequently used by the protein engineering community to find novel soluble biocatalysts for chemical reactions. These have a great potential to decrease energetic consumption and environmental burden of many industrial chemical processes.

    Detection of Related Proteins with Modified Function

    Get PDF
    Proteinové inženýrství je dynamicky se rozvíjecí obor s velkým množstvím potenciálních aplikací v praxi. Úspěch v tomto oboru je však podmíněn co nejlepším využitím všech dostupných informací o proteinech, k čemuž se využívá množství bioinformatických nástrojů a analýz. Cílem této práce je vytvoření nového nástroje na podporu proteinového inženýrství, který by umožnil vyhledávání příbuzných proteinů s modifikovanou funkcí ve stále rostoucích proteinových databázích. Návrh tohoto nástroje je koncipován jako spojení řady existujících bioinformatických analýz a umožní identifikovat příbuzné proteiny se stejným typem enzymatické funkce, avšak s mírně modifikovanými vlastnostmi, především z hlediska selektivity, reakční rychlosti a stability.Protein engineering is a young dynamic discipline with great amount of potential practical applications. However, its success is primarily based on perfect knowledge and usage of all existing information about protein function and structure. To achieve that, protein engineering is supported by plenty of bioinformatic tools and analysis. The goal of this project is to create a new tool for protein engineering that would enable researchers to identificate related proteins with modified function in still growing biological databases. The tool is designed as an automated workflow of existing bioinformatic analyses that leads to identification of proteins with the same type of enzymatic function, but with slightly modified properties - primarily in terms of selectivity, reaction speed and stability.

    SoluProt: prediction of soluble protein expression in Escherichia coli

    Get PDF
    Motivation: Poor protein solubility hinders the production of many therapeutic and industrially useful proteins. Experimental efforts to increase solubility are plagued by low success rates and often reduce biological activity. Computational prediction of protein expressibility and solubility in Escherichia coli using only sequence information could reduce the cost of experimental studies by enabling prioritization of highly soluble proteins. Results: A new tool for sequence-based prediction of soluble protein expression in E.coli, SoluProt, was created using the gradient boosting machine technique with the TargetTrack database as a training set. When evaluated against a balanced independent test set derived from the NESG database, SoluProt's accuracy of 58.5% and AUC of 0.62 exceeded those of a suite of alternative solubility prediction tools. There is also evidence that it could significantly increase the success rate of experimental protein studies

    EnzymeMiner: automated mining of soluble enzymes with diverse structures, catalytic properties and stabilities

    Get PDF
    Millions of protein sequences are being discovered at an incredible pace, representing an inexhaustible source of biocatalysts. Despite genomic databases growing exponentially, classical biochemical characterization techniques are time-demanding, cost-ineffective and low-throughput. Therefore, computational methods are being developed to explore the unmapped sequence space efficiently. Selection of putative enzymes for biochemical characterization based on rational and robust analysis of all available sequences remains an unsolved problem. To address this challenge, we have developed EnzymeMiner-a web server for automated screening and annotation of diverse family members that enables selection of hits for wet-lab experiments. EnzymeMiner prioritizes sequences that are more likely to preserve the catalytic activity and are heterologously expressible in a soluble form in Escherichia coli. The solubility prediction employs the in-house SoluProt predictor developed using machine learning. EnzymeMiner reduces the time devoted to data gathering, multi-step analysis, sequence prioritization and selection from days to hours. The successful use case for the haloalkane dehalogenase family is described in a comprehensive tutorial available on the EnzymeMiner web page

    Mining of soluble enzymes from genomic databases

    No full text
    Enzymy jsou proteiny urychlující chemické reakce s velkým potenciálem pro farmaceutický a obecně chemický průmysl. Enzymatická funkce je obvykle zajištěna několika nepostradatelnými aminokyselinami, které tvoří tzv. aktivní místo, kde se odehrává chemická reakce. V této práci jsou prezentovány dva integrované softwarové nástroje pro dolování a racionální výběr nových rozpustných enzymů - EnzymeMiner a SoluProt.  EnzymeMiner slouží k hledání nových enzymů. Na vstupu vyžaduje jednu nebo více sekvencí zvoleného enzymu spolu se seznamem klíčových aminokyselin. Tento seznam slouží k zvýšení pravděpodobnosti, že nalezený enzym bude mít podobnou funkci jako vstupní enzym. Výstupem EnzymeMineru je množina anotovaných sekvencí nalezených v databázi. Za účelem ulehčení výběru několika málo kandidátů pro experimentální ověření v laboratoři integruje EnzymeMiner anotace z dostupných databází - informaci o zdrojovém organismu a prostředí, ve kterém se vyskytuje, a informaci o proteinových doménách, ze kterých se enzym skládá. Hlavním kritériem pro výběr kandidátů je rozpustnost predikovaná druhým prezentovaným nástrojem, SoluProtem. SoluProt je metoda založená na strojovém učení, která predikuje heterologní rozpustnou expresi proteinu v organismu Escherichia coli . Vstupem je sekvence a výstupem je pravděpodobnost, že protein bude exprimován v rozpustné formě. SoluProt využívá model gradient boosting machine a byl trénován na datové sadě odvozené od databáze TargetTrack. Při srovnání na vyvážené nezávislé datové sadě odvozené z databáze NESG dosáhl SoluProt přesnosti 58,5 % a hodnoty AUC 0,62, čímž lehce převyšuje ostatní existující nástroje. Nástroje EnzymeMiner i SoluProt jsou často využívány řadou uživatelů z oblasti proteinového inženýrství za účelem hledání nových rozpustných biokatalyzátorů chemických reakcí. Ty mají velký potenciál snížit energetickou náročnost a ekologickou zátěž mnoha průmyslových procesů

    Ethylene Glycol, Hazardous Substance in the Household

    No full text
    Ethylene glycol is a colorless, odorless, sweet-tasting but poisonous type of alcohol found in many household products. The major use of ethylene glycol is as an antifreeze in, for example, automobiles, in air conditioning systems, in de-icing fluid for windshields, and else. People sometimes drink ethylene glycol mistakenly or on purpose as a substitute for alcohol. Ethylene glycol is toxic, and its drinking should be considered a medical emergency. The major danger from ethylene glycol is following ingestion. Due to its sweet taste, peoples and occasionally animals will sometimes consume large quantities of it if given access to antifreeze. While ethylene glycol itself has a relatively low degree of toxicity, its metabolites are responsible for extensive cellular damage to various tissues, especially the kidneys. This injury is caused by the metabolites, glycolic and oxalic acid and their respective salts, through crystal formation and possibly other mechanisms. Toxic metabolites of ethylene glycol can damage the brain, liver, kidneys, and lungs. The poisoning causes disturbances in the metabolism pathways, including metabolic acidosis. The disturbances may be severe enough to cause profound shock, organ failure, and death. Ethylene glycol is a common poisoning requiring antidotal treatment

    How Serious Is Threat of Radiological Terrorism?

    No full text
    Radiological terrorism (radioterrorism) is the deliberate use of radiological weapons. These weapons use radioactive materials to disperse and emit ionizing radiation. There are two classes of radiological weapons – radiological dispersal devices (RDD) and radiation emission devices (RED). These weapons would no cause massive numbers of dead. In most radiological attack scenarios, only few people may die immediately or shortly after exposure to the ionizing radiation. Nevertheless, many people could develop cancer within several years to decade after the radiological weapon attack. Such attack might spur panic and result in high economic costs because of the need for decontamination and possible tearing down and reconstruction of contaminated structures. Thus, radiological weapons may be considered rather weapons of mass disruption than weapons threating of human life
    corecore