thesis

Predictor of the Effect of Amino Acid Substitutions on Protein Function

Abstract

Tato práce se zaobírá problematikou predikce škodlivosti aminokyselinových substitucí pomocí metody fylogenetické analýzy, inspirované nástrojem MAPP. Nezanedbatelné množství genetických onemocnění je způsobeno nesynonymními SNPs, projevujícími se jako jednobodové mutace na úrovni proteinů. Schopnost identifikovat tyto škodlivé substituce by mohla být užitečná v oblasti proteinového inženýrství pro testování, zda navržená mutace nepoškodí funkci proteinu a stejně tak k identifikaci choroby způsobujících škodlivých mutací. Experimentální ohodnocení navržených mutací je však nákladné a vyvstala tak potřeba pro predikci vlivu aminokyselinových substitucí počítačovými metodami. Tato práce popisuje návrh a implementaci nového predikčního nástroje, založeného na principech evoluční analýzy a studiu rozdílnosti fyzikálně-chemických vlastností mezi původní a substituovanou aminokyselinou. Vyvinutý algoritmus byl otestován na čtyř datasetech, čítajících celkem 74 192 mutací na 16 256 proteinových sekvencích. Prediktor dosáhl až 72 % přesnosti a ve srovnání s většinou v současné době existujících nástrojů je jeho výpočet výrazně méně náročný na počítačový čas. Ve snaze dosáhnout maximální možnou efektivitu nástroje byl optimalizační proces zaměřen na výběr nejvhodnějších (a) nástrojů třetích stran, (b) rozhodovacího prahu a (c) sady fyzikálně-chemických vlastností.This thesis discusses the issue of predicting of the effect of amino acid substitutions on protein funkcion, based on phylogenetic analysis method, inspired by tool MAPP. Significant number of genetic diseases is caused by nonsynonymous SNPs manifested as single point mutations on the protein level. The ability to identify deleterious substitutions could be useful for protein engineering to test whether the proposed mutations do not damage protein function same as for targeting disease causing harmful mutations. However the experimental validation is costly and the need of predictive computation methods has risen. This thesis describes desing and implementation of a new in silico predictor based on the principles of evolutionary analysis and dissimilarity between original and substituting amino acid physico-chemical properties. Developed algorithm was tested on four datasets with 74,192 mutations from 16,256 sequences in total. The predictor yields up to 72 % accuracy and in the comparison with the most existing tools, it is substantially less time consuming. In order to achieve the highest possible efficiency, the optimization process was focused on selection of the most suitable (a) third-party software for calculation of a multiple sequence alignment, (b) overall decision threshold and (c) a set of physico-chemical properties.

    Similar works