1 research outputs found

    Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017Conhecer a localização subcelular de um dado produto génico (i.e., onde a proteína codificada pelo gene está localizada) é particularmente importante para a anotação funcional das proteínas. Para lidar com o aumento exponencial do número de proteínas descobertas recentemente, foram desenvolvidos métodos computacionais capazes de prever a localização subcelular de proteínas. Uma vez que as proteínas localizadas em determinados compartimentos intracelulares possuem características em comum, os algoritmos de aprendizagem automática podem ser úteis para essa previsão. O objectivo principal deste estudo foi prever a localização subcelular de prote ínas codificadas por 800 genes humanos envolvidos no tráfego da CFTR (regulador de condutância transmembranar de fibrose quística), uma proteína que, quando mutada, causa a doença genética Fibrose Quística.Neste projecto foram analisados os resultados de diferentes algoritmos de classificação disponíveis no MEKA, assim como diferentes métodos de construção de vectores representativos de proteínas. Por um lado, estes vectores foram construídos seguindo duas abordagens baseadas em Gene Ontology (GO): (1) valor 1-0 (presença ou ausência do termo GO) e (2) frequência dos termos GO. Por outro lado, foram consideradas três dimensões distintas dos vectores - 10165-D (todos os termos GO distintos para as proteínas em estudo), 429-D (termos GO essenciais obtidos pelo classificador mEN) e 87-D (termos GO essenciais obtidos pelo classificador mLASSO). Após a extracção dos termos GO e construção dos vectores representativos das proteínas, a localização subcelular das proteínas foi prevista através de três métodos de transformação do problema - Binary Relevance (BR), ClassifierChain (CC) e Label Cardinality (LC) - juntamente com três classificadores single-label - SMO, PART e J48. Estes classificadores foram avaliados através dos métodos 10-fold cross-validation e Leave-one-out cross-validation. Os sete melhores modelos de previsão criados pelo MEKA atingiram uma taxa global de sucesso entre 69,2 e 72,3% (overall actual accuracy) e 76,1 e 80,3% (overall locative accuracy).To know the subcellular localization of a given gene product (i.e., where the protein codified by the gene is located) is particularly helpful to the functional annotation of proteins. In order to better deal with the exponential increase of newly discovered proteins, several computational methods, capable of predicting proteins' subcellular localization, were developed. Since proteins located in particular intracellular compartments share certain common features, Machine Learning (ML) algorithms are useful to predict it. The goal of this study was to predict the subcellular localization of proteins encoded by 800 human genes involved in CFTR (cystic fibrosis transmembrane conductance regulator) traffic, a protein that, when mutated, causes Cystic Fibrosis, a genetic disease. On this project we analyzed different classification algorithms available in MEKA, as well as different methods of construction of vectors representative of proteins. On one hand, the vectors were built following two approaches based on Gene Ontology (GO): (1) 1-0 Value (presence or absence of GO terms) and (2) term-frequency (number of occurences of individual go terms). On the other hand, three different dimensions of the vectors were considered: 10165-D (all distinct GO terms), 429-D (essencial GO terms selected by mEN classifier) and 87-D (essencial GO terms selected by mLASSO classifier). After extracting the GO terms and building the vectors, the subcellular localization of proteins was predicted using three methods of problem transformation - Binary Relevance (BR), Classifier Chain (CC) and Label Cardinality (LC) _ along with three single-label classifiers - SMO, PART and J48. These classifiers were evaluated by the methods of the 10-fold cross-validation and Leave-one-out cross-validation. The seven best predictive models created by MEKA achieved an overall success rate between 69.2 and 72.3% (overall actual accuracy) and between 76.1 and 80.3% (overall locative accuracy)
    corecore