Dissertação de mestrado em BioinformaticsNowadays, the ability to predict protein functions directly from amino-acid sequences alone
remains a major biological challenge. The understanding of protein properties and functions is
extremely important and can have a wide range of biotechnological and medical applications.
Technological advances have led to an exponential growth of biological data challenging conventional
analysis strategies. High-level representations from the field of deep learning can
provide new alternatives to address these problems, particularly NLP methods, such as word
embeddings, have shown particular success when applied for protein sequence analysis.
Here, a module that eases the implementation of word embedding models toward protein
representation and classification is presented. Furthermore, this module was integrated in the
ProPythia framework, allowing to straightforwardly integrate WE representations with the training
and testing of ML and DL models.
This module was validated using two protein classification problems namely, identification of
plant ubiquitylation sites and lysine crotonylation site prediction. This module was further used
to explore enzyme functional annotation. Several WE were tested and fed to different ML and
DL networks. Overall, WE achieved good results being even competitive with state-of-the-art
models, reinforcing the idea that language based methods can be applied with success to a
wide range of protein classification problems.
This work presents a freely available tool to perform word embedding techniques for protein
classification. The case studies presented reinforce the usability and importance of using NLP
and ML in protein classification problems.Hoje em dia, a habilidade de prever a função de proteínas a partir apenas da sequências
de amino-ácidos permanece um dos grandes desafios biológicos. A compreensão das propriedades
e das funções das proteinas é de extrema importância e pode ter uma grande
variedade de aplicações médicas e biotecnológicas. Os avanços nas tecnologia levaram a
um crescimento exponencial de dados biológicos, desafiando as estratégias convencionais
de análise. O campo do Deep Learning pode providenciar novas alternativas para atender à
resolução destes problemas, em particular, os métodos de processamento de linguagem, como
por exemplo word embeddings, mostraram especial sucesso quando aplicados para análise de
sequências proteicas.
Aqui, é apresentado um módulo que facilita a implementação de modelos de “word embedding”
para representação e classificação de proteínas.
Além disso, este módulo foi integrado na framework ProPythia, permitindo integrar diretamente
as representações WE com o treino e teste de modelos ML e DL.
Este módulo foi validado usando dois problemas de classificação de proteínas, identificação
de locais de ubiquitilação de plantas e previsão de locais de crotonilação de lisinas. Este módulo
foi usado também para explorar a anotação funcional de enzimas. Vários WE foram testados e
utilizados em diferentes redes ML e DL. No geral, as técnicas de WE obtiveram bons resultados
sendo competitivas, mesmo com modelos descritos no estado da arte, reforçando a ideia de
que métodos baseados em linguagem podem ser aplicados com sucesso a uma ampla gama
de problemas de classificação de proteínas.
Este trabalho apresenta uma ferramenta para realizar técnicas de word embedding para
classificação de proteínas. Os caso de estudo apresentados reforçam a usabilidade e importância
do uso de NLP e ML em problemas de classificação de proteínas