Dissertação de mestrado em Computer ScienceThere has been an increasing investment in cancer research that generated an enormous
amount of biological and clinical data, especially after the advent of the next-generation
sequencing technologies. To analyze the large datasets provided by omics data of cancer
samples, scientists have successfully been recurring to machine learning algorithms, identifying
patterns and developing models by using statistical techniques to make accurate
predictions.
Deep learning is a branch of machine learning, best known by its applications in artificial
intelligence (computer vision, speech recognition, natural language processing and
robotics). In general, deep learning models differ from machine learning “shallow” methods
(single hidden layer) because they recur to multiple layers of abstraction. In this way, it
is possible to learn high level features and complex relations in the given data.
Given the context specified above, the main target of this work is the development and
evaluation of deep learning methods for the analysis of cancer omics datasets, covering both
unsupervised methods for feature generation from different types of data, and supervised
methods to address cancer diagnostics and prognostic predictions.
We worked with a Neuroblastoma (NB) dataset from two different platforms (RNA-Seq
and microarrays) and developed both supervised (Deep Neural Networks (DNN), Multi-Task
Deep Neural Network (MT-DNN)) and unsupervised (Stacked Denoising Autoencoders (SDA))
deep architectures, and compared them with shallow traditional algorithms.
Overall we achieved promising results with deep learning on both platforms, meaning
that it is possible to retrieve the advantages of deep learning models on cancer omics data.
At the same time we faced some difficulties related to the complexity and computational
power requirements, as well as the lack of samples to truly benefit from the deep architectures.
There was generated code that can be applied to other datasets, wich is available in a
github repository https://github.com/lmpeixoto/deepl_learning [49].Nos últimos anos tem havido um investimento significativo na pesquisa de cancro, o
que gerou uma quantidade enorme de dados biológicos e clínicos, especialmente após o
aparecimento das tecnologias de sequenciação denominadas de “próxima-geração”. Para
analisar estes dados, a comunidade científica tem recorrido, e com sucesso, a algoritmos
de aprendizado de máquina, identificando padrões e desenvolvendo modelos com recurso
a métodos estatísticos. Com estes modelos é possível fazer previsão de resultados. O aprendizado
profundo, um ramo do aprendizado de máquina, tem sido mais notório pelas suas
aplicações em inteligência artificial (reconhecimento de imagens e voz, processamento de
linguagem natural e robótica). De um modo geral, os modelos de aprendizado profundo
diferem dos métodos clássicos do aprendizado de máquina por recorrerem a várias camadas
de abstração. Desta forma, é possível “aprender” as representações complexas e
não lineares, com vários graus de liberdade dos dados analisados. Neste contexto, o objetivo
principal deste trabalho é desenvolver e avaliar métodos de aprendizado profundo para
analisar dados ómicos do cancro. Pretendem-se desenvolver tanto métodos supervisionados
como não-supervisionados e utilizar diferentes tipos de dados, construindo soluções
para diagnóstico e prognóstico do cancro. Para isso trabalhámos com uma matriz de dados
de Neuroblastoma, proveniente de duas plataformas diferentes (RNA-seq e microarrays),
nos quais aplicámos algumas arquiteturas de aprendizado profundo, tanto como métodos
supervisionados e não-supervisionados, e com as quais comparámos com algoritmos tradicionais
de aprendizado de máquina. No geral conseguimos obter resultados promissores
nas duas plataformas, o que significou ser possível beneficiar das vantagens dos modelos
do aprendizado profundo nos dados ómicos de cancro. Ao mesmo tempo encontrámos
algumas dificuldades, de modo especial relacionadas com a complexidade dos modelos e
o poder computacional exigido, bem como o baixo número de amostras disponíveis. Na
sequencia deste trabalho foi gerado código que pode ser aplicado a outros dados e está
disponível num repositório do github https://github.com/lmpeixoto/deepl_learning
[49]