Dissertação de mestrado em Computer ScienceKnowing what lies around us has been a goal for many decades now, and the new advances in sequencing technologies and in meta-omics approaches have permitted to start answering some of the main questions of microbiology - what is there, and what is it doing?
The exponential growth of omics studies has been answered by the development of
some bioinformatic tools capable of handling Metagenomics (MG) analysis, with a scarce
few integrating such analysis with Metatranscriptomics (MT) or Metaproteomics (MP) studies.
Furthermore, the existing tools for meta-omics analysis are usually not user friendly,
usually limited to command-line usage.
Because of the variety in meta-omics approaches, a standard workflow is not possible,
but some routines exist, which may be implemented in a single tool, thereby facilitating
the work of laboratory professionals. In the framework of this master thesis, a pipeline for
integrative MG and MT data analysis was developed. This pipeline aims to retrieve comprehensive
comparative gene/transcript expression results obtained from different biological
samples. The user can access the data at the end of each step and summaries containing several
parameters of evaluation of the previous step, and final graphical representations, like
Krona plots and Differential Expression (DE) heatmaps. Several quality reports are also
generated. The pipeline was constructed with tools tested and validated for meta-omics
data analysis. Selected tools include FastQC, Trimmomatic and SortMeRNA for preprocessing,
MetaSPAdes and Megahit for assembly, MetaQUAST and Bowtie2 for reporting on
the quality of the assembly, FragGeneScan and DIAMOND for annotation and DeSEQ2 for
DE analysis.
Firstly, the tools were tested separately and then integrated in several python wrappers to
construct the software Meta-Omics Software for Community Analysis (MOSCA). MOSCA
performs preprocessing of MG and MT reads, assembly of the reads, annotation of the
assembled contigs, and a final data analysis.
Real datasets were used to test the capabilities of the tool. Since different types of files
can be obtained along the workflow, it is possible to perform further analyses to obtain
additional information and/or additional data representations, such as metabolic pathway
mapping.O objectivo da microbiologia, e em particular daqueles que se dedicam ao estudo de comunidades microbianas, é descobrir o que compõe as comunidades, e a função de cada
microrganismo no seio da comunidade. Graças aos avanços nas técnicas de sequenciação,
em particular no desenvolvimento de tecnologias de Next Generation Sequencing, surgiram
abordagens de meta-ómicas que têm vindo a ajudar a responder a estas questões. Várias
ferramentas foram desenvolvidas para lidar com estas questões, nomeadamente lidando
com dados de Metagenómica (MG), e algumas poucas integrando esse tipo de análise com
estudos de Metatranscriptómica (MT) e Metaproteómica (MP). Além da escassez de ferramentas
bioinformáticas, as que já existem não costumam ser facilmente manipuláveis por
utilizadores com pouca experiencia em informática, e estão frequentemente limitadas a uso
por linha de comando.
Um formato geral para uma ferramenta de análise meta-ómica não é possível devido à
grande variedade de aplicações. No entanto, certas aplicações possuem certas rotinas, que
são passíveis de serem implementadas numa ferramenta, facilitando assim o trabalho dos
profissionais de laboratório. Nesta tese, uma pipeline integrada para análise de dados de
MG e MT foi desenvolvida, pretendendo determinar a expressão de genes/transcriptos entre
diferentes amostras biológicas. O utilizador tem disponíveis os resultados de cada passo,
sumários com vários parâmetros para avaliação do procedimento, e representações gráficas
como gráficos Krona e heatmaps de expressão diferencial. Vários relatórios sobre a qualidade
dos resultados obtidos também são gerados. A ferramenta foi construída baseada em
ferramentas e procedimentos testados e validados com análise de dados de meta-ómica. Essas
ferramentas são FastQC, Trimmomatic e SortMeRNA para pré-processamento, Megahit
e MetaSPAdes para assemblagem, MetaQUAST e Bowtie2 para controlo da qualidade dos
contigs obtidos na assemblagem, FragGeneScan e DIAMOND para anotação e DeSEQ2
para análise de expressão diferencial.
As ferramentas foram testadas uma a uma, e depois integradas em diferentes wrappers
de python para compôr a Meta-Omics Software for Community Analysis (MOSCA).
A MOSCA executa pré-processamento de reads de MG e MT, assemblagem das reads,
anotação dos contigs assemblados, e uma análise de dados final
Foram usados dados reais para testar as capacidades da MOSCA. Como podem ser obtidos
diferentes tipos de ficheiros ao longo da execução da MOSCA, é possível levar a cabo
análises posteriores para obter informação adicional e/ou representações de dados adicionais,
como mapeamento de vias metabólicas