Um fluxo de análise quantitativa de dados de transcriptômica de células únicas no contexo de células-tronco pluripotentes induzidas

Abstract

TCC(graduação) - Universidade Federal de Santa Catarina. Centro de Ciências Biológicas. Biologia.Células-tronco pluripotentes induzidas são células reprogramadas a partir de células somáticas de modo a adquirir pluripotência – a capacidade de se diferenciar em qualquer tipo de célula. Com um protocolo de diferenciação adequado, podemos transformá-las em diversas outras células do organismo. Desde sua criação, diversos avanços em protocolos e técnicas laboratoriais permitem seu uso em pesquisa e terapias celulares. Contudo, o processo de diferenciação é falho e nem todas as células se transformam nas células alvo intencionadas. Nesse contexto, o sequenciamento de transcriptômica de células únicas se mostra uma poderosa ferramenta para a obtenção de informações. Ferramentas de bioinformática são fundamentais nesse processo, nos permitindo analisar a expressão gênica de uma célula e inferir seu tipo celular. Diversas ferramentas são utilizadas em diferentes passos do processo de análise. De modo geral, essas ferramentas são reprodutíveis. No entanto, é comum que o usuário tenha dificuldades em instalar a ferramenta e utilizar scripts fora do contexto onde foram escritos. Para que não ocorram situações como essas, estruturamos o uso dessas ferramentas em uma pipeline de análise. Boas práticas de construção de pipeline mostram a necessidade de desenvolvê-la de forma modular, reprodutível e compartimentalizada. Para tal, é necessário o uso de ferramentas de gerenciamento de fluxo de trabalho e containers de dependências dos pacotes. Este trabalho buscou construir uma pipeline de análise de dados de transcriptômica de células únicas no contexto de células-tronco pluripotentes induzidas. Além disso, visou criar um score que avalia a importância que determinado gene teve na classificação de uma amostra. As ferramentas de análise utilizadas na pipeline foram FUSCA, singleCellNet, Seurat e Symphony. Os recursos utilizados para a construção da estrutura da pipeline foram o gerenciador de fluxo de trabalho Snakemake e o container Singularity. A avaliação de eficácia da pipeline foi medida com sua aplicação em dados de células únicas de neurônios dopaminérgicos derivados de células-tronco pluripotentes induzidas, utilizando um conjunto de dados de células da região ventral do mesencéfalo de embriões humanos. A pipeline foi capaz de identificar os tipos celulares das células em questão e esses foram compatíveis com a tipagem feita pelos autores. As figuras geradas são acessíveis e podem ser utilizadas para a construção de um relatório ou trabalho científico. Por fim, a pipeline está disponível para acesso e uso público em https://github.com/gacrestani/ipsc-pipeline.Induced pluripotent stem cells (iPSCs) are cells reprogrammed from somatic cells to acquire pluripotency – the ability to differentiate into any cell type of an organism. With a differentiation protocol, one can transform them into those several other cells. Since their creation, several advances in laboratory protocols and techniques allow their use in biomedical research and cell therapies. However, the differentiation process is flawed and not all cells turn into the intended target cells. In this context, single cell transcriptomics sequencing proves to be a powerful tool for obtaining information. Bioinformatics tools are fundamental in this process, allowing us to analyze the gene expression of a cell and, by it, infer its cell type. Several tools are used in different steps of the analysis process. In general, these tools are reproducible. However, it is common for the user to have difficulties installing the tool and using scripts outside the context where they were written. To minimize those situations, we have structured the use of these tools in an analysis pipeline. Good pipeline construction practices state the need to develop it in a modular, reproducible and compartmentalized way. To do so, it is necessary to use workflow management tools and package dependency containers. This work aimed to build a pipeline for analyzing single cell transcriptomics data in the context of induced pluripotent stem cells. In addition, it aimed to create a score that assesses the importance that a given gene had in the classification of a sample. The analysis tools used in the pipeline were FUSCA, singleCellNet, Seurat and Symphony. The resources used to build the pipeline structure were the workflow manager Snakemake and the container manager Singularity. The evaluation of the effectiveness of the pipeline was measured with its application to single cell data from dopaminergic neurons derived from induced pluripotent stem cells, using a dataset of cells from the ventral region of the midbrain of human embryos. The pipeline was able to identify the cell types of the cells in question and these were compatible with the types found by the authors. The generated figures are accessible and can be used to build a report or scientific work. Finally, the pipeline is available for public use on https://github.com/gacrestani/ipsc-pipeline

    Similar works