8 research outputs found
Discovering Biological Progression Underlying Microarray Samples
In biological systems that undergo processes such as differentiation, a clear concept of progression exists. We present a novel computational approach, called Sample Progression Discovery (SPD), to discover patterns of biological progression underlying microarray gene expression data. SPD assumes that individual samples of a microarray dataset are related by an unknown biological process (i.e., differentiation, development, cell cycle, disease progression), and that each sample represents one unknown point along the progression of that process. SPD aims to organize the samples in a manner that reveals the underlying progression and to simultaneously identify subsets of genes that are responsible for that progression. We demonstrate the performance of SPD on a variety of microarray datasets that were generated by sampling a biological process at different points along its progression, without providing SPD any information of the underlying process. When applied to a cell cycle time series microarray dataset, SPD was not provided any prior knowledge of samples' time order or of which genes are cell-cycle regulated, yet SPD recovered the correct time order and identified many genes that have been associated with the cell cycle. When applied to B-cell differentiation data, SPD recovered the correct order of stages of normal B-cell differentiation and the linkage between preB-ALL tumor cells with their cell origin preB. When applied to mouse embryonic stem cell differentiation data, SPD uncovered a landscape of ESC differentiation into various lineages and genes that represent both generic and lineage specific processes. When applied to a prostate cancer microarray dataset, SPD identified gene modules that reflect a progression consistent with disease stages. SPD may be best viewed as a novel tool for synthesizing biological hypotheses because it provides a likely biological progression underlying a microarray dataset and, perhaps more importantly, the candidate genes that regulate that progression
Temporal ordering and registration of images in studies of developmental dynamics
Abstract Dynamics of developmental progress is commonly reconstructed from imaging snapshots of chemical or mechanical processes in fixed embryos. As a first step in these reconstructions, snapshots must be spatially registered and ordered in time. Currently, image registration and ordering is often done manually, requiring a significant amount of expertise with a specific system. However, as the sizes of imaging data sets grow, these tasks become increasingly difficult, especially when the images are noisy and the examined developmental changes are subtle. To address these challenges, we present an automated approach to simultaneously register and temporally order imaging data sets. The approach is based on vector diffusion maps, a manifold learning technique that does not require a priori knowledge of image features or a parametric model of the developmental dynamics. We illustrate this approach by registering and ordering data from imaging studies of pattern formation and morphogenesis in three different model systems. We also provide software to aid in the application of our methodology to other experimental data sets
Uncovering pseudotemporal trajectories with covariates from single cell and bulk expression data
Pseudotime algorithms can be employed to extract latent temporal information from cross-sectional data sets allowing dynamic biological processes to be studied in situations where the collection of time series data is challenging or prohibitive. Computational techniques have arisen from single-cell 'omics and cancer modelling where pseudotime can be used to learn about cellular differentiation or tumour progression. However, methods to date typically implicitly assume homogeneous genetic, phenotypic or environmental backgrounds, which becomes limiting as data sets grow in size and complexity. We describe a novel statistical framework that learns how pseudotime trajectories can be modulated through covariates that encode such factors. We apply this model to both single-cell and bulk gene expression data sets and show that the approach can recover known and novel covariate-pseudotime interaction effects. This hybrid regression-latent variable model framework extends pseudotemporal modelling from its most prevalent area of single cell genomics to wider applications
ClockOME: searching for oscillatory genes in early vertebrate development
Embryo development is a dynamic process regulated in space and time. Cells must
integrate biochemical and mechanical signals to generate fully functional organisms, where
oscillatory gene expression plays a key role. The embryo molecular clock (EMC) is the best
known genetic oscillator active in embryo segmentation, involving genes from the Notch, FGF,
and WNT pathways. However, the list of cyclic genes is still incomplete mostly due to the
challenges involved with studying periodic systems. Recently, such studies have become more
feasible with the development of pseudo-time ordering algorithms that search for candidate
oscillatory genes using large transcriptomics datasets sampled without explicit time
measurements.
This study aims at finding candidate oscillatory genes - ClockOME - active in early
chick embryo development.
Two Gallus gallus microarray transcriptomics datasets from Presomitic mesoderm
(PSM), and one dataset from limb segmentation were gathered from GEO and ArrayExpress.
To normalize these data from different experiments, an RData package - FrozenChicken - was
developed to apply a frozen Robust MultiArray (fRMA) normalization to the data. Next the
datasets were processed with Oscope (a pseudo-time ordering algorithm) to search for candidate
periodic genes clustered by similar oscillatory behaviour. The clusters of predicted oscillators
were then subject to functional enrichment and interaction network analyses to highlight the
biological functions associated with these genes. Oscope predicted three clusters of oscillators:
two in PSM (106 and 32 genes), and one in Limb (162 genes). Overall, the genes are associated
with regulatory, morphological, and developmental processes. Mesp2, a gene involved with the
EMC, was found in this dataset, validating the approach, however, the majority of genes are
novel oscillatory candidates, associated with chromatin and transcriptional regulation, as well
as protein and oxygen metabolism. The list of candidate oscillators represents a valuable
resource for guided experimental validation to discover additional members of the chick EMC.
Six genes have been proposed for high-priority experimental validation: SRC, PTCH1,
NOTCH2, YAP1, KDR, CTR9.O desenvolvimento embrionário é um processo dinâmico que envolve alterações
moleculares no espaço e no tempo. As células embrionárias são constantemente expostas a
estímulos bioquímicos e mecânicos, e respondem ao ambiente em que se encontram alterando
o seu programa genético. Quando corretamente integradas, estas respostas celulares culminam
com o desenvolvimento bem-sucedido de um organismo funcional. Assim, a embriogénese
envolve processos moleculares estritamente regulados, sendo a expressão oscilatória de genes
uma das formas possíveis para a regulação do comportamento das células ao longo do tempo.
O relógio molecular embrionário é um conhecido oscilador genético, e está envolvido na
segmentação do tecido paraxial embrionário. O conceito de relógio molecular foi inicialmente
proposto em 1976 por Cooke e Zeeman, ao qual chamaram o modelo Clock and Wavefront
(Relógio e Frente de Onda)1. Este modelo foi concebido para descrever teoricamente a
formação rítmica de sómitos em ambos os lados da mesoderme paraxial (PSM) nos vertebrados,
e baseia-se na existência de osciladores genéticos que regulam esse processo de segmentação
da PSM ao longo do tempo. Para além do relógio, como diz o nome, o modelo inclui a existência
de uma frente de onda, que determina espacialmente o comportamento das células presentes na
mesoderme pré-somítica (PSM). Assim, os dois mecanismos guiam a diferenciação das células
da PSM, que consequentemente sofrem transformações genéticas que precedem a formação dos
sómitos. A base deste relógio molecular consiste na expressão periódica de genes que fazem
parte das vias moleculares Notch, FGF e WNT. Contudo, a lista de genes envolvidos no relógio
embrionário ainda não se encontra completa, facto este que se deve principalmente às
dificuldades experimentais relacionadas com o estudo de sistemas periódicos quando não se
conhece de antemão a periodicidade/ritmo da expressão dos genes envolvidos.
Com o advento de novas técnicas de transcriptómica que permitem o estudo dos valores
de expressão de todos os genes simultaneamente, nomeadamente usando Microarrays, ou mais
recentemente através de métodos de sequenciação, como RNA-sequencing ou Single-Cell
RNA-sequencing, surge a oportunidade de procurar alargar a lista de genes com expressão
oscilatória. Porém, estes métodos implicam a extração do RNA das células amostradas
resultando na morte celular. Assim, este processamento inviabiliza o estudo das mesmas células
ao longo do tempo, originando dados moleculares estáticos, isto é, os níveis de expressão
obtidos representam uma única amostra temporal. Para o estudo de processos periódicos, seria
então necessário fazer uma série temporal amostrando diferentes indivíduos ao longo do tempo de desenvolvimento, aumentando grandemente o número de amostras biológicas necessárias
para resolver o ciclo de oscilação para cada gene estudado.
Assim, sem informação temporal medida explicitamente, a expressão oscilatória de
genes pode apenas ser estudada usando modelos matemáticos apropriados, nomeadamente
através da aplicação de algoritmos de ordenação pseudo-temporal. Estes métodos ordenam as
amostras ao longo do tempo de uma oscilação de forma a obter o padrão do comportamento
cíclico para todos os genes cuja expressão oscila concomitantemente. Torna-se assim possível,
bioinformaticamente, inferir o potencial oscilatório de genes medidos por estas técnicas de
transcriptómica, sem informação temporal explícita.
Deste modo, o objetivo deste estudo é encontrar novos genes oscilatórios, a que
coletivamente chamamos ClockOME, que estão ativos durante as primeiras etapas do
desenvolvimento embrionário (somitogénese) da galinha, nos tecidos da mesoderme présomítica
(PSM), e no membro superior (Limb); tecidos estes onde o relógio molecular foi
descrito, atuando como regulador temporal das alterações genéticas subjacentes.
Para tal, recolheu-se 3 conjuntos de dados (datasets) de transcriptómica obtidos por
microarray de dois repositórios de dados públicos: GEO (da instituição americana NCBI) e
ArrayExpress (da instituição europeia EMBL-EBI). Dois datasets continham dados de
mesoderme paraxial (PSM) – tecido onde ocorre a somitogénese; e um dataset de dados de
obtidos do membro superior do embrião de galinha. Com o objetivo de normalizar os três
datasets de forma a torná-los comparáveis (uma vez que são oriundos de processos
experimentais diferentes), foi desenvolvido um pacote de R denominado “FrozenChicken:
Promoting the meta-analysis of chicken microarray data” (publicado em 2021)
(https://doi.org/10.1101/2021.02.25.432894). Este pacote contém dados sumarizados de 472
datasets de microarrays de embriões de galinha, tornando possível a normalização por fRMA
(frozen Robust MultiArray) de microarrays de Gallus gallus. Após normalização e controlo de
qualidade dos valores de expressão genética, os dados da PSM e do membro foram processados
com o Oscope (algoritmo de ordenação pseudo-temporal), com o propósito de prever genes
oscilatórios. Este algoritmo avalia todas as combinações de pares de genes, agrupando aqueles
que apresentem padrões de expressão semelhantes, ou seja, cujos valores de expressão ao longo
das amostras seguem trajetórias semelhantes, indiciando um período de oscilação
potencialmente semelhante. Os clusters de genes previstos pelo Oscope foram posteriormente submetidos a uma análise de enriquecimento funcional e a uma análise de interações funcionais,
com o intuito de perceber o seu potencial papel biológico, e funções moleculares subjacentes.
O Oscope reportou três listas de genes potencialmente oscilatórios: dois grupos foram
encontrados a partir dos dados da PSM (com 106 e 32 genes cada) e o terceiro grupo de 162
genes foi encontrado nos dados do membro superior. No total, a lista de genes que
denominamos ClockOME é composta por 296 genes potencialmente oscilatórios, envolvidos
em diversos mecanismos regulatórios importantes para o desenvolvimento embrionário e para
a morfogénese. A maioria dos genes presentes nesta lista não estão descritos na literatura como
sendo oscilatórios (novel candidates), representando, portanto, uma mais-valia para a
comunidade científica que estuda o relógio molecular embrionário. Estes genes parecem estar
associados a funções como remodelação da cromatina, regulação da transcrição, metabolismo
proteico e metabolismo do oxigénio, sendo, portanto, bons candidatos para futura validação
experimental. Notavelmente, o Oscope identificou com sucesso o Mesp2, um gene oscilatório
bem descrito na literatura, mostrando assim a validade e o potencial desta abordagem teórica.
Em suma, este trabalho produziu uma lista de 296 genes potencialmente oscilatórios.
Com base na sua novidade e na função molecular anotada, foi proposta uma lista de seis genes
candidatos de particular relevância para validação experimental no futuro próximo,
nomeadamente: SRC, PTCH1, NOTCH2, YAP1, KDR, CTR9. Assim, as listas resultantes do
trabalho desta tese poderão agora guiar futuras experiências laboratoriais capazes de adicionar
novos interactores moleculares ao atual modelo do relógio molecular embrionário