3 research outputs found

    Understanding pathways

    No full text
    The challenge with todays microarray experiments is to infer biological conclusions from them. There are two crucial difficulties to be surmounted in this challenge:(1) A lack of suitable biological repository that can be easily integrated into computational algorithms. (2) Contemporary algorithms used to analyze microarray data are unable to draw consistent biological results from diverse datasets of the same disease. To deal with the first difficulty, we believe a core database that unifies available biological repositories is important. Towards this end, we create a unified biological database from three popular biological repositories (KEGG, Ingenuity and Wikipathways). This database provides computer scientists the flexibility of easily integrating biological information using simple API calls or SQL queries. To deal with the second difficulty of deriving consistent biological results from the experiments, we first conceptualize the notion of “subnetworks”, which refers to a connected portion in a biological pathway. Then we propose a method that identifies subnetworks that are consistently expressed by patients of he same disease phenotype. We test our technique on independent datasets of several diseases, including ALL, DMD and lung cancer. For each of these diseases, we obtain two independent microarray datasets produced by distinct labs on distinct platforms. In each case, our technique consistently produces overlapping lists of significant nontrivial subnetworks from two independent sets of microarray data. The gene-level agreement of these significant subnetworks is between 66.67% to 91.87%. In contrast, when the same pairs of microarray datasets were analysed using GSEA and t-test, this percentage fell between 37% to 55.75% (GSEA) and between 2.55% to 19.23% (t-test). Furthermore, the genes selected using GSEA and t-test do not form subnetworks of substantial size. Thus it is more probable that the subnetworks selected by our technique can provide the researcher with more descriptive information on the portions of the pathway which actually associates with the disease. Keywords: pathway analysis, microarra

    Implementação, análise e aplicação de algoritmos de agrupamento de dados superdimensionados, longitudinais e com amostras pequenas

    Get PDF
    Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2012.Este trabalho analisa uma série de algoritmos destinados a agrupar variáveis em uma estrutura de dadossuperdimensionada, longitudinal e com amostras pequenas (do inglês, High Dimensional Longitudinal Low Sample Size - HDLLSS). Esses algoritmos utilizam como medida de similaridade o p-valor resultante de um teste de ausência de efeito simples de grupo em um delineamento fatorial com medidas repetidas no tempo. Os testes não-paramétricos presentes em cada algoritmo serão estudados extensivamente por meio de simulações do erro do tipo I e curvas de poder do teste. Pesquisa bibliográfica dos métodos de agrupamento de dados HDLLSS mostra que a estimação da matriz de covariância é um grande problema em vários algoritmos. Neste trabalho, todas as simulações consideraram três formas distintas de estimação dessa matriz: [símbolo matemático de soma, sigma]i, [símbolo matemático de soma, sigma] e [símbolo matemático de soma, sigma]G. Enquanto [símbolo matemático de soma, sigma]i utiliza as informações da i-ésima variável para estimar as matrizes, [símbolo matemático de soma, sigma] utiliza todas as variáveis para a estimação de uma única matriz de covariâncias. O terceiro método considerado, [símbolo matemático de soma, sigma]G, estima uma matriz de covariâncias para cada grupo. Esse método apresentou melhores resultados por conseguir detectar a variabilidade entre os grupos com informação suficiente para uma boa qualidade de estimação. Aplicações em dados de microarranjo e em sinais de eletroencefalograma (EEG) apresentam resultados promissores. Os estudos de simulação sugerem que os algoritmos de agrupamento propostos superam os métodos existentes na literatura destinados a detectar grupos em dados HDLLSS. Além disso, esses algoritmos possuem propriedades desejáveis como invariância a transformações monótonas nos dados e detecção automática do número de grupos amostrais. ______________________________________________________________________________ ABSTRACTThis dissertation analyses a set of algorithms to cluster variables in high dimensional longitudinal low sample size (HDLLSS) data.These algorithms are based on the use of a pvalue from a non parametric test of no simple effect of group as a similarity measure for the clustering procedure. The non parametric-tests in each algorithm were studied extensively by means of simulations of type I error and power curves. Investigation of recente literatura in HDLLSS clustering algorithms shows that the covariance matrix estimation is a major problem. In this work, all simulations used three different ways of covariance matrix estimation: Σi,ΣandΣG. While Σi uses information from the ith variable to estimate covariance matrices, Σ uses all variables for estimating a single covariance matrix for the data.The third method considered, ΣG,estimates one covariance matrix for each group. This estimation methods hows better results because it can detect the variability between the groups with sufficient information for ago odquality estimation of time covariance structure. Applications on micro array data and electroencephalogram(EEG) signals show promising results.The simulation studies reveal that the proposed clustering algorithms out performs existing methods in the literature applied for detecting groups of HDLLSS data exhibiting high clustering accuracy and stability. Furthermore, these algorithms have desirable properties as invariance under monotone transformations and automatic detection of the number of sample groups
    corecore