8 research outputs found

    Multiple Testing for Neuroimaging via Hidden Markov Random Field

    Full text link
    Traditional voxel-level multiple testing procedures in neuroimaging, mostly pp-value based, often ignore the spatial correlations among neighboring voxels and thus suffer from substantial loss of power. We extend the local-significance-index based procedure originally developed for the hidden Markov chain models, which aims to minimize the false nondiscovery rate subject to a constraint on the false discovery rate, to three-dimensional neuroimaging data using a hidden Markov random field model. A generalized expectation-maximization algorithm for maximizing the penalized likelihood is proposed for estimating the model parameters. Extensive simulations show that the proposed approach is more powerful than conventional false discovery rate procedures. We apply the method to the comparison between mild cognitive impairment, a disease status with increased risk of developing Alzheimer's or another dementia, and normal controls in the FDG-PET imaging study of the Alzheimer's Disease Neuroimaging Initiative.Comment: A MATLAB package implementing the proposed FDR procedure is available with this paper at the Biometrics website on Wiley Online Librar

    High Dimensional Dependent Data Analysis for Neuroimaging.

    Full text link
    This dissertation contains three projects focusing on two major high-dimensional problems for dependent data, particularly neuroimaging data: multiple testing and estimation of large covariance/precision matrices. Project 1 focuses on the multiple testing problem. Traditional voxel-level false discovery rate (FDR) controlling procedures for neuroimaging data often ignore the spatial correlations among neighboring voxels, thus suffer from substantial loss of efficiency in reducing the false non-discovery rate. We extend the one-dimensional hidden Markov chain based local-significance-index procedure to three-dimensional hidden Markov random field (HMRF). To estimate model parameters, a generalized EM algorithm is proposed for maximizing the penalized likelihood. Simulations show increased efficiency of the proposed approach over commonly used FDR controlling procedures. We apply the method to the comparison between patients with mild cognitive impairment and normal controls in the ADNI FDG-PET imaging study. Project 2 considers estimating large covariance and precision matrices from temporally dependent observations, in particular, the resting-state functional MRI (rfMRI) data in brain functional connectivity studies. Existing work on large covariance and precision matrices is primarily for i.i.d. observations. The rfMRI data from the Human Connectome Project, however, are shown to have long-range memory. Assuming a polynomial-decay-dominated temporal dependence, we obtain convergence rates for the generalized thresholding estimation of covariance and correlation matrices, and for the constrained ell1ell_1 minimization and the ell1ell_1 penalized likelihood estimation of precision matrix. Properties of sparsistency and sign-consistency are also established. We apply the considered methods to estimating the functional connectivity from single-subject rfMRI data. Project 3 extends Project 2 to multiple independent samples of temporally dependent observations. This is motivated by the group-level functional connectivity analysis using rfMRI data, where each subject has a sample of temporally dependent image observations. We use different concentration inequalities to obtain faster convergence rates than those in Project 2 of the considered estimators for multi-sample data. The new proof allows more general within-sample temporal dependence. We also discuss a potential way of improving the convergence rates by using a weighted sample covariance matrix. We apply the considered methods to the functional connectivity estimation for the ADHD-200 rfMRI data.PhDBiostatisticsUniversity of Michigan, Horace H. Rackham School of Graduate Studieshttp://deepblue.lib.umich.edu/bitstream/2027.42/133198/1/haishu_1.pd

    Statistical methods for data with different dimensions

    Get PDF
    This thesis addresses the joint analysis of data with different dimensions, such as scalars, vectors, functions and images. This is of high practical and methodological relevance, as in the course of the technical progress, data with increasing complexity and dimensionality becomes available, requiring the extension of statistical models to new types of data and leading to the development of completely new statistical methods. In the first part of the thesis, multivariate functional principal component analysis (MFPCA) is developed for functional data on different dimensional domains. This is a novel method, as existing approaches for MFPCA are restricted to multivariate functional data on the same, one-dimensional interval. Using the new approach, principal components for data consisting e.g. of functions and images (i.e. functions on a two-dimensional domain) can be obtained, taking potential covariation in the elements into account. The thesis constructs a thorough theoretical basis for multivariate functional data on different dimensional domains and derives a theoretical relationship between univariate and multivariate functional principal component analysis for finite sample sizes. The results can be used to estimate multivariate functional principal components, eigenvalues and scores based on their univariate counterparts. It is shown how the method can be extended to univariate elements in general basis representations and to a weighted version of MFPCA to correct for differences in domain, range or variation of the elements. The approach is also applicable for sparse data or data with measurement error. The finite sample performance of the new method is evaluated in a simulation study with different levels of complexity. Moreover, asymptotic properties for large sample sizes are derived in two theorems, using results from perturbation theory and showing consistency of the proposed estimators. The estimation algorithm has been implemented in a publicly available R-package MFPCA, together with another R-package funData for representing functional data in an object-oriented manner. The thesis provides an introduction to the software and the underlying concepts. The new approach is illustrated in an application to a neuroimaging dataset. The aim here is to examine the relationship between trajectories of a neuropsychological test score over time and FDG-PET brain scans at baseline, that can be interpreted as functions on a three-dimensional domain, as the latter might be predictive of subsequent cognitive decline. The results show that estimates obtained from the new MFPCA method are meaningful from a medical point of view and provide new insights into the data. The second part of the thesis is concerned with scalar-on-image regression. This class of statistical methods models the relation of a scalar outcome and an image predictor, hence data with different dimensions and a complex dependence structure. It is representative for a broad class of statistical models for complex data, which intrinsically is unidentifiable, as in general the number of observations will be low compared to the number of pixels in the image. Strong model assumptions are thus required to obtain a unique solution, which is of course conditional on the hypotheses made on the true coefficient image. In the thesis, different models for scalar-on-image regression with different assumptions are compared with respect to their ability to give reliable and interpretable estimates. To this end, new measures for quantifying the influence of model assumptions are developed and analyzed in a simulation study for nine different scalar-on-image models. The relevance of the topic is illustrated in a practical neuroimaging application. It is shown that different models with different assumptions can lead to results that share common patterns, but can differ substantially in their details, as model assumptions can have a strong influence on the estimates. This can entail the risk of over-interpreting effects that are mainly driven by the model assumptions.Diese Doktorarbeit beschäftigt sich mit der gemeinsamen Analyse von Daten unterschiedlicher Dimension, wie beispielsweise Skalare, Vektoren, Funktionen und Bilder. Dies ist sowohl aus praktischer als auch aus methodischer Sicht relevant, da im Zuge des technischen Fortschritts Daten mit zunehmender Komplexität und Dimensionalität zur Verfügung stehen, die einerseits eine Erweiterung von statistischen Modellen auf neue Datentypen erfordern und andererseits zur Entwicklung völlig neuer statistischer Methoden führen. Im ersten Teil der Arbeit wird eine multivariate funktionale Hauptkomponentenanalyse (engl. multivariate functional principal component analysis, MFPCA) für funktionale Daten auf unterschiedlich-dimensionalen Trägern entwickelt. Es handelt sich hier um eine neuartige Methode, da bestehende Ansätze für MFPCA auf multivariate funktionale Daten auf einem gemeinsamen eindimensionalen Intervall beschränkt sind. Mit dem neu entwickelten Ansatz können Hauptkomponenten für Daten bestimmt werden, die z.B. aus Funktionen und Bildern (d.h. Funktionen auf einem zwei-dimensionalen Träger) bestehen, womit eventuell vorhandene Kovariation in den Elementen berücksichtigt werden kann. In der Arbeit werden die theoretischen Grundlagen für multivariate funktionale Daten auf unterschiedlich-dimensionalen Trägern gelegt. Für den Fall einer endlichen Stichprobe wird anschließend einen theoretischen Zusammenhang zwischen univariater und multivariater funktionaler Hauptkomponentenanalyse hergeleitet. Das Ergebnis kann zur Schätzung multivariater funktionaler Hauptkomponenten, Eigenwerte und Scores auf Basis der univariaten Analoga genutzt werden. Es wird gezeigt, wie die Methode auf univariate Elemente in allgemeinen Basisdarstellungen erweitert werden kann. Weiterhin wird eine gewichtete Version der MFPCA vorgestellt, mithilfe derer für Unterschiede im Träger, Wertebereich oder Variation der einzelnen Elemente korrigiert werden kann. Der neue Ansatz eignet sich auch für funktionale Daten mit wenig Beobachtungspunkten (engl. sparse data) oder Daten, die mit Messfehlern erhoben wurden. Für den Fall endlicher Stichproben wird die Leistungsfähigkeit der neuen Methode im Rahmen einer Simulationsstudie mit unterschiedlichen Komplexitätsgraden untersucht. Darüberhinaus werden die asymptotischen Eigenschaften für große Stichproben in zwei Theoremen unter Verwendung von Resultaten aus der Perturbationstheorie hergeleitet und es wird bewiesen, dass die vorgeschlagenen Schätzer konsistent sind. Der Schätzalgorithmus ist in dem öffentlich verfügbaren R-Paket MFPCA implementiert, gemeinsam mit einem weiteren R-Paket funData zur objektorientierten Darstellung funktionaler Daten. Die Arbeit enthält eine Einführung in die Software und die zugrundeliegenden Konzepte. Die neue Methode wird in einem Anwendungskapitel anhand eines Neuroimaging Datensatzes illustriert. Ziel der Untersuchung ist es, einen Zusammenhang zwischen den Ergebnissen eines neuropsychologischen Tests über den Studienverlauf und FDG-PET Gehirnscans herzustellen, die zu Beginn der Studie aufgenommen wurden, da Letztere prädiktiv für eine anschließende Verschlechterung der kognitiven Fähigkeiten sein können. Die Scans können dabei als Funktionen auf einem drei-dimensionalen Träger aufgefasst werden. Die Ergebnisse zeigen, dass die von der neuen MFPCA Methode gefundenen Schätzer medizinisch sinnvoll sind und neue Einblicke in die Daten ermöglichen. Der zweite Teil der Arbeit beschäftigt sich mit Skalar-auf-Bild Regression. Diese statistische Modellklasse beschreibt den Zusammenhang einer skalaren Zielgröße und einer Einflussgröße in Form eines Bildes, also Daten mit unterschiedlicher Dimension und einer komplexen Abhängigkeitsstruktur. Sie steht stellvertretend für eine breite Klasse statistischer Modelle für komplexe Daten, die von sich aus nicht identifizierbar ist, da im Allgemeinen die Anzahl der Beobachtungen im Verhältnis zur Anzahl der Pixel in einem Bild sehr klein ist. Es sind also starke Modellannahmen vonnöten, um eine eindeutige Lösung zu erhalten, die selbstverständlich durch die Annahmen an das wahre Koeffizientenbild bedingt wird. In dieser Arbeit werden unterschiedliche Modelle für Skalar-auf-Bild Regression mit unterschiedlichen Annahmen in Bezug auf ihre Fähigkeit, zuverlässige und interpretierbare Ergebnise zu erzielen, untersucht. Zu diesem Zweck werden neue Maße zur Quantifizierung des Einflusses von Modellannahmen entwickelt und in einer Simulationsstudie für neun verschiedene Skalar-auf-Bild Regressionsmodelle untersucht. Die Bedeutung der Thematik wird wiederum in einer praktischen Anwendung aus dem Neuroimaging-Bereich veranschaulicht. Es wird gezeigt, dass unterschiedliche Modelle mit unterschiedlichen Annahmen zu Ergebnissen führen können, die zwar ähnliche Muster aufweisen, sich in Details aber zum Teil deutlich unterscheiden, da die Modellannahmen einen starken Einfluss auf die Schätzungen haben können. Dies bringt die mögliche Gefahr mit sich, Effekte zu überinterpretieren, die hauptsächlich von den Modellannahmen getrieben sind
    corecore