46 research outputs found

    Weighting methods for variance heterogeneity in phenotypic and genomic data analysis for crop breeding

    Get PDF
    In plant breeding programmes MET form the backbone for phenotypic selection, GS and GWAS. Efficient analysis of MET is fundamental to get accurate results from phenotypic selection, GS and GWAS. On the other hand inefficient analysis of MET data may have consequences such as biased ranking of genotype means in phenotypic data analysis, small accuracy of GS and wrong identification of QTL in GWAS analysis. A combined analysis of MET is performed using either single-stage or stage-wise (two-stage) approaches based on the linear mixed model framework. While single-stage analysis is a fully efficient approach, MET data is suitably analyzed using stage-wise methods. MET data often show within-trial and between-trial variance heterogeneities, which is in contradiction with the homogeneity of variance assumption of linear models, and these heterogeneities require corrections. In addition it is well documented that spatial correlations are inherent to most field trials. Appropriate remedial techniques for variance heterogeneities and proper accounting of spatial correlation are useful to improve accuracy and efficiency of MET analysis. Chapter 2 studies methods for simultaneous handling of within-trial variance heterogeneity and within-trial spatial correlation. This study is conducted based on three maize trials from Ethiopia. To stabilize variance Box-Cox transformation was considered. The result shows that, while the Box-Cox transformation was suitable for stabilizing the variance, it is difficult to report results on the original scale. As alternative variance models, i.e. power-of-the-mean (POM) and exponential models, were used to fix the variance heterogeneity problem. Unlike the Box-Cox method, the variance models considered in this study were successful to deal simultaneously with both spatial correlation and heterogeneity of variance. For analysis of MET data, two-stage analysis is often favored in practice over single-stage analysis because of its suitability in terms of computation time, and its ability to easily account for any specifics of each trial (variance heterogeneity, spatial correlation, etc). Stage-wise analyses are approximate in that they cannot fully reproduce a single-stage analysis because the variancecovariance matrix of adjusted means from the first-stage analysis is sometimes ignored or sometimes approximated and the approximation may not be efficient. Discrepancy of results between single-stage and two-stage analysis increases when the variance between trials is heterogeneous. In stage-wise analysis one of the major challenges is how to account for heterogeneous variance between trials at the second stage. To account for heterogeneous variance between trials, a weighted mixed model approach is used for the second-stage analysis. The weights are derived from the variances and covariances of adjusted means from the first-stage analysis. In Chapter 3 we compared single-stage analysis and two-stage analysis. A new fully efficient and a diagonal weighting matrix are used for weighting in the second stage. The methods are explored using two different types of maize datasets. The result indicates that single-stage analysis and two-stage analysis give nearly identical results provided that the full information on all effect estimates and their associated estimated variances and covariances is carried forward from the first to the second stage. GWAS and GS analysis can be conducted using a single-stage or a stage-wise approach. The computational demand for GWAS and GS increases compared to purely phenotypic analysis because of the addition of marker data. Usually researchers compute genotype means from phenotypic MET data in stage-wise analysis (with or without weighting) and then forward these means to GWAS or GS analysis, often without any weighting. In Chapter 4 weighted stage-wise analysis versus unweighted stage-wise analysis are compared for GWAS and GS using phenotypic and genotypic maize data. Fully-efficient and a diagonal weighting are used. Results show that weighting is preferred over unweighted analysis for both GS and GWAS. In conclusion, stage-wise analysis is a suitable approach for practical analysis of MET, GS and GWAS analysis. Single-stage and two-stage analysis of MET yield very similar results. Stage-wise analysis can be nearly as efficient as single-stage analysis when using optimal weighting, i.e., fully-efficient weighting. Spatial variation and within-trial variance heterogeneity are common in MET data. This study illustrated that both can be resolved simultaneously using a weighting approach for the variance heterogeneity and spatial modeling for the spatial variation. Finally beside application of weighting in the analysis of phenotypic MET data, it is recommended to use weighting in the actual GS and GWAS analysis stage.In Pflanzenzüchtungsprogrammen bilden Versuchsserien die Grundlage für die phänotypische Selektion, genomische Selektion (GS) und genomweite Assoziationsstudien (GWAS). Eine effiziente Analyse der Versuchsserien ist grundlegend, um genaue Ergebnisse der phänotypischen Auswahl von GS und GWAS zu erhalten. Andererseits kann eine ineffiziente Analyse von Versuchsserien-Daten zu einer verzerrten Bewertung von Genotyp-Mitteln bei der Analyse phänotypischer Daten, einer geringen Genauigkeit der GS und einer falschen Identifizierung von QTL in der GWAS-Analyse führen. Eine kombinierte Analyse der Versuchsserien wird auf der Grundlage von linearen gemischten Modellen entweder einstufig oder stufenweise (zweistufig) durchgeführt. Während die einstufige Analyse ein vollständig effizienter Ansatz ist, werden die Versuchsserien-Daten in geeigneter Weise mit stufenweisen Methoden analysiert. Versuchsserien-Daten zeigen häufig Varianzheterogenitäten innerhalb von und zwischen Versuchen, die der Annahme der Varianzhomogenität für linearer Modelle widersprechen und Korrekturen erfordern. Darüber hinaus ist gut dokumentiert, dass räumliche Korrelationen in den meisten Feldversuchen vorhanden sind. Geeignete Abhilfemethoden für Varianzheterogenitäten und eine korrekte Berücksichtigung der räumlichen Korrelation sind hilfreich, um die Genauigkeit und Effizienz der versuchsserien-Analyse zu verbessern. In Kapitel 2 werden Methoden zum gleichzeitigen Umgang mit Varianzheterogenitat zwischen und räumlicher Korrelation innerhalb der Versuche untersucht. Diese Studie basiert auf drei Maisversuchen aus Äthiopien. Um die Varianz zu stabilisieren, wurde die Box-Cox-Transformation in Betracht gezogen. Das Ergebnis zeigt, dass, obwohl die Box-Cox-Transformation zur Stabilisierung der Varianz geeignet war, es schwierig ist, Ergebnisse auf der ursprünglichen Skala darzustellen. Als alternative Varianzmodelle wurden Power-of-the-mean (POM) und Exponentialmodelle verwendet, um das Varianzheterogenitätsproblem zu beheben. Im Gegensatz zur Box-Cox-Methode gelang es den in dieser Studie betrachteten Varianzmodellen, sowohl räumliche Korrelation als auch Heterogenität der Varianz gleichzeitig zu berücksichtigen. Bei der Analyse von MET-Daten wird die zweistufige Analyse in der Praxis häufig gegenüber der einstufigen Analyse bevorzugt, da sie die Berechnungszeit kürzer ist und die Besonderheiten der einzelnen Versuche (Varianzheterogenität, räumliche Korrelation usw.) leicht berücksichtigt werden können. Stufenweise Analysen sind insofern approximierend, als sie eine einstufige Analyse nicht vollständig reproduzieren können, da die Varianz-Kovarianz-Matrix der angepassten Mittelwerte aus der ersten Analyse-Phase manchmal ignoriert oder manchmal approximiert wird und die Approximation möglicherweise nicht effizient ist. Die Diskrepanz der Ergebnisse zwischen einstufiger und zweistufiger Analyse nimmt zu, wenn die Varianzen zwischen den Studien heterogen sind. Bei der stufenweisen Analyse besteht eine der größten Herausforderungen darin, die heterogene Varianz zwischen den Versuchen auf der zweiten Stufe zu berücksichtigen. Um die heterogene Varianz zwischen den Studien zu berücksichtigen, wird für die Analyse der zweiten Stufe ein gewichteter gemischter Modellansatz verwendet. Die Gewichtungen werden aus den Varianzen und den Kovarianzen der angepassten Mittel aus der Analyse der ersten Stufe abgeleitet. In Kapitel 3 haben wir die einstufige Analyse und die zweistufige Analyse verglichen. In der zweiten Stufe wird eine neue voll effiziente und eine diagonale Gewichtungsmatrix für die Gewichtung verwendet. Die Studien werden anhand zweier verschiedener Arten von Mais-Datasätze untersucht. Das Ergebnisse zeigen, dass die einstufige Analyse und die zweistufige Analyse nahezu identische Ergebnisse liefern, vorausgesetzt, die vollständigen Informationen zu allen Effektschätzungen und den damit verbundenen geschätzten Varianzen und Kovarianzen werden von der ersten zur zweiten Stufe übertragen. Die GWAS- und GS-Analyse kann nach einem einstufigen oder einem stufenweisen Ansatz durchgeführt werden. Der rechnerische Bedarf an GWAS und GS steigt im Vergleich zur rein phänotypischen Analyse aufgrund der Hinzufügung von Markerdaten. In der Regel berechnen Forscher Genotyp-Mittel aus phänotypischen Versuchsserien-Daten in stufenweisen Analysen (mit oder ohne Gewichtung) und leiten diese dann in die GWAS- oder GS-Analyse weiter, oft ohne Gewichtung. In Kapitel 4 wird die gewichtete stufenweise Analyse gegen die ungewichtete stufenweise Analyse für GWAS und GS anhand von phänotypischen und genotypischen Maisdaten verglichen. Es werden volleffiziente und diagonale Gewichtungen verwendet. Die Ergebnisse zeigen, dass die gewichtete gegenüber der nicht gewichteten Analyse sowohl für GS als auch für GWAS besser ist. Zusammenfassend ist die stufenweise Analyse ein geeigneter Ansatz für die praktische Versuchsserien-, GS- und GWAS-Analyse. Einstufige und zweistufige Versuchsserien-Analysen führen zu sehr ähnlichen Ergebnissen. Eine stufenweise Analyse kann wie eine einstufige Analyse effizient sein, indem eine optimale Gewichtung verwendet wird, d. h. eine vollständig effiziente Gewichtung. In Versuchsserien-Daten sind räumliche Variation und Varianzheterogenität innerhalb der Versuche üblich. Diese Studie zeigte, dass beide gleichzeitig unter Verwendung eines Gewichtungsansatzes die Varianzheterogenität und räumliche Korrelation berücksichtigen können. Neben der Anwendung der Gewichtung bei der Analyse phänotypischer MET-Daten wird empfohlen, die Gewichtung in der eigentlichen GS- und GWAS-Analysestufe zu verwenden

    Bayesian regularized regression methods for quantitative genetics with focus on longitudinal data

    Get PDF
    Quantitative trait loci (QTL) /association mapping aims to identify the genomic loci associated with the complex traits. From a statistical perspective, multiple linear regression is often used to model, estimate and test the effects of molecular markers on a trait. With genotype data derived from contemporary genomics techniques, however, the number of markers typically exceed the number of individuals, and it is therefore necessary to perform some sort of variable selection or parameter regularization to provide reliable estimates of model parameters. In addition, many quantitative traits are changing during their development process of life. Accordingly, a longitudinal study that jointly maps the repeated measurements of the phenotype over time may increase the statistical power to identify QTLs, compared with the single trait analysis. In this thesis, a series of Bayesian variable selection/regularization linear methods were developed and applied for analyzing quantitative traits measured at either single or multiple time points. The first work provided an overview of the principal frequentist regularization methods for analyzing single traits. The second work also focused on single trait analysis, where a variational Bayesian (VB) algorithm was derived for estimating parameters in several Bayesian regularization methods. The VB methods can be quickly implemented on large data sets in contrast to the classical Markov Chain Monte Carlo methods. In the third work, the Bayesian regularization method was extended to a non-parametric varying coefficient model to analyze longitudinal traits. Particularly, an efficient VB stepwise algorithm was used for variable selection, so that the method can be quickly implemented even on data sets with a large number of time points and/or a large number of markers. The fourth work is an application of variable selection methods on forest genetics data collected from Northern Sweden. From several conifer wood properties traits with multiple time points, four QTLs located at genes were identified, which are promising targets for future research in wood molecular biology and breeding.Eri organismeilla pituus ja paino ovat tyypillisiä ilmiasuja eli fenotyyppejä, joita voidaan mitata luonnossa. Lisäksi molekyylibiologia tarjoaa menetelmät yksilön genotyypin määrittämiseen DNA sekvenssistä. Yleisesti uskotaan että perinnölliset tekijät vaikuttavat monien ominaisuuksien fenotyyppeihin. Siksi yhteyden löytäminen perinnöllisten tekijöiden ja tietyn fenotyypin välille on kiinnostava tieteellinen kysymys. Esimerkiksi kasvi- ja eläintieteessä, tällaista tutkimusta käytetään ruuan tuotannon parantamiseen. Yksinkertaisimmassa tapauksessa, yksittäinen geenikohta (tietty pätkä DNA:ta) voi täysin määrätä kaksiarvoisen fenotyypin tilan. Tämä voidaan helposti osoittaa käyttämällä yksinkertaisia todennäköisyyssääntöjä. Monet jatkuvat ominaisuudet ovat kuitenkin monitekijäisiä siten että niiden taustalla on useita geenejä ja ympäristöllisiä tekijöitä. Monitekijäisten ominaisuuksien analysointiin on siksi käytettävä edistyneempiä tilastollisia menetelmiä kuten lineaarista regressiota. Tässä väitöskirjassa on kehitetty useita moderneja lineaarimalleihin pohjautuvia tekniikoita geenikohtien paikantamiseksi. Lisäksi työssä analysoitiin ruotsalainen metsätieteeseen liittyvä geneettinen aineisto jossa löydettiin neljä uutta geenikohtaa joidenka toimintaa voidaan myöhemmin tutkia tarkemmin

    Sandwich Boosting for Accurate Estimation in Partially Linear Models for Grouped Data

    Full text link
    We study partially linear models in settings where observations are arranged in independent groups but may exhibit within-group dependence. Existing approaches estimate linear model parameters through weighted least squares, with optimal weights (given by the inverse covariance of the response, conditional on the covariates) typically estimated by maximising a (restricted) likelihood from random effects modelling or by using generalised estimating equations. We introduce a new 'sandwich loss' whose population minimiser coincides with the weights of these approaches when the parametric forms for the conditional covariance are well-specified, but can yield arbitrarily large improvements in linear parameter estimation accuracy when they are not. Under relatively mild conditions, our estimated coefficients are asymptotically Gaussian and enjoy minimal variance among estimators with weights restricted to a given class of functions, when user-chosen regression methods are used to estimate nuisance functions. We further expand the class of functional forms for the weights that may be fitted beyond parametric models by leveraging the flexibility of modern machine learning methods within a new gradient boosting scheme for minimising the sandwich loss. We demonstrate the effectiveness of both the sandwich loss and what we call 'sandwich boosting' in a variety of settings with simulated and real-world data

    Multivariate Analysis and Modelling of multiple Brain endOphenotypes: Let's MAMBO!

    Get PDF
    Imaging genetic studies aim to test how genetic information influences brain structure and function by combining neuroimaging-based brain features and genetic data from the same individual. Most studies focus on individual correlation and association tests between genetic variants and a single measurement of the brain. Despite the great success of univariate approaches, given the capacity of neu- roimaging methods to provide a multiplicity of cerebral phenotypes, the development and application of multivariate methods become crucial. In this article, we review novel methods and strategies focused on the analysis of multiple phenotypes and genetic data. We also discuss relevant aspects of multi-trait modelling in the context of neuroimag- ing data

    Analyzing gene expression data with linear mixed models: applications to variable pool sizes and biomarkers

    Get PDF
    This work is about the design and statistical analysis of gene expression experiments with variable pool sizes. Conditions for unbiased contrasts in such experiments were derived. They were analyzed with linear mixed models, introducing a new type of variance component that accounts for unequal shares of individual samples in common pools. The relevance of this blending error variance was then investigated for four experimental data sets from different species. Finally a biomarker search for hygienic behavior in Apis mellifera workers was conducted, using nerve tissue gene expression data.Diese Arbeit behandelt Fragen der statistischen Planung und Auswertung von Genexpressionsexperimenten mit Mischproben (Pools) und variabler Zahl von individuellen Proben je Pool (Poolgröße). Eine Bedingung für die Verzerrungsfreiheit von Kontrasten im linearen Modell wurde abgeleitet. Die Relevanz der zur Auswertung mit gemischten linearen Modellen eingeführten Mischungsvarianz zeigte sich auch in experimentellen Daten. Eine Biomarkersuche für das individuelle Hygieneverhalten von Arbeiterinnen der Honigbiene leistet einen methodischen Beitrag zur Zucht von Varroa-resistenten Bienenvölkern
    corecore