360 research outputs found

    Genomic selection in farm animals: accuracy of prediction and applications with imputed whole-genome sequencing data in chicken

    Get PDF
    Methoden zur genomischen Vorhersage basierend auf Genotypinformationen von Single Nucleotide Polymorphism (SNP)-Arrays mit unterschiedlicher Markeranzahl sind mittlerweile in vielen Zuchtprogrammen fĂŒr Nutztiere fest implementiert. Mit der zunehmenden VerfĂŒgbarkeit von vollstĂ€ndigen Genomsequenzdaten, die auch kausale Mutationen enthalten, werden mehr und mehr Studien veröffentlicht, bei denen genomische Vorhersagen beruhend auf Sequenzdaten durchgefĂŒhrt werden. Das Hauptziel dieser Arbeit war zu untersuchen, inwieweit SNP-Array-Daten mit statistischen Verfahren bis zum Sequenzlevel ergĂ€nzt werden können (sogenanntes „Imputing“) (Kapitel 2) und ob die genomische Vorhersage mit imputeten Sequenzdaten und zusĂ€tzlicher Information ĂŒber die genetische Architektur eines Merkmals verbessert werden kann (Kapitel 3). Um die Genauigkeit der genomischen Vorhersage besser verstehen und eine neue Methode zur Approximation dieser Genauigkeit ableiten zu können, wurde außerdem eine Simulationsstudie durchgefĂŒhrt, die den Grad der ÜberschĂ€tzung der Genauigkeit der genomischen Vorhersage verschiedener bereits bekannter AnsĂ€tze ĂŒberprĂŒfte (Kapitel 4). Der technische Fortschritt im letzten Jahrzehnt hat es ermöglicht, in relativ kurzer Zeit Millionen von DNA-Abschnitten zu sequenzieren. Mehrere auf unterschiedlichen Algorithmen basierende Software-Programme zur Auffindung von Sequenzvarianten (sogenanntes „Variant Calling“) haben sich etabliert und es möglich gemacht, SNPs in den vollstĂ€ndigen Genomsequenzdaten zu detektieren detektieren. Oft werden nur wenige Individuen einer Population vollstĂ€ndig sequenziert und die Genotypen der anderen Individuen, die mit einem SNP-Array an einer Teilmenge dieser SNPs typisiert wurden, imputet. In Kapitel 2 wurden deshalb anhand von 50 vollstĂ€ndig sequenzierten Weiß- und Braunleger-Individuen die mit drei unterschiedlichen Variant-Calling-Programmen (GATK, freebayes and SAMtools) detektierten Genomvarianten verglichen und die QualitĂ€t der Genotypen ĂŒberprĂŒft. Auf den untersuchten Chromosomen 3,6 und 26 wurden 1.741.573 SNPs von allen drei Variant Callers detektiert was 71,6% (81,6%, 88,0%) der Anzahl der von GATK (SAMtools, freebayes) detektierten Varianten entspricht. Die KenngrĂ¶ĂŸe der Konkordanz der Genotypen („genotype concordance“), die durch den Anteil der Individuen definiert ist, deren Array-basierte Genotypen mit den Sequenz-basierten Genotypen an allen auch auf dem Array vorhandenen SNPs ĂŒbereinstimmt, betrug 0,98 mit GATK, 0,98 mit SAMtools und 0,97 mit freebayes (Werte gemittelt ĂŒber SNPs auf den untersuchten Chromosomen). Des Weiteren wiesen bei Nutzung von GATK (SAMtools, freebayes) 90% (88 %, 75%) der Varianten hohe Werte (>0.9) anderer QualitĂ€tsmaße (non-reference sensitivity, non-reference genotype concordance und precision) auf. Die Leistung aller untersuchten Variant-Calling-Programme war im Allgemeinen sehr gut, besonders die von GATK und SAMtools. In dieser Studie wurde außerdem in einem Datensatz von ungefĂ€hr 1000 Individuen aus 6 Generationen die GĂŒte des Imputings von einem hochdichten SNP-Array zum Sequenzlevel untersucht. Die GĂŒte des Imputings wurde mit Hilfe der Korrelationen zwischen imputeten und wahren Genotypen pro SNP oder pro Individuum und der Anzahl an Mendelschen Konflikten bei Vater-Nachkommen-Paaren beschrieben. Drei unterschiedliche Imputing-Programme (Minimac, FImpute und IMPUTE2) wurden in unterschiedlichen Szenarien validiert. Bei allen Imputing-Programmen betrug die Korrelation zwischen wahren und imputeten Genotypen bei 1000 Array-SNPs, die zufĂ€llig ausgewĂ€hlt und deren Genotypen im Imputing-Prozess als unbekannt angenommen wurden, durchschnittlich mehr als 0.95 sowie mehr als 0.85 bei einer Leave-One-Out-Kreuzvalidierung, die mit den sequenzierten Individuen durchgefĂŒhrt wurde. Hinsichtlich der Genotypenkorrelation zeigten Minimac und IMPUTE2 etwas bessere Ergebnisse als FImpute. Dies galt besonders fĂŒr SNPs mit niedriger Frequenz des selteneren Allels. FImpute wies jedoch die kleinste Anzahl von Mendelschen Konflikten in verfĂŒgbaren Vater-Nachkommen-Paaren auf. Die Korrelation zwischen wahren und imputeten Genotypen blieb auf hohem Niveau, auch wenn die Individuen, deren Genotypen imputet wurden, einige Generationen jĂŒnger waren als die sequenzierten Individuen. Zusammenfassend zeigte in dieser Studie GATK die beste Leistung unter den getesteten Variant-Calling-Programmen, wĂ€hrend Minimac sich unter den untersuchten Imputing-Programmen als das beste erwies. Aufbauend auf den Ergebnissen aus Kapitel 2 wurden in Kapitel 3 Studien zur genomischen Vorhersage mit imputeten Sequenzdaten durchgefĂŒhrt. Daten von 892 Individuen aus 6 Generationen einer kommerziellen Braunlegerlinie standen hierfĂŒr zur VerfĂŒgung. Diese Tiere waren alle mit einem hochdichten SNP-Array genotypisiert. Unter der Nutzung der Daten von 25 vollstĂ€ndig sequenzierten Individuen wurden jene Tiere ausgehend von den Array-Genotypen bis zum Sequenzlevel hin imputet. Das Imputing wurde mit Minimac3 durchgefĂŒhrt, das bereits haplotypisierte Daten (in dieser Studie mit Beagle4 erzeugt) als Input benötigt. Die Genauigkeit der genomischen Vorhersage wurde durch die Korrelation zwischen de-regressierten konventionellen Zuchtwerten und direkt genomischen Zuchtwerten fĂŒr die Merkmale Bruchfestigkeit, Futteraufnahme und Legerate gemessen. Neben dem Vergleich der Genauigkeit der auf SNP-Array-Daten und Sequenzdaten basierenden genomischen Vorhersage wurde in dieser Studie auch untersucht, wie sich die Verwendung verschiedener genomischer Verwandtschaftsmatrizen, die die genetische Architektur berĂŒcksichtigen, auf die Vorhersagegenauigkeit auswirkt. Hierbei wurden neben dem Basisszenario mit gleichgewichteten SNPs auch Szenarien mit Gewichtungsfaktoren, nĂ€mlich den -(〖log〗_10 P)-Werten eines t-Tests basierend auf einer genomweiten Assoziationsstudie und den quadrierten geschĂ€tzten SNP-Effekten aus einem Random Regression-BLUP-Modell, sowie die Methode BLUP|GA („best linear unbiased prediction given genetic architecture“) ĂŒberprĂŒft. Das Szenario GBLUP mit gleichgewichteten SNPs wurde sowohl mit einer Verwandtschaftsmatrix aus allen verfĂŒgbaren SNPs oder nur derer in Genregionen, jeweils ausgehend von der Grundmenge aller imputeten SNPs in der Sequenz oder der Array-SNPs, getestet. Gemittelt ĂŒber alle untersuchten Merkmale war die Vorhersagegenauigkeit mit SNPs aus Genregionen, die aus den imputeten Sequenzdaten extrahiert wurden, mit 0,366 ± 0,075 am höchsten. Den zweithöchsten Wert erreichte die genomische Vorhersage mit SNPs aus Genregionen, die im SNP-Array erhalten sind (0,361 ± 0,072). Weder die Verwendung gewichteter genomischer Verwandtschaftsmatrizen noch die Anwendung von BLUP|GA fĂŒhrten im Vergleich zum normalen GBLUP-Ansatz zu höheren Vorhersagegenauigkeiten. Diese Beobachtung war unabhĂ€ngig davon, ob SNP-Array- oder imputete Sequenzdaten verwendet wurden. Die Ergebnisse dieser Studie zeigten, dass kaum oder kein Zusatznutzen durch die Verwendung von imputeten Sequenzdaten generiert werden kann. Eine Erhöhung der Vorhersagegenauigkeit konnte jedoch erreicht werden, wenn die Verwandschaftsmatrix nur aus den SNPs in Genregionen gebildet wurde, die aus den Sequenzdaten extrahiert wurden. Die Auswahl der Selektionskandidaten erfolgt in genomischen Selektionsprogrammen mit Hilfe der geschĂ€tzten genomischen Zuchtwerte (GBVs). Die Genauigkeit des GBV ist hierbei ein relevanter Parameter, weil sie die StabilitĂ€t der geschĂ€tzten Zuchtwerte beschreibt und zeigen kann, wie sich der GBV verĂ€ndern kann, wenn mehr Informationen verfĂŒgbar werden. Des Weiteren ist sie einer der entscheidenden Faktoren beim erwarteten Zuchtfortschritt (auch als so genannte „ZĂŒchtergleichung“ beschrieben). Diese Genauigkeit der genomischen Vorhersage ist jedoch in realen Daten schwer zu quantifizieren, da die wahren Zuchtwerte (TBV) nicht verfĂŒgbar sind. In frĂŒheren Studien wurden mehrere Methoden vorgeschlagen, die es ermöglichen, die Genauigkeit von GBV durch Populations- und Merkmalsparameter (z.B. effektive PopulationsgrĂ¶ĂŸe, Sicherheit der verwendeten Quasi-PhĂ€notypen, Anzahl der unabhĂ€ngigen Chromosomen-Segmente) zu approximieren. Weiterhin kann die Genauigkeit bei Verwendung von gemischten Modellen mit Hilfe der Varianz des Vorhersagefehlers abgeleitet werden. In der Praxis wiesen die meisten dieser AnsĂ€tze eine ÜberschĂ€tzung der Genauigkeit der Vorhersage auf. Deshalb wurden in Kapitel 4 mehrere methodische AnsĂ€tze aus frĂŒheren Arbeiten in simulierten Daten mit unterschiedlichen Parametern, mit Hilfe derer verschiedene Tierzuchtprogramme (neben einem Basisszenario ein Rinder- und ein Schweinezuchtschema) abgebildet wurden, ĂŒberprĂŒft und die Höhe der ÜberschĂ€tzung gemessen. Außerdem wurde in diesem Kapitel eine neue und leicht rechenbare Methode zur Approximation der Genauigkeit vorgestellt Die Ergebnisse des Vergleichs der methodischen AnsĂ€tze in Kapitel 4 zeigten, dass die Genauigkeit der GBV durch den neuen Ansatz besser vorhergesagt werden kann. Der vorgestellte Ansatz besitzt immer noch einen unbekannten Parameter, fĂŒr den jedoch eine Approximation möglich ist, wenn in einem geeigneten Datensatz Ergebnisse von ZuchtwertschĂ€tzungen zu zwei verschiedenen Zeitpunkten vorliegen. Zusammenfassend kann gesagt werden, dass diese neue Methode die Approximation der Genauigkeit des GBV in vielen FĂ€llen verbessert.Genomic prediction has been successfully applied in many livestock breeding schemes, based on different densities of single nucleotide polymorphism (SNP) array data. With the availability of whole-genome sequencing (WGS) data, which may contain the causal mutations, there are a growing number of studies to conducting genomic prediction with WGS data. The main objective of this thesis was to investigate the possibility of imputing SNP array data up to the whole genome sequence level (Chapter 2) and then perform genomic prediction based on the imputed WGS data and SNP array data with different genomic relationship matrices to account for genetic architecture (Chapter 3). To further understand the accuracy of genomic prediction, a simulation study was performed to determine the degree of overestimation of the accuracy of genomic prediction, in order to propose a new method (Chapter 4). The technical progress in the last decade has made it possible to sequence millions of DNA reads in a relatively short time frame. Several variant callers based on different algorithms have emerged and have made it possible to extract SNPs out of the whole-genome sequence. Often, only a few individuals of a population are sequenced completely and imputation is used to obtain genotypes for all sequence-based SNP loci for other individuals that have been genotyped for a subset of SNPs using a genotyping array. Thus, in Chapter 2 we first compared the sets of variants detected with different variant callers, namely GATK, freebayes and SAMtools, and checked the quality of genotypes of the called variants in a set of 50 fully sequenced white and brown layers. There were 1,741,573 SNPs detected by all three callers on the studied chromosomes 3, 6, and 28, which was 71.6% (81.6%, 88.0%) of SNPs detected by GATK (SAMtools, freebayes) in total. Genotype concordance (GC), defined as the proportion of individuals whose array-derived genotypes are the same as the sequence-derived genotypes over all non-missing SNPs on the array, was 0.98 with GATK, 0.98 with SAMtools, and 0.97 with freebayes averaged over all SNPs on the studied chromosomes, respectively. Furthermore, for GATK (SAMtools, freebayes) 90 (88, 75) percent of variants had high values (>0.9) for other quality measures (non-reference sensitivity, non-reference genotype concordance and precision). Performance of all variant callers studied was very good in general, particularly for GATK and SAMtools. Second, we assessed the imputation accuracy (measured as the correlation between imputed and true genotype per SNP and per individual and genotype conflict between father-progeny pairs) when imputing from high density SNP array data to whole-genome sequence using data from approximately 1000 individuals from six generations. Three different imputation programs (Minimac, FImpute and IMPUTE2) were checked in different validation scenarios. Across all imputation programs, correlation between true and imputed genotypes was >0.95 on average with randomly masked 1000 SNPs from the SNP array and >0.85 for a leave-one-out cross-validation within sequenced individuals. FImpute performed slightly worse than Minimac and IMPUTE2 in terms of genotype correlation, especially for SNPs with low minor allele frequency, however, it did have the lowest numbers in Mendelian conflicts in available father-progeny pairs. Correlations of real and imputed genotypes remained constantly high even if individuals to be imputed were several generations away from the sequenced individuals. In conclusion, among three variant callers tested GATK proved the relatively better performance; Minimac proved the relatively better performance comparing to the other two imputation programs tested. Based on the conclusions in Chapter 2, we applied a genomic prediction with imputed WGS in Chapter 3. A commercial brown layer line comprising of 892 chickens from 6 generations was used in the study. These chickens were genotyped with a high density array data. Using the WGS data of 25 individuals, those array data were imputed up to the sequence level. The imputation was done with Minimac3, which needs pre-phased data generated with Beagle4. Accuracy of genomic prediction was measured as the correlation between de-regressed proofs and direct genomic breeding values of eggshell strength, feed intake and laying rate. In this study, besides the accuracy of genomic prediction based on array data and WGS data, accuracy based on different genomic relationship matrices to account for genetic architecture was investigated. The alternative weighting factors used were uniform, -(〖log〗_10 P) from a t-test of genome wide association study, and the square of estimated SNP effects from random regression BLUP. Best linear unbiased prediction given genetic architecture (BLUP|GA) was investigated as well. Prediction with uniform weights (the original GBLUP) was implemented with all SNPs or with only genic SNPs, both based on array and imputed whole sequence data. Averaging over the studied traits, predictive ability with only genic SNPs in WGS data was 0.366 ± 0.075, which was the highest predictive ability observed in the current study. Genomic prediction with genic SNPs in high density array data provided the second highest accuracy (0.361 ± 0.072). The prediction with -(〖log〗_10 P) or squares of SNP effects as weighting factors for building a genomic relationship matrix or BLUP|GA did not lead to higher accuracy, compared to that with uniform weights, regardless of the SNP set used. The results from this study showed that little or no benefit was gained when using all imputed WGS data to perform genomic prediction compared to using HD array data, regardless of the different SNP weightings tested. However, higher predictive ability was observed when using only genic SNPs extracted from the WGS data for genomic prediction. Decisions of genomic selection schemes are made based on the genomic breeding values (GBV) of selection candidates. Thus, the accuracy of GBV is a relevant parameter, as it reflects the stability of the prediction and the possibility that the GBV might change when more information becomes available. It is also one of the key factors in expected response to selection, which is also known as breeders’ equation. Accuracy of genomic prediction, however, is difficult to assess, considering true breeding values (TBV) of the candidates are not available in reality. In previous studies, several methods are proposed to assess the accuracy of GBV by using population and trait parameters (e.g. the effective population size, the reliability of quasi-phenotypes used, the number of independent chromosome segments) or parameters inferred from the mixed model equations. In practice, most approaches were found to overestimate the accuracy of genomic prediction. Thus, in Chapter 4 we tested several approaches used in previous studies based on simulated data under a variety of parameters mimicking different livestock breeding programs (i.e. a cattle-like and a pig-like as well as a basic scenario) and measured the magnitude of overestimation. Then we proposed a novel and computationally feasible method. Based on the comparison in Chapter 4, the new method provided a better prediction for the accuracy of GBV. The method still had one unknown parameter, for which we suggested an approach to approximate its value from a suitable data set reflecting two separate time points. In conclusion, the new approach provided a better assessment of the accuracy of GBVs in many cases

    The genetic architecture of psychiatric disorders

    Get PDF

    An evaluation of machine-learning for predicting phenotype: studies in yeast, rice, and wheat

    Get PDF
    Abstract: In phenotype prediction the physical characteristics of an organism are predicted from knowledge of its genotype and environment. Such studies, often called genome-wide association studies, are of the highest societal importance, as they are of central importance to medicine, crop-breeding, etc. We investigated three phenotype prediction problems: one simple and clean (yeast), and the other two complex and real-world (rice and wheat). We compared standard machine learning methods; elastic net, ridge regression, lasso regression, random forest, gradient boosting machines (GBM), and support vector machines (SVM), with two state-of-the-art classical statistical genetics methods; genomic BLUP and a two-step sequential method based on linear regression. Additionally, using the clean yeast data, we investigated how performance varied with the complexity of the biological mechanism, the amount of observational noise, the number of examples, the amount of missing data, and the use of different data representations. We found that for almost all the phenotypes considered, standard machine learning methods outperformed the methods from classical statistical genetics. On the yeast problem, the most successful method was GBM, followed by lasso regression, and the two statistical genetics methods; with greater mechanistic complexity GBM was best, while in simpler cases lasso was superior. In the wheat and rice studies the best two methods were SVM and BLUP. The most robust method in the presence of noise, missing data, etc. was random forests. The classical statistical genetics method of genomic BLUP was found to perform well on problems where there was population structure. This suggests that standard machine learning methods need to be refined to include population structure information when this is present. We conclude that the application of machine learning methods to phenotype prediction problems holds great promise, but that determining which methods is likely to perform well on any given problem is elusive and non-trivial

    Improving end-use quality in hard winter wheat through glutenin allele combinations and genomic selection

    Get PDF
    2014 Fall.Wheat (Triticum aestivum L.) has unique properties that allow for a variety of end products, such as pan bread, steamed bread, cookies, cakes, and tortillas. Most wheat-breeding programs focus on increasing yield and yield-related traits as primary objectives. However, end-use quality is also crucial as quality characteristics influence grain sale price and market success of a variety. Large-effect quantitative trait loci (QTL) have been identified for quality related traits. The Glu-1 loci encoding high molecular weight glutenin subunits (HMWGS) have a major effect on dough mixing properties. However, many quality traits are too complex to be controlled by only a small number of loci. These traits may benefit from genomic selection (GS), which utilizes all effective loci regardless of effect size. Genomic selection can accelerate genetic progress especially for traits that are costly or time consuming to phenotype, like quality-related traits. This research focused on the genetic improvement of end-use quality in hard winter wheat by targeting specific loci with known effects or by using all loci in a GS approach. The objectives of this study were to: i) evaluate agronomic and quality effects associated with different combinations of HMW-GS at the Glu-B1 and Glu-D1 loci among a set of near isogenic lines (NILs); ii) use a genome-wide association approach to identify QTL and develop predictive models for pre-harvest sprouting tolerance (PHST) and iii) assess GS models for milling and baking traits in hard winter wheat lines representative of west-central U.S. Great Plains germplasm. A set of NILs that varied for alleles at the Glu-B1 and Glu-D1 loci were evaluated for dough mixing properties, kernel characteristics, and agronomic effects. Results confirmed the Bx7OE + By8 HMW-GS (Glu-B1a1 allele) at Glu-B1 contributed to greater dough strength compared to the common Bx7 + By8 HMW-GS (Glu-B1b allele); however, the effect was not as significant as that conferred by Dx5 + Dy10 subunits (Glu-D1d allele). Near isogenic lines with the combination of both favorable alleles at Glu-B1 and Glu-D1 had the largest mixograph mixing time. However, a decrease in yield was observed for groups containing the Bx7OE + By8 subunits. These results suggest glutenin allele combinations are useful for improving bread-making characteristics in winter wheat but some combinations may be associated with negative effects on yield. Pre-harvest sprouting (PHS) is a major problem in wheat that results in decreased yield and quality. Genomic selection was evaluated as a potential breeding method for PHST given the complex inheritance and phenotyping difficulty of this trait. In this study, genotyping-by-sequencing (GBS) markers were used to identify QTL associated with PHST among a panel of hard red and white winter wheat lines. Genomic selection models were developed with the GBS data and phenotype data collected across seven growing seasons. The effect of including identified QTL and kernel color as fixed effects in the model was assessed, as kernel color has been generally associated with sprouting tolerance. Optimum marker number was also determined as accuracy can vary with different numbers of markers. Results showed model accuracy did not improve with kernel color information but weighting major QTL increased predictive performance. Optimum marker number was 4,000 with no improvement in accuracy above this threshold. Overall, model accuracies were promising and confirmed wheat breeding programs would benefit from incorporating GS models for PHST. Lastly, the accuracy of GS models for 11 end-use quality traits in a panel of hard red and white winter wheat breeding lines phenotyped across multiple years and locations was assessed. Trait heritability, marker number, and marker imputation method were evaluated for their effect on model accuracy. Traits measured included flour yield, single kernel characteristics, protein concentration, mixograph mixing time and tolerance, bake absorption, bake mixing time, crumb grain score, and loaf volume. Genotyping-by-sequencing marker data varied for marker density and imputation method used for missing data. Across traits, model accuracies ranged from 0.30 to 0.63 and trait heritability ranged from 0.03 to 0.61. Imputation method and marker density had little to no effect on model accuracy. Heritability appeared to have the greatest effect on accuracy as GS models for traits with higher heritability had higher accuracies. Additionally, GS models for moderate to high heritability traits performed better than expected when predicting a set of genotypes separate from the training panel. Results showed model accuracies for end-use quality traits were sufficient for increasing genetic gain in a wheat breeding program. In summary, genetic improvement in end-use quality can be made by utilizing both large effect and small effect loci in the wheat genome for such traits and will reduce phenotyping costs while increasing efficiency in a breeding program. In many winter wheat breeding programs, particularly those at higher latitudes, phenotypic quality evaluations from one season cannot be used for planting decisions of the next season due to the short turn-around time from harvest to planting. Genomic selection potentially solves this problem as selection decisions based on genotypic data can be implemented before the next season of planting. Thus, results from this study support the implementation of GS to reduce phenotyping costs and increase the rate of genetic gain for end-use quality in wheat

    Prediction of hybrid performance in maize using molecular markers

    Get PDF
    Maize breeders develop a large number of inbred lines in each breeding cycle, but, owing to resource constraints, evaluate only a small proportion of all possible crosses among these lines in field trials. Therefore, predicting the performance of hybrids by utilising the data available from related crosses to identify untested but promising hybrids is extremely important. The objectives of this thesis research were to develop and evaluate methods for marker-based prediction of hybrid performance (HP) in unbalanced data as typically generated in commercial maize hybrid breeding programs. For HP prediction, a promising approach uses the sum of effects across quantitative trait loci (QTL) as predictor. However, comparison of this approach with established prediction methods based on general combining ability (GCA) was lacking. In addition, prediction of specific combining ability (SCA) is also possible with this approach, but was so far not used for HP prediction. The objectives of the first study in this thesis were to identify QTL for grain yield and grain dry matter content, combine GCA with marker-based SCA estimates for HP prediction, and compare marker-based prediction with established methods. Hybrids from four Dent × Flint factorial mating experiments were evaluated in field trials and their parental inbreds were genotyped with amplified fragment length polymorphism (AFLP) markers. Efficiency for prediction of hybrids, of which both parents were testcross evaluated (Type 2), was assessed by leave-one-out cross-validation. The established GCA-based method predicted HP better than the approach exclusively based on markers. However, with greater relevance of SCA, combining GCA with marker-based SCA estimates was superior compared with HP prediction based on GCA only. Linkage disequilibrium between markers was expected to reduce the prediction efficiency due to inflated QTL effects and reduced power. Thus, in the second study, multiple linear regression (MLR) with forward selection was employed for HP prediction. In addition, adjacent markers in strong linkage disequilibrium were combined into haplotype blocks. An approach based on total effects of associated markers (TEAM) was developed for multi-allelic haplotype blocks. Genome scans to search for significant QTL involve multiple testing of many markers, which increases the rate of false-positive associations. Thus, the TEAM approach was enhanced by controlling the false discovery rate. Considerable loss of marker information can be caused by few missing observations, if the prediction method depends on complete marker data. Therefore, the TEAM approach was improved to cope with missing marker observations. Modification of the cross-validation procedure reflected, that often only a subset of parental lines is crossed with all lines from the opposite heterotic group in a factorial mating design. The prediction approaches were evaluated with the same field data as in the previous study. The results suggested that with haplotype blocks instead of original marker data, similar or higher efficiencies for HP prediction can be achieved. Marker-based HP prediction of inter-group crosses between lines, which were marker genotyped but not testcross evaluated, was not investigated hitherto. Heterosis, which considerably contributes to maize grain yield, was so far not incorporated into marker-based HP prediction. Combined analyses of field trials from multiple experiments of a breeding program provide valuable data for HP prediction. With a mixed linear model analysis of such unbalanced data from nine factorial mating experiments, best linear unbiased prediction (BLUP) values for HP, GCA, SCA, line per se performance, and heterosis of 400 hybrids were obtained in the third study. The prediction efficiency was assessed in cross-validation for prediction of hybrids, of which none (Type 0) or one (Type 1) parental inbred was testcross evaluated. An extension of the established HP prediction method based on BLUP of GCA and SCA, but not using marker data, resulted in prediction efficiency intermediate for Type 1 and very low for Type 0 hybrids. Combining line per se with marker-based heterosis estimates (TEAM-LM) mostly resulted in the highest prediction efficiencies of grain yield and grain dry matter content for both Type 0 and Type 1 hybrids. For the heterotic trait grain yield, the highest prediction efficiencies were generally obtained with marker-based TEAM approaches. In conclusion, this thesis research provided methods for the marker-based prediction of HP. The experimental results suggested that marker-based HP prediction is an efficient tool which supports the selection of superior hybrids and has great potential to accelerate commercial hybrid breeding programs in a very cost-effective manner. The significance of marker-based HP prediction is further enhanced by recent advances in production of doubled haploid lines and high-throughput technologies for rapid and inexpensive marker assays.In kommerziellen MaiszĂŒchtungsprogrammen werden zur Entwicklung von ertragreichen Hybridsorten sehr viele Inzuchtlinien erzeugt. Aus der Vielzahl möglicher Kreuzungen kann jedoch in Feldversuchen nur ein geringer Teil auf Ertragsleistung hin geprĂŒft werden. Die Vorhersage der Hybridleistung (HL) durch die Nutzung von PrĂŒfergebnissen verwandter Kreuzungen ermöglicht das Auffinden aussichtsreicher, aber bislang ungeprĂŒfter Hybriden. Ziel dieser Forschungsarbeit ist die Entwicklung von Methoden zur Nutzung molekularer Marker fĂŒr die Vorhersage der HL auf der Grundlage unbalancierter Daten aus kommerziellen MaiszĂŒchtungsprogrammen. Ein Erfolg versprechender Ansatz zur Vorhersage der HL nutzt die Summe der Markereffekte von Genloci eines quantitativen Merkmals (quantitative trait loci, QTL); ein Vergleich mit gĂ€ngigen Vorhersagemethoden, die auf allgemeiner Kombinationseignung (general combining ability, GCA) basieren, fehlt jedoch. Auch eine Vorhersage der spezifischen Kombinationseignung (specific combining ability, SCA) ist mit diesem Ansatz möglich, wurde bislang jedoch nicht fĂŒr die Vorhersage der HL genutzt. Ziele der ersten Studie waren die Identifikation von QTL fĂŒr Kornertrag und Korntrockenmassegehalt, die Kombination von GCA mit marker-basierten SCA-SchĂ€tzwerten zur HL-Vorhersage und ein Vergleich der marker-basierten Vorhersage mit gĂ€ngigen Methoden. Hybriden aus vier faktoriellen Dent × Flint Kreuzungsexperimenten wurden in Feldversuchen geprĂŒft und ihre Elternlinien mit molekularen Markern genotypisiert. Durch Kreuzvalidierung mit Einzelwerten wurde die GĂŒte der Vorhersage fĂŒr Hybriden untersucht, bei denen beide Eltern bereits in Testkreuzungen geprĂŒft worden waren (Typ 2). Dabei wurde mit der gĂ€ngigen GCA-basierten Methode eine bessere Vorhersage der HL erreicht als mit ausschließlich marker-basierten Methoden. Bei grĂ¶ĂŸerer Bedeutung der SCA war die Kombination von GCA mit marker-basierter SCA jedoch dem einfachen GCA-basierten Ansatz ĂŒberlegen. Gametenphasenungleichgewicht zwischen Markern kann zur Minderung der VorhersagegĂŒte fĂŒhren. Daher wurde in der zweiten Studie eine multiple lineare Regression (MLR) fĂŒr die HL-Vorhersage genutzt. DarĂŒber hinaus wurden benachbarte Markerloci mit starkem Gametenphasenungleichgewicht zu Haploblöcken zusammengefasst. Ein Ansatz zur HL-Vorhersage auf der Grundlage der Gesamteffekte assoziierter Marker (total effects of associated markers, TEAM) wurde fĂŒr multiallelische Haploblockdaten entwickelt. Die genomweite Suche nach signifikanten QTL bedingt ein multiples Testen vieler Markerloci und erhöht das Risiko falsch-positiver PrĂŒfergebnisse. Daher wurde fĂŒr den TEAM-Ansatz die Einhaltung der sog. ?false discovery rate? berĂŒcksichtigt. Ein betrĂ€chtlicher Informationsverlust wird durch das Fehlen weniger Markerdatenpunkte verursacht, wenn die Vorhersagemethode vollstĂ€ndige Daten erfordert. Der TEAM-Ansatz wurde deshalb so weiterentwickelt, dass auch Marker mit fehlenden Werten nutzbar sind. In der Kreuzvalidierung wurde berĂŒcksichtigt, dass innerhalb faktorieller Kreuzungsschemata hĂ€ufig nur ein Teil der Linien einer heterotischen Gruppe mit allen Linien der anderen Gruppe gekreuzt werden. Die GĂŒte der Vorhersagemethoden wurde mit denselben Daten wie in der vorherigen Studie geprĂŒft. Die Ergebnisse zeigten, dass mit Haploblockdaten anstelle der ursprĂŒnglichen Markerdaten eine Ă€hnliche oder höhere VorhersagegĂŒte fĂŒr HL erzielt werden kann. Die marker-basierte Leistungsvorhersage von Kreuzungen zwischen Linien, die zwar mit Markern genotypisiert, nicht aber in Testkreuzungen geprĂŒft wurden, war noch nicht erforscht. Ebenso wurde Heterosis, die wesentlich zum Kornertrag von Maishybriden beitrĂ€gt, bislang bei der marker-basierten HL-Vorhersage nicht berĂŒcksichtigt. Mit einem gemischten linearen Modell wurden in der dritten Studie unbalancierte Daten aus neun faktoriellen Kreuzungsexperimenten zur Ermittlung von ?best linear unbiased prediction? (BLUP) Werten fĂŒr HL, GCA, SCA, Linieneigenleistung und Heterosis von 400 Hybriden analysiert. Durch Kreuzvalidierung wurde die VorhersagegĂŒte fĂŒr Kreuzungen zweier Linien untersucht, wovon keine (Typ 0) oder nur eine (Typ 1) in Testkreuzungen geprĂŒft worden war. Die gĂ€ngige Vorhersagemethode, basierend auf BLUP Werten fĂŒr GCA und SCA, erzielte fĂŒr Typ 1 Hybriden eine mittlere und fĂŒr Typ 0-Hybriden eine sehr geringe VorhersagegĂŒte. Die Kombination von Linieneigenleistung mit marker-basierter Heterosis (TEAM-LM) erreichte meist die höchste VorhersagegĂŒte fĂŒr Kornertrag und Korntrockenmassegehalt sowohl fĂŒr Typ 1- als auch Typ 0-Hybriden. FĂŒr Kornertrag wurde mit den marker-basierten TEAM AnsĂ€tzen generell die höchste VorhersagegĂŒte erzielt. In der vorliegenden Arbeit wurden Methoden zur marker-basierten Vorhersage der HL entwickelt und bewertet. Nach diesen Ergebnissen ist die marker-basierte Vorhersage der HL ein effizientes Werkzeug zur Selektion ĂŒberlegener Hybriden und ermöglicht die Beschleunigung kommerzieller Hybridzuchtprogramme in sehr kosteneffizienter Weise. Insbesondere haben Fortschritte bei (1) der Herstellung von doppelhaploiden Linien und (2) der schnellen und kostengĂŒnstigen Markeranalyse mittels Hochdurchsatztechnologien die Voraussetzungen geschaffen, um die in dieser Studie als aussichtsreich eingestuften Vorhersageverfahren kĂŒnftig erfolgreich in praktischen MaiszĂŒchtungsprogrammen einzusetzen

    Accuracy of Genomic Prediction in Dairy Cattle

    Get PDF
    Die genomische ZuchtwertschĂ€tzung ist vor allem im Bereich der Milchrinderzucht in den letzten Jahren zu einer beliebten Methode geworden, um sichere Zuchtwerte von Tieren ohne phĂ€notypische Information zu erhalten. Das Ziel dieser Arbeit war es, verschiedene Einflussfaktoren auf die Genauigkeit der genomischen ZuchtwertschĂ€tzung in realen RinderdatensĂ€tzen genauer zu untersuchen. In Kapitel 2 findet sich eine grundlegende Arbeit zur Kreuzvalidierung, in der die Eigenschaften verschiedener Kreuzvalidierungsstrategien in realen DatensĂ€tzen untersucht wurden. Kreuzvalidierung bedeutet, dass die verfĂŒgbaren Daten in eine Trainings- und eine Validierungsstichprobe aufgeteilt werden, wobei fĂŒr die Individuen in der Validierungsstichprobe alle Beobachtungswerte als nicht vorhanden angenommen werden. Die Werte der Individuen in der Validierungsstichprobe werden dann mit einem Modell, das mit Hilfe der Beobachtungswerte der Individuen in der Trainingsstichprobe angepasst wird, vorhergesagt. Im Kontext der genomischen ZuchtwertschĂ€tzung werden Kreuzvalidierungsstrategien benutzt, um die Genauigkeit der genomischen ZuchtwertschĂ€tzung mit einer bestimmten Trainingspopulation abzubilden. Die Korrelation zwischen maskierten und vorhergesagten Werten der Tiere in der Validierungsstichprobe spiegelt die Genauigkeit der genomischen ZuchtwertschĂ€tzung wider. Die Art und Weise, wie der Datensatz in Trainings- und Validierungsstichprobe unterteilt wird, kann die Ergebnisse einer Kreuzvalidierung beeinflussen. Das Ziel dieser Studie war es deshalb, optimale Strategien fĂŒr unterschiedliche Zwecke – Beschreibung der Genauigkeit der genomischen Vorhersage fĂŒr mögliche Selektionskandidaten mit dem vorhandenen Datensatz oder Vergleich von zwei Methoden zur Vorhersage – zu finden. Ein Datensatz von etwa 2‘300 Holstein Friesian-Bullen, die mit dem Illumina BovineSNP50 BeadChip (im Folgenden 50K Chip genannt) typisiert waren, wurde unterschiedlich aufgeteilt, so dass sich zwischen 800 bis 2‘200 Tiere in der Trainingsstichprobe und die jeweils restlichen Tiere in der Validierungsstichprobe befanden. Zwei BLUP-Modelle, eines mit einem zufĂ€lligen genomischen Effekt und eines mit einem zufĂ€lligen polygenen und einem zufĂ€lligen genomischen Effekt, wurden zur Vorhersage verwendet. Die höchste Genauigkeit der Vorhersage konnte mit der grĂ¶ĂŸten Trainingsstichprobe erreicht werden. Eine große Trainingsstichprobe bei gegebenem limitierten Datenmaterial impliziert aber auch, dass gleichzeitig die Validierungsstichproben klein und damit die Standardfehler der beobachteten Genauigkeiten sehr hoch sind. Falls es das Ziel einer Studie ist, signifikante Unterschiede zwischen Modellen nachzuweisen, ist es besser grĂ¶ĂŸere Validierungsstichproben zu verwenden. Eine fĂŒnffache Kreuzvalidierung scheint in vielen FĂ€llen ein guter Kompromiss zu sein. Die Verwandtschaftsstruktur zwischen den Tieren in der Trainings- und der Validierungsstichprobe hat einen großen Effekt auf die Genauigkeit der genomischen ZuchtwertschĂ€tzung. Momentan sind noch genĂŒgend nachkommengeprĂŒfte Bullen in den Trainingsstichproben vorhanden, mit denen die Tiere in der Validierungsstichprobe hoch verwandt sind. Wenn die genomische Selektion konsequent angewendet wird, ist es möglich, dass solche Individuen fĂŒr die Trainingsstichprobe knapper werden. Deshalb enthĂ€lt Kapitel 3 eine Studie, die untersucht, wie sich die Verwandtschafts- und Altersstruktur auf die Genauigkeit der genomischen Zuchtwerte von jungen Bullen auswirkt. Ein Datensatz mit 5‘698 Bullen der Rasse Holstein Friesian, die alle mit dem 50K Chip typisiert wurden und zwischen 1981 und 2005 geboren wurden, war die Basis dieser Arbeit. In allen Szenarien wurden die 500 jĂŒngsten Bullen dieses Datensatzes als Validierungsstichprobe verwendet. Verschiedene Trainingsstichproben mit je 1‘500 Individuen wurden ausgewĂ€hlt, um die genomischen Zuchtwerte der jungen Tiere (Selektionskandidaten) vorherzusagen: eine zufĂ€llige Auswahl an Bullen, die Ă€ltesten und jĂŒngsten verfĂŒgbaren Tiere, Tiere mit Verwandtschaftskoeffizienten kleiner 0.25 oder 0.5 zu allen Selektionskandidaten, oder Tiere, die am stĂ€rksten mit den Selektionskandidaten verwandt waren. Verglichen mit dem Szenario mit der zufĂ€lligen Auswahl fĂŒhrte eine Verringerung der Verwandtschaft zu einer sichtbaren Abnahme der Genauigkeit der genomischen Vorhersage. Die Genauigkeit fĂŒr die Szenarien mit den hoch verwandten Tieren bzw. den jĂŒngsten Tieren in der Trainingsstichprobe war hingegen höher. FĂŒr die praktische Anwendung bedeutet dies, dass in stark verwandten Gruppen wie Elitebullen der Rasse Holstein Friesian keine weiteren Probleme fĂŒr die Vorhersage junger Tiere zu erwarten sind, solange VĂ€ter, Voll- und Halbgeschwister in der Trainingsstichprobe vorhanden sind. Neue nachkommengeprĂŒfte Bullen sollten deshalb kontinuierlich zur Trainingsstichprobe hinzugefĂŒgt werden – sonst wird eine klare Abnahme der Genauigkeit schon nach ein oder zwei Generationen zu sehen sein. Kapitel 4 beschĂ€ftigt sich mit zwei weiteren Faktoren, die die Genauigkeit der genomischen Vorhersage beeinflussen können: Markerdichte und Methodenwahl. Bis jetzt wurden normalerweise 50K SNPs fĂŒr die genomische ZuchtwertschĂ€tzung verwendet, aber seit Kurzem ist auch ein neues hochdichtes SNP-Array mit 777K SNPs verfĂŒgbar. Dies lĂ€sst die Frage aufkommen, ob die höhere Markerdichte zu einem Anstieg in der Genauigkeit fĂŒhren kann. Je mehr Marker verfĂŒgbar sind, umso grĂ¶ĂŸer wird auch die Notwendigkeit, Methoden zu entwickeln, die einen Teil der Marker als nicht informativ (d.h. ohne Effekt auf das untersuchte Merkmal) zulassen. Deshalb wurde eine neue und effiziente Bayes’sche Methode (BayesR) entwickelt, die annimmt, dass die SNP Effekte aus einer Reihe von Normalverteilungen stammen, die unterschiedliche Varianzen haben. Die Anzahl der SNPs pro Verteilung wird nicht festgesetzt, sondern mit Hilfe einer Dirichlet-Verteilung modelliert. In Kapitel 4 wird außerdem auf die Frage eingegangen, wie sich die Genauigkeit der Vorhersage im Fall von Trainingsstichproben mit mehreren Rassen bei unterschiedlicher Markerdichte verhĂ€lt. Bei Milchrinderrassen sind große Trainingsstichproben erforderlich, um robuste SchĂ€tzer der SNP-Effekte zu erhalten, aber gerade bei kleinen Rassen kann es schwierig sein, solch große Trainingsstichproben aufzubauen. Trainingsstichproben, die Tiere mehrerer Rassen enthalten, können deshalb eine Möglichkeit sein, dieses Problem zu umgehen. Mit 50K SNPs war der Erfolg solcher Mehrrassen-Trainingsstichproben gering, was darauf zurĂŒckgefĂŒhrt wurde, dass die Haplotypenstruktur ĂŒber die Rassen hinweg bei dieser Markerdichte nicht konsistent war. Der hochdichte SNP-Chip könnte hier allerdings Verbesserungen fĂŒr die Vorhersage ĂŒber Rassen hinweg bringen. Die VerĂ€nderungen in der Genauigkeit der genomischen ZuchtwertschĂ€tzung innerhalb einer Rasse und ĂŒber Rassen hinweg wurden mit Daten von australischen Bullen der Rassen Holstein Friesian und Jersey, die mit dem 50K Chip typisiert und auf 777K SNPs imputet waren, und zwei verschiedenen Methoden (GBLUP, BayesR) untersucht. Die Verwendung von imputeten hochdichten Markern fĂŒhrte zu keinem signifikanten Anstieg der Genauigkeit innerhalb einer Rasse und nur zu einer geringen Verbesserung der Genauigkeit in der kleineren Rasse im Mehrrassen-Szenario. BayesR lieferte gleichwertige oder in vielen FĂ€llen höhere Genauigkeiten als GBLUP. Eine Eigenschaft von BayesR ist außerdem, dass es möglich ist, aus den Ergebnissen Erkenntnisse zur genetischen Architektur des Merkmals zu erhalten, z.B. indem man die durchschnittliche Anzahl an SNPs in den verschiedenen Verteilungen betrachtet. Die Genauigkeit der genomischen ZuchtwertschĂ€tzung kann mit verschiedenen Validierungsprozeduren berechnet werden, sobald reale Daten vorhanden sind. In manchen Situationen kann es jedoch von Vorteil sein, wenn man die erwartete Genauigkeit der Vorhersage im Vorfeld einer Studie abschĂ€tzen kann, z.B. um zu wissen, welche GrĂ¶ĂŸe die Trainingsstichprobe haben sollte oder wie hoch die Markerdichte sein sollten, um eine bestimmte Genauigkeit zu erreichen. Verschiedene deterministische Formeln zur AbschĂ€tzung der erreichbaren Genauigkeit sind in der Literatur verfĂŒgbar, die alle auf den mehr oder weniger gleichen Parametern beruhen. Einer dieser Parameter ist die Anzahl unabhĂ€ngig segregierender Chromosomensegmente (Me), die normalerweise mit Hilfe von theoretischen Werten wie der effektiven PopulationsgrĂ¶ĂŸe (Ne) deterministisch bestimmt wird. In Kapitel 5 wird ein Maximum-Likelihood Ansatz beschrieben, der es ermöglicht, Me basierend auf systematisch angelegten Kreuzvalidierungsexperimenten empirisch zu bestimmen. Darauf aufbauend wurden verschiedene deterministische Funktionen zur Vorhersage der Genauigkeit verglichen und so modifiziert, dass sie am besten zu den vorhandenen DatensĂ€tzen passten. Mit 5‘698 Holstein Friesian-Bullen, die mit dem 50K Chip typisiert waren, und 1‘333 Braunvieh-Bullen, die mit dem 50K Chip typisiert und auf 777K SNPs imputet waren, wurden mit GBLUP verschiedene k-fache Kreuzvalidierungen (k=2, 3, 
, 10, 15, 20) durchgefĂŒhrt. So konnte eine genomische ZuchtwertschĂ€tzung bei unterschiedlichen GrĂ¶ĂŸen der Trainingsstichprobe nachgebildet werden. Weiterhin wurden alle Szenarien mit verschiedenen Subsets der vorhandenen SNPs (10‘000, 20‘000, 30‘000, 42‘551 SNPs fĂŒr Holstein Friesian, und jeder, jeder zweite, jeder 4., 
 jeder 256. SNP fĂŒr Braunvieh) durchgefĂŒhrt, um den Einfluss der Markerdichte erfassen zu können. Der Maximum-Likelihood Ansatz wurde angewendet, um Me fĂŒr die beiden vorhandenen DatensĂ€tze bestmöglich zu schĂ€tzen. Die höchste Likelihood wurde erreicht, wenn eine modifizierte Form der deterministischen Formel von Daetwyler et al. (2010, Genetics 185:1021-1031) fĂŒr die Modellierung der erwarteten Genauigkeit die Grundlage bildete. Die wahrscheinlichsten Werte fĂŒr Me, wenn alle vorhandenen Marker genutzt wurden, waren 1‘241 (412) und 1‘046 (197) fĂŒr die Merkmale Zellzahl und Milchmenge fĂŒr Holstein Friesian (Braunvieh). Die Werte fĂŒr Me fĂŒr Braunvieh und Holstein Friesian unterschieden sich deutlich, wĂ€hrend Ne fĂŒr beide Populationen (berechnet auf Basis des Pedigrees oder ĂŒber die Struktur des Kopplungsungleichgewichts) sehr Ă€hnlich war. Die SchĂ€tzungen fĂŒr Me variierten zwischen verschiedenen Merkmalen innerhalb von Populationen und ĂŒber Populationen mit Ă€hnlichen Populationsstrukturen hinweg. Dies zeigt, dass Me wahrscheinlich kein Parameter ist, der sich nur aus Ne und der LĂ€nge des Genoms berechnen lĂ€sst. Die Modifizierung der Formel von Daetwyler et al. (2010) bestand darin, einen Gewichtungsfaktor hinzuzufĂŒgen, der berĂŒcksichtigt, dass die maximale Genauigkeit bei gegebener Markerdichte auch mit unendlich großer Trainingsstichprobe nicht 1 sein muss. Dies basiert auf der Annahme, dass die vorhandenen SNPs nicht die ganze genetische Varianz wiedergeben können. Auch dieser Gewichtungsfaktor wurde empirisch bestimmt. Die quadrierten Werte, d.h. der Prozentsatz der genetischen Varianz, die erklĂ€rt wird, lagen zwischen 76% und 82% fĂŒr 10‘000 bis 42‘551 SNPs bei Holstein Friesian und zwischen 63% und 75% fĂŒr 2‘451 bis 627‘306 SNPs bei Braunvieh. Zwischen dem natĂŒrlichen Logarithmus der Markerdichte und dem Gewichtungsfaktor bestand ein linearer Zusammenhang bis zu einer populationsspezifischen Grenze hinsichtlich der Markerdichte (~ 20‘000 SNPs bei Braunvieh). Oberhalb dieser Grenze fand sich ein Plateau, was bedeutet, dass das HinzufĂŒgen von weiteren Markern den Anteil der genetischen Varianz, der erklĂ€rt wird, nicht mehr verĂ€ndert
    • 

    corecore