8 research outputs found
Evaluation of alternative statistical methods for genomic selection for quantitative traits in hybrid maize
The efficacy of several contending approaches for Genomic selection (GS) were tested using different simulation and empirical maize breeding datasets. Here, GS is viewed as a general approach, incorporating all the different stages from the phenotypic analysis of the raw data to the marker-based prediction of the breeding values. The overall goal of this study was to develop and comparatively evaluate different approaches for accurately predicting genomic breeding values in GS. In particular, the specific objectives were to:
(1) Develop different approaches for using information from analyses preceding the marker-based prediction of breeding values for GS.
(2) Extend and/or suggest efficient implementations of statistical methods used at the marker-based prediction stage of GS, with a special focus on improving the predictive accuracy of GS in maize breeding.
(3) Compare different approaches to reliably evaluate and compare methods for GS.
An important step in the analyses preceding the marker-based prediction is the phenotypic analysis stage. One way of combining phenotypic analysis and marker-based prediction into a single stage analysis is presented. However, a stagewise analysis is typically computationally more efficient than a single stage analysis. Several different weighting schemes for minimizing information loss in stagewise analyses are therefore proposed and explored. It is demonstrated that orthogonalizing the adjusted means before submitting them to the next stage is the most efficient way within the set of weighting schemes considered. Furthermore, when using stagewise approaches, it may suffice to omit the marker information until the very last stage, if the marker-by-environment interaction has only a minor influence, as was found to be the case for the datasets considered in this thesis. It is also important to ensure that genotypic and phenotypic data for GS are of sufficiently high-quality. This can be achieved by using appropriate field trial designs and carrying out adequate quality controls to detect and eliminate observations deemed to be outlying based on various diagnostic tools. Moreover, it is shown that pre-selection of markers is less likely to be of high practical relevance to GS in most cases. Furthermore, the use of semivariograms to select models with the greatest strength of support in the data for GS is proposed and explored. It is shown that several different theoretical semivariogram models were all well supported by an example dataset and no single model was selected as being clearly the best.
Several methods and extensions of GS methods have been proposed for marker-based prediction in GS. Their predictive accuracies were similar to that of the widely used ridge regression best linear unbiased prediction method (RR-BLUP). It is thus concluded that RR-BLUP, spatial methods, machine learning methods, such as componentwise boosting, and regularized regression methods, such as elastic net and ridge regression, have comparable performance and can therefore all be routinely used for GS for quantitative traits in maize breeding. Accounting for environment-specific or population-specific marker effects had only minor influence on predictive accuracy contrary to findings of several other studies. However, accuracy varied markedly among populations, with some populations showing surprisingly very low levels of accuracy. Combining different populations prior to marker-based prediction improved prediction accuracy compared to doing separate population-specific analyses. Moreover, polygenetic effects can be added to the RR-BLUP model to capture genetic variance not captured by the markers. However, doing so yielded minor improvements, especially for high marker densities. To relax the assumption of homogenous variance of markers, the RR-BLUP method was extended to accommodate heterogeneous marker variances but this had negligible influence on the predictive accuracy of GS for a simulated dataset.
The widely used information-theoretic model selection criterion, namely the Akaike information criterion (AIC), ranked models in terms of their predictive accuracies similar to cross-validation in the majority of cases. But further tests would be required to definitively determine whether the computationally more demanding cross-validation may be substituted with the more efficient model selection criteria, such as AIC, without much loss of accuracy.
Overall, a stagewise analysis, in which the markers are omitted until at the very last stage, is recommended for GS for the tested datasets. The particular method used for marker-based prediction from the set of those currently in use is of minor importance. Hence, the widely used and thoroughly tested RR-BLUP method would seem adequate for GS for most practical purposes, because it is easy to implement using widely available software packages for mixed models and it is computationally efficient.In der vorliegenden Arbeit wurde EffektivitĂ€t verschiedener Methoden der genomweiten Selektion (GS) untersucht. Hierbei wurden sowohl simulierte DatensĂ€tze als auch reale DatensĂ€tze aus der MaiszĂŒchtung verwendet. Die GS wird in dieser Arbeit als ein Verfahren angesehen, welches alle Schritte der GS, von der Analyse der phĂ€notypischen Rohdaten bis zur markerbasierenden Vorhersage der Zuchtwerte, einschlieĂt. Das Ziel der Arbeit ist es, verschiedene Verfahren auf ihre Vorhersagegenauigkeit von genomischen Zuchtwerten zu bewerten. Die folgenden Zielstellungen wurden im Speziellen behandelt.
(1) Entwicklung verschiedener Verfahren zur Einbindung von Informationen, die vor der marker-basierenden Analyse gewonnen werden, in die genomweite Selektion.
(2) Erweiterung und/oder Empfehlung der effizienten Implementierungen von statistischen Methoden zur marker-basierenden Analyse, wobei im Speziellen die Vorhersagegenauigkeit der genomweiten Selektion in der MaiszĂŒchtung verbessert werden soll.
(3) Vergleich verschiedener AnsĂ€tzen zur Beurteilung und zum Vergleich der GĂŒte der Methoden zur genomweiten Selektion.
Ein Weg um die phĂ€notypische Analyse mit der markerbasierenden Analyse in einem einstufigen Verfahren zu kombinieren, wurde gezeigt. Jedoch ist ein schrittweises Vorgehen weniger rechenintensiv, als beide Analysen in einem Schritt zu kombinieren. Deshalb wurden mehrere GewichtungsansĂ€tze fĂŒr die GS vorgeschlagen. Im Vergleich mit anderen GewichtungsansĂ€tzen ist es am effizientesten, die adjustierten Mittelwerte nach jedem Analyseschritt zu orthogonalisieren. Des Weiteren kann es ausreichend sein, bei diesen schrittweisen AnsĂ€tzen die Markerinformation bis zum letzten Schritt zu ignorieren, wenn die Marker-Umweltinteraktion gering ist. Eine hohe QualitĂ€t sowohl der genetischen als auch der phĂ€notypischen Daten wichtig ist. Dieses kann erreicht werden, wenn entsprechende Feldversuchsdesigns und geeignete Diagnosemethoden zur QualitĂ€tskontrolle verwendet werden, um Beobachtungen, die auĂerhalb des erwarten Spektrums liegen, zu entfernen. Die Vorselektion von Markern hingegen war in den meisten FĂ€llen nicht von Relevanz. AuĂerdem wurde die Verwendung von Semivariogrammen vorgeschlagen und untersucht. Es wurde gezeigt, dass die verschiedenen theoretischen Semivariogrammmodelle an die getesteten Daten gut angepasst waren und kein Modell als entscheidend besser zu bewerten war.
Mehrere Methoden und Erweiterungen von genomweiten Selektionsmethoden wurden fĂŒr die markerbasierende Vorhersage vorgeschlagen. Es konnte gezeigt werden, dass RR-BLUP, rĂ€umliche Modelle, ?machine learning? Methoden, wie ?componentwise boosting? und ?regularized regression? Methoden, wie ?elastic net? und ?ridge regression? gleichwertige Vorhersagegenauigkeiten zeigen und gleichberechtigt fĂŒr routinemĂ€Ăig Anwendung fĂŒr die GS fĂŒr quantitative Merkmale in der MaiszĂŒchtung eingesetzt werden können. Erweiterungen mit umweltspezifischen oder populationsspezifischen Markereffekten hatten nur einen geringen Einfluss. Die Genauigkeit der Vorhersage kann sich aber zwischen verschiedenen Populationen stark unterscheiden. Einige Populationen zeigten dabei sehr geringe Vorhersagegenauigkeiten auf. Eine Analyse, in der mehrere Populationen simultan verwendet wurden, verbesserte die Vorhersagegenauigkeit gegenĂŒber einer Analyse in der jede Population einzeln ausgewertet wurde. AuĂerdem kann die Methode RR-BLUP um polygenetische Effekte erweitert werden, um die genetische Varianz, die nicht von den Markern erfasst wird, zu berĂŒcksichtigen. Dieses zeigte aber nur eine geringe Verbesserung insbesondere bei hohen Markerdichten. Es wurde weiterhin eine Erweiterung der RR-BLUP Methode vorgeschlagen, um auf die Annahme einer homogenen Markervarianz verzichten zu können. Hierbei wurden heterogene Markervarianzen im gemischten Modell vorgeschlagen. FĂŒr einen simulierten Datensatz hatte dieses aber nur geringe Auswirkungen.
Das hĂ€ufig verwendete Modellselektionskriterium ?Akaike information criterion? (AIC) zeigte in den meisten FĂ€llen Ă€hnliche Ergebnisse in der Beurteilung der genomweiten Selektionsmethoden wie die standardmĂ€Ăig verwendet Kreuzvalidierung. Es sind aber weitere Tests notwendig, um grundlegend zu klĂ€ren, ob die rechenintensive Kreuzvalidierung mit den effizienteren Modellselektionskriterien, wie zum Beispiel dem AIC, ersetzt werden kann, ohne dass ein Genauigkeitsverlust erfolgt.
Auf Grundlage der analysierten Daten kann in den meisten FĂ€llen eine schrittweise Analyse empfohlen werden, wobei die Marker erst im letzten Schritt berĂŒcksichtigt werden mĂŒssen. Die zu verwendende Methode fĂŒr die markerbasierende Vorhersage ist von geringerer Bedeutung, weshalb in den meisten FĂ€llen die RR-BLUP Methode fĂŒr die genomweite Vorhersage empfohlen werden kann, da diese einfach mit gĂ€ngigen Software zur Analyse gemischter Modelle zu implementieren ist und rechenzeiteffizient ist
A comparison of random forests, boosting and support vector machines for genomic selection
Genomic selection (GS) involves estimating breeding values using molecular markers spanning the entire genome. Accurate prediction of genomic breeding values (GEBVs) presents a central challenge to contemporary plant and animal breeders. The existence of a wide array of marker-based approaches for predicting breeding values makes it essential to evaluate and compare their relative predictive performances to identify approaches able to accurately predict breeding values. We evaluated the predictive accuracy of random forests (RF), stochastic gradient boosting (boosting) and support vector machines (SVMs) for predicting genomic breeding values using dense SNP markers and explored the utility of RF for ranking the predictive importance of markers for pre-screening markers or discovering chromosomal locations of QTLs