5 research outputs found
Redes neurais artificiais comparadas com modelos lineares generalizados sob o enfoque bayesiano para predição de resistência à ferrugem em café arábica
The objective of this work was to evaluate the use of artificial neural networks in comparison with Bayesian generalized linear regression to predict leaf rust resistance in Arabica coffee (Coffea arabica). This study used 245 individuals of a F2 population derived from the self-fertilization of the F1 H511-1 hybrid, resulting from a crossing between the susceptible cultivar Catuaà Amarelo IAC 64 (UFV 2148-57) and the resistant parent HÃbrido de Timor (UFV 443-03). The 245 individuals were genotyped with 137 markers. Artificial neural networks and Bayesian generalized linear regression analyses were performed. The artificial neural networks were able to identify four important markers belonging to linkage groups that have been recently mapped, while the Bayesian generalized model identified only two markers belonging to these groups. Lower prediction error rates (1.60%) were observed for predicting leaf rust resistance in Arabica coffee when artificial neural networks were used instead of Bayesian generalized linear regression (2.4%). The results showed that artificial neural networks are a promising approach for predicting leaf rust resistance in Arabica coffee.O objetivo deste trabalho foi avaliar o uso de redes neurais artificiais em comparação à modelagem por meio de modelos lineares generalizados na predição de resistência à ferrugem em café arábica (Coffea  arabica). Foram utilizados 245 indivÃduos provenientes de uma população F2, oriundos da autofecundação do hÃbrido F1 H511-1, resultante do cruzamento da cultivar suscetÃvel Catuaà Amarelo IAC 64 (UFV 2148-57) e do genitor resistente HÃbrido de Timor (UFV 443-03). Os 245 indivÃduos foram genotipados com 137 marcadores. Realizaram-se análises com redes neurais artificiais e com modelos lineares generalizados sob o enfoque bayesiano. As redes neurais identificaram quatro marcadores importantes pertencentes a grupos de ligação que foram recentemente mapeados, enquanto o modelo generalizado bayesiano identificou somente dois marcadores pertencentes a esses grupos. Foram observadas taxas de erro de predição inferiores (1,60%) para predizer a resistência à ferrugem em café arábica, quando foram utilizadas as redes neurais artificiais em vez de modelos lineares generalizados sob o enfoque bayesiano (2,4%). Os resultados mostraram que as redes neurais artificiais são uma abordagem promissora para predizer a resistência à ferrugem em café arábica
Artificial neural network for genomic prediction of genetics values with espistatics interactions
A identificação de genótipos com desempenho superior é um dos principais objetivos da maioria dos programas de melhoramento de plantas. No entanto, a capacidade de atingir esse objetivo é limitada pelo alto custo da fenotipagem e realização de experimentos. Neste contexto, a Seleção Genômica (SG) foi proposta para estimar o valor genético (VGG) de indivÃduos que ainda não foram fenotipados por meio de informações de marcadores distribuÃdos em todo o genoma. No entanto, a maioria das modelagens da SG expressam o valor fenotÃpico como função apenas do efeito aditivo do valor genotÃpico o que dificulta, muitas vezes, uma representação mais realÃstica da arquitetura genética de caracteres quantitativos, sendo a inclusão de efeitos dominância e interações epistáticas fatores cruciais para aumentar a acurácia da predição. O papel da epistasia na arquitetura genética de caracteres complexos tem sido discutido desde o surgimento da genética quantitativa e, embora seja visto por diferentes perspectivas, o reconhecimento sobre sua importância é crescente. Nas populações, a variância genética total é dividida em componentes de variância aditivo, de dominância e de epistasia, que dependem dos efeitos dos locos e das frequências dos alelos presentes na população. Assim, se a frequência do alelo epistático varia entre as populações, o efeito do gene de interesse pode significativo em uma população, mas não em outra, e o efeito pode até mesmo ser inverso sobre o caráter em ambientes diferenciados. Neste contexto, as Redes Neurais Artificias (RNAs) tornam-se alternativas de análise promissoras por capturar relações não lineares entre os marcadores a partir dos próprios dados, o que a maioria dos modelos comumente utilizados na SG não conseguem. Entretanto, a inclusão de todos os marcadores no genoma no modelo aumenta as chances de existência de alta correlação entre eles e representa um enorme desafio computacional, que acarreta menor precisão no treinamento da RNA, que utilizam boa parte de seus recursos para representar porções irrelevantes do espaço de busca, dificultando o aprendizado. Assim, um modelo mais realÃstico deveria incluir apenas os SNPs (Single Nucletiode polymorphism) ao caráter de interesse. Para minimizar os efeitos da dimensionalidade sobre a modelagem de SG usando RNA foi proposta, no presente trabalho, a utilização de métodos de redução de dimensionalidade do tipo Sonda e Stepwise para fins de seleção de um subconjunto de marcadores que serão utilizados na predição do valor genético. Após a seleção de marcadores, foi avaliada a eficiência do método de seleção genômica RR-BLUP e das redes neurais artificias do tipo de base radial (RNA-REF) e Perceptron de Múltiplas camadas (RNA-MLP) na predição do valor genético em população natural com desequilÃbrio gamético. Para isso, foi simulada uma população Fl oriunda da hibridação de genitores divergentes, com 500 indivÃduos, genotipados com 1000 marcadores do tipo SNP. As caracterÃsticas fenotÃpicas foram determinadas adotando-se três modelos: aditivo, aditivo-dominante e epistático, atendendo duas situações de dominância: parcial e completa com caracteres quantitativos admitindo herdabilidades (hª) de 30 e 60%, controlados cada um por 100 locos, considerando dois alelos por loco, totalizando 12 cenários distintos. Para avaliar a capacidade de predição, o modelo RR-BLUP e RNA- RBF foram treinados utilizando 80% dos indivÃduos da população e procedimento de validação cruzada com cinco repetições. Para tanto foram obtidos o quadrado da correlação entre o valor genômico predito (GEBV) e o valor genotÃpico/fenotÃpico para medir a acurácia seletiva (R2) e a raiz do erro do quadrado médio (REQM), para medir a acurácia preditiva. Os resultados obtidos pela validação genotÃpica no primeiro capitulo mostraram que o uso de redes neurais permite capturar as interações epistáticas levando a uma melhora na predição do valor genético e, principalmente, a grande redução da raiz do erro médio quadrado (REQM), o que indica maior confiabilidade da predição do valor genômico. No entanto, a partir dos resultados obtidos por validação fenotÃpica foi evidente que a acurácia de predição poderia ser melhorada ao introduzir a seleção de marcadores. Consequentemente, no segundo capÃtulo de trabalho, após aplicar os métodos de redução de dimensionalidade, sonda e Stepwise, acurácia de predição aumentou. Por exemplo, para a h2= 0.3 no cenário aditivo, o R2 de validação foi de 59.l% para rede neural (RNA-REF), 57% (RNA-MLP) e 57% para RR-BLUP e, no cenário epistático, os valores de R2 foram de 50%, 47 e 41%, respectivamente. Adicionalmente, ao analisarmos REQM, a diferença entre os desempenhos das técnicas é ainda maior. Para o cenário 1, as estimativas foram de 91 (RR-BLUP) e 5 para ambas as redes neurais e, no cenário mais crÃtico que incluÃa epistasia e dominância, de 427(RR-BLUP) e 20 para as redes neurais. Os resultados obtidos mostram que a utilização de redes neurais permite capturar as interações epistáticas levando a um aumento na acurácia da predição do valor genético e, principalmente, redução do erro quadrático médio, o que indica maior confiabilidade da predição do valor genômico.The identification of elite individual is a critical component of most plant breeding programs. However, the ability to achieve this goal is limited by the high cost of phenotyping and conducting experiments. In this context the genomic selection was proposed to use all marks presents in the genome to estimate the genomic breeding value of individuals (GEBV) without the need to phenotyping. However, most applications of GS includes only the additive portion of the genetic value, and a more realistic representation of the genetic architecture of quantitative traits should have the inclusion of dominance and epistatics interaction. The role of epistasis in the genetic architecture of quantitative traits has been debated since first formulations of quantitative genetic theory, and different perspectives regarding the importance of epistasis arise. In populations, the total genetic variance is partitioned into components that are attributable to additive, dominance and epistatic variance, which depend on allele frequencies. If the allele frequency of the interacting locus varies among populations, the effect of the target locus can be significant in one population but not in another, or can even be of the opposite sign. In this context, Artificial Neural Networks (ANNs) has a great potential because they can capture non-linear relationships between markers from the data themselves, which most of the models commonly used in the GS can not. However, the inclusion of all markers in the prediction model increases the chances of a high correlation between the marks and represents a huge challenge that add less precision and a great computational demand for ANNs training that use a good part of their resources to represent irrelevant portions of the search space and compromising the learning process. Thus, a more realistic model should include only SNPs that are related to the traits of interest. Because of this, it was proposed to use dimensionality reduction methods, applied to the prediction of genetic values, for the purpose of selecting a subset of markers by means of specific procedures such as Sonda or Stepwise regressions. In this way, the objective of this work is to evaluate the efficiency of genome enabled prediction by using RR-BLUP (GS) and artificial neural networks as radial basis function neural network (RBFNN), and Multi-layer Perceptron (RNA-MLP) in the prediction of the genetic value in a natural population with linkage disequilibrium without (chapter 1) and with (chapter 2) the dimensionality reduction. For this, an Fl population from the hybridization of divergent parents with 500 individuals genotyped with l,000 SNP-type markers was simulated. The phenotypic traits were determined by adopting three different gene action models: additive, additive-dominance and epistasis, attending two dominance situations: partial and complete with quantitative traits admitting heritabilities (hz) ranging from 30 to 60%, each is controlled by 50 loci, considering two alleles per loco, totaling 12 different scenarios. To evaluate the predictive ability of RR-BLUP and the neural networks a cross- validation procedure with five replicates were trained using 80% of the individuals of the population. Two dimensionality reduction methods Stepwise and Sonda were used to calculated the square of the correlation between predicted genomic value (GEBV) and genotype/phenotype value was used to measure predictive reliability(R2) and the predictive mean-squared error root (MSER). In the chapter one of this work the results showed that the use of neural networks allows capturing the epistasic interactions leading to an improvement in the accuracy of the prediction of the genetic value and, mainly, a large reduction of the mean square error root (MSER) that indicates greater reliability of the prediction of the genomic value. But from the results using phenotypic validation it was clearly that is possible to make further improvements on the accuracy by introducing the variable selection. Consequently, in the second chapter, after applied the dimensionality reduction methods, the the accuracy increased. For example, for h2 = 0.3 in the additive scenario, the validation R2 was 59% for neural network (RBFNN), 57% (RNA-MLP) and 57% for RR-BLUP, and in the epistemic scenario R2 values were 50%, 47 and 41%, respectively. Additionally, when analyzing the mean-squared error root the difference in performance of the techniques is even greater. For additive scenario, the estimates were 9l (RR-BLUP) and 5 for both neural networks and, in the most critical scenario, 427 (RR-BLUP) and 20 for neural networks. The results show that the use of neural networks allows capturing the epistasis interactions leading to an improvement in the accuracy of the prediction of the genetic value and, mainly, a large reduction of the mean square error root that indicates greater reliability of the prediction of the genomic value.Conselho Nacional de Desenvolvimento CientÃfico e Tecnológic
Artificial neural networks to discriminate backcross populations with different degrees of similarity
A correta classificação de indivÃduos é de extrema importância para fins de preservação da variabilidade genética existente bem como para a maximização dos ganhos. As técnicas de estatÃstica multivariada comumente utilizada nessas situações são as funções discriminantes de Fisher e de Anderson, que permitem alocar um indivÃduo inicialmente desconhecido em uma das g populações prováveis ou grupos pré-definidos. Entretanto, para altos nÃveis de similaridade como é o caso de populações de retrocruzamentos esses métodos tem se mostrado pouco eficientes. Atualmente, muito se fala de um novo paradigma de computação, as redes neurais artificiais, que podem ser utilizadas para resolver diversos problemas da EstatÃstica, como agrupamento de indivÃduos similares, previsão de séries temporais e em especial, os problemas de classificação. O objetivo desse trabalho foi realizar um estudo comparativo entre as funções discriminantes de Fisher e de Anderson e as redes neurais artificiais quanto ao número de classificações incorretas de indivÃduos sabidamente pertencentes a diferentes populações simuladas de retrocruzamento, com crescentes nÃveis de similaridade. A dissimilaridade, medida pela distância de Mahalanobis, foi um conceito de fundamental importância na utilização das técnicas de discriminação, pois quantificou o quanto as populações eram divergentes. A obtenção dos dados foi feita através de simulação utilizando o programa computacional Genes. Cada população, gerada por simulação, foi caracterizada por um conjunto de elementos mensurados por caracterÃsticas de natureza contÃnua. Foram geradas considerados 50 locos independentes, cada qual com dois alelos. As relações de parentescos e a estruturação hierárquica foram estabelecidas considerando populações genitoras geneticamente divergentes, hÃbrido F1 e cinco gerações de retrocruzamento em relação a cada um dos genitores, permitindo estabelecer parâmetros de eficácia das metodologias testadas. Os dados fenotÃpicos das populações foram utilizados para estabelecimento da função discriminante de Fisher e Anderson e para o cálculo da taxa de erro aparente (TEA), que mede o xi número de classificações incorretas. As estimativas de TEA foram comparadas com as obtida por meio das Redes Neurais Artificiais. As redes neurais artificiais mostraram-se uma técnica promissora no que diz respeito a problemas de classificação, uma vez que apresentaram um número de classificações incorretas de indivÃduos menor que os dados obtidos pelas funções discriminantes.The correct classification of individuals has a top importance for the genetic variability preservation as well as to maximize gains. The multivariate statistical techniques commonly used in these situations are the Fisher and Anderson discriminant functions, allowing to allocate an initially unknown individual in a probably g population or predefined groups. However, for higher levels of similarity such as backcross populations these methods has proved to be inefficient. Currently, much has been Said about a new paradigm of computing, artificial neural networks, which can be used to solve many statistical problems as similar subjects grouping, time-series forecasting and in particular, the classification problems. The aim of this study was to conduct a comparative study between the Fisher and Anderson discriminant functions and artificial neural networks through the number of incorrect classifications of individuals known to belong to different simulated backcross with increasing levels of populations similarity. The dissimilarity, measured by Mahalanobis distance, was a concept of fundamental importance in the use of discrimination techniques, due the quantification of how much populations were divergent. Data collection was done through simulation using the software Genes. Each population generated was characterized by a set of elements measured by characteristics of a continuous distribution. The relations of relatives and hierarchical structuring were established considering genetically divergent populations, F1 hybrid and five generations of backcrossing in relation to each of the relatives, establishing measures of effectiveness of the tested methodologies. The phenotypic data of populations were used to establish the Fisher and Anderson discriminant function and the calculation of the apparent error rate (AER), which measures the number of incorrect classifications. The ERA Estimations were compared with those obtained by means of neural networks. The artificial neural network is shown as a promising technique to solve classification problems, once it had a number of incorrect individuals classifications smaller than the data obtained by the discriminant functions.Conselho Nacional de Desenvolvimento CientÃfico e Tecnológic
Neural networks for predicting breeding values and genetic gains
Analysis using Artificial Neural Networks has been described as an approach in the decision-making process that, although incipient, has been reported as presenting high potential for use in animal and plant breeding. In this study, we introduce the procedure of using the expanded data set for training the network. Wealso proposed using statistical parameters to estimate the breeding value of genotypes in simulated scenarios, in addition to the mean phenotypic value in a feed-forward back propagation multilayer perceptron network. After evaluating artificial neural network configurations, our results showed its superiority to estimates based on linear models, as well as its applicability in the genetic value prediction process. The results further indicated the good generalization performance of the neural network model in several additional validation experiments
Multi-trait and multi-environment Bayesian analysis to predict the G x E interaction in flood-irrigated rice.
The biggest challenge for the reproduction of flood-irrigated rice is to identify superior genotypes that present development of high-yielding varieties with specific grain qualities, resistance to abiotic and biotic stresses in addition to superior adaptation to the target environment. Thus, the objectives of this study were to propose a multi-trait and multi-environment Bayesian model to estimate genetic parameters for the flood-irrigated rice crop. To this end, twenty-five rice genotypes belonging to the flood-irrigated rice breeding program were evaluated. Grain yield and flowering were evaluated in the agricultural year 2017/2018. The experimental design used in all experiments was a randomized block design with three replications. The Markov Chain Monte Carlo algorithm was used to estimate genetic parameters and genetic values. The flowering is highly heritable by the Bayesian credibility interval: h2 = 0.039-0.80, and 0.02-0.91, environment 1 and 2, respectively. The genetic correlation between traits was significantly different from zero in the two environments (environment 1: -0.80 to 0.74; environment 2: -0.82 to 0.86. The relationship of CVe and CVg higher for flowering in the reduced model (CVg/CVe = 5.83 and 13.98, environments 1 and 2, respectively). For the complete model, this trait presented an estimate of the relative variation index of: CVe = 4.28 and 4.21, environments 1 and 2, respectively. In summary, the multi-trait and multi-environment Bayesian model allowed a reliable estimate of the genetic parameter of flood-irrigated rice. Bayesian analyzes provide robust inference of genetic parameters. Therefore, we recommend this model for genetic evaluation of flood-irrigated rice genotypes, and their generalization, in other crops. Precise estimates of genetic parameters bring new perspectives on the application of Bayesian methods to solve modeling problems in the genetic improvement of flood-irrigated rice