234 research outputs found

    Aplicação da análise de agrupamento de dados de expressão gênica temporal a dados em painel

    Get PDF
    O objetivo deste trabalho foi determinar a melhor alternativa, entre os métodos de agrupamento hierárquico (Ward) e de otimização (Tocher), para a formação de grupos homogêneos de séries de expressão gênica, e realizar previsões quanto à expressão gênica dessas séries, a partir de pequeno número de observações temporais. Os dados utilizados referem-se à expressão de genes que atuam sobre o ciclo celular de Saccharomyces cerevisiae e corresponderam a 114 séries de expressão gênica, cada uma com dez valores de “fold-change” (medida da expressão gênica) ao longo do tempo (0, 15, 30, 45, 60, 75, 90, 105, 120 e 135 min). As estimativas dos parâmetros dos modelos autorregressivos AR(p) foram previamente ajustadas a séries individuais (de cada gene) de dados “microarray time series” e utilizadas, como variáveis, no processo de agrupamento. As previsões da expressão gênica foram feitas dentro de cada grupo formado, a partir dos ajustes no modelo AR(p) para dados em painel. O método de Ward foi o mais apropriado para a formação de grupos de genes com séries homogêneas. Uma vez obtidos esses grupos, é possível ajustar o modelo AR(2) para dados em painel e predizer a expressão gênica em um tempo futuro (135 min), a partir de um pequeno número de observações temporais (os outros nove valores de “fold-change”).The objective of this work was to determine the best alternative for the formation of homogeneous groups of gene expression series among the hierarchical clustering (Ward) and optimization (Tocher) methods, and to perform predictions regarding the gene expression of these series from a small number of temporal observations. The data used refer to the expression of genes that act on cell cycle of Saccharomyces cerevisiae, and corresponded to 114 gene expression series, with ten-fold-change values (expression measure) each, over time (0, 15, 30, 45, 60, 75, 90, 105, 120, and 135 min). The parameter estimates of autoregressive models AR(p) were previously adjusted to individual series (from each gene) of microarray time series data and used as variables in the clustering process. Gene expression predictions were made within each formed group from the adjustments in AR(p) model for panel data. The Ward’s method was the more suited for the formation of gene groups with homogeneous series. Once these groups are obtained, it is possible to adjust the model AR(2) for panel-data, and successfully predict gene expression at a future time (135 min) from a small number of temporal observations (the nine other fold-change values)

    Abordagem Bayesiana da curva de lactação de cabras Saanen de primeira e segunda ordem de parto

    Get PDF
    The objective of this work was to use the Bayesian method in the fitting of the Wood´s model for milk production of Saanen goats. Two groups of animals from first and second lactation were considered in the analysis. The posterior marginal distributions for each parameter and production functions, peak milk yield, time of peak yield, persistency and total milk production, were obtained via Gibbs Sampler algorithm. The inference was done for each population. The results showed differences in the slope of the curve after the peak and in persistency, indicating highest production for the second lactation. The data were simulated for evaluating Bayesian method under several covariance matrices structures. The simulation results indicate the efficiency of this method for lactation curves studies when the covariance matrices show high correlation for parameters.O objetivo deste trabalho foi utilizar o método Bayesiano no ajuste do modelo de Wood a dados de produção de leite de cabras da raça Saanen. Dois grupos de animais da primeira e segunda lactação foram considerados. Amostras das distribuições marginais a posteriori dos parâmetros do modelo de Wood e das funções de produção derivadas desses parâmetros – pico de produção, tempo do pico de produção, persistência e produção total de leite – foram obtidas pelo algoritmo Gibbs Sampler. As inferências foram feitas em cada população e os resultados mostraram diferenças na taxa de decréscimo da produção após o pico e na persistência, indicando maior produção nos animais de segunda lactação. Realizou-se um estudo de simulação de dados para avaliar o método Bayesiano sob diferentes estruturas de matrizes de covariâncias dos parâmetros. Os resultados desse estudo indicam que o método é eficiente no estudo das curvas de lactação quando a matriz de covariância apresenta alta correlação dos parâmetros

    Análise bayesiana univariada e bivariada para a conversão alimentar de suínos da raça Piau

    Get PDF
    The objective of this work was to present alternative uni‑ and bivariate modeling procedures for the evaluation of feed conversion (FC) of the Piau swine breed, using Bayesian inference. The effects of sex and genotype on animal FC were evaluated by the Markov chain Monte Carlo (MCMC) and the integrated nested Laplace approximation (INLA) procedures. The univariate model was evaluated using different distributions for the error – normal (Gaussian), t‑Student, gamma, log‑normal, and skew‑normal –, whereas, for the bivariate model, the normal error was considered. The skew‑normal distribution was the most parsimonious model to infer on the direct response (univariate) of FC to the effects of sex and genotype, which were nonsignificant. The bivariate model was capable to identify significant differences on weight gain and feed intake in significance levels not detected by the univariate model. Moreover, it was also able to detect differences between sexes, when grouped by NN (male, 2.73±0.04; female, 2.68±0.04) and Nn (male, 2.70±0.07; female, 2.64±0.07) genotypes, and revealed greater accuracy and precision for nutritional inferences. In both approaches, the Bayesian method proves flexible and efficient for assessing animal nutritional performance.O objetivo deste trabalho foi apresentar modelagens alternativas, uni e bivariadas, para avaliação da conversão alimentar (CA) de suínos da raça Piau, com uso de inferência bayesiana. Os efeitos de sexo e genótipo sobre a CA dos animais foram avaliados por meio de procedimentos de simulação de Monte Carlo via cadeias de Markov (MCMC) e de integração aproximada aninhada de Laplace (INLA). O modelo univariado foi avaliado com diferentes distribuições para o erro – normal (gaussiana), t de Student, gama, log‑normal e skew‑normal –, enquanto, para o modelo bivariado, considerou-se o erro normal. A distribuição skew‑normal foi o modelo mais parcimonioso para inferir sobre a resposta direta (univariada) da CA aos efeitos de sexo e genótipo, os quais não foram significativos. O modelo bivariado foi capaz de identificar diferenças significativas no ganho de peso e no consumo de ração em níveis de significância não detectados pelo modelo univariado. Além disso, ele também foi capaz de detectar diferenças entre sexos, quando agrupados por genótipos NN (machos, 2,73±0,04; fêmeas, 2,68±0,04) e Nn (machos, 2,70±0,07; fêmeas, 2,64±0,07), e revelou maior acurácia e precisão nas inferências nutricionais. Em ambas as abordagens, o método bayesiano mostra-se flexível e eficiente para a avaliação do desempenho nutricional dos animais

    Análise Bayesiana do modelo auto-regressivo para dados em painel: aplicação na avaliação genética de bovinos de corte

    Get PDF
    A previsão dos valores genéticos de animais em tempos futuros constitui importante inovação tecnológica para a área de Zootecnia, uma vez que possibilita planejar com antecedência o descarte ou a manutenção de animais no rebanho. No presente estudo considerou-se uma análise Bayesiana de modelos auto-regressivos de ordem p, AR(p), para dados em painel, de forma a utilizar a função de verossimilhança exata, a análise de comparação de distribuições a priori e a obtenção de distribuições preditivas de dados futuros. A metodologia utilizada foi testada mediante um estudo de simulação usando a priori hierárquica Normal multivariada-Gama inversa (modelo 1), a priori independente t-Student Gama inversa (modelo 2) e a priori de Jeffreys (modelo 3). As comparações entre os modelos, realizadas por meio do Pseudo-Fator de Bayes, indicaram uma superioridade do modelo 2 em relação aos demais. Realizou-se uma aplicação em resultados reais referentes as DEP de touros da raça Nelore, sendo que, em média, a eficiência de previsão dos valores de DEP para um ano futuro foi próxima de 80%. Constatou-se considerável vantagem da metodologia proposta em relação a metodologia frequentista usual, uma vez que a implitude dos intervalos de credibilidade de 95% foram muito menores que aquelas apresentadas pelos intervalos de confiança assintóticos.The animal breeding values forecasting at futures times is a relevant technological innovation in the field of Animal Science, since its enables a previous indication of animals that will be either kept by the producer for breeding purposes or discarded. This study discusses an MCMC Bayesian methodology applied to panel data in a time series context. We consider Bayesian analysis of an autoregressive, AR(p), panel data model of order p, using an exact likelihood function, comparative analysis of prior distributions and predictive distributions of future observations. The methodology was tested by a simulation study using three priors: hierarchical Multivariate Normal-Inverse Gamma (model 1), independent Multivariate Student's t Inverse Gamma (model 2) and Jeffrey's (model 3). Comparisons by Pseudo-Bayes Factor favored model 2. The proposed methodology was applied to longitudinal data relative to Expected Progeny Difference (EPD) of beef cattle sires. The forecast efficiency was around 80%. Regarding the mean width of the EPD interval estimation (95%) in a future time, a great advantage was observed for the proposed Bayesian methodology over usual asymptotic frequentist method

    Bayesian comparison of forecasting models to expected progenies difference in Nelore cattle genetic breeding

    Get PDF
    O objetivo deste trabalho foi realizar uma análise bayesiana de modelos auto-regressivos de ordem p, AR(p), para dados em painel referentes às diferenças esperadas nas progênies (DEP) de touros da raça Nelore publicados de 2000 a 2006. Neste trabalho, adotou-se o modelo AR(2), indicado pela análise prévia da função de autocorrelação parcial. As comparações entre as prioris, realizadas por meio do Fator de Bayes e do Pseudo-Fator de Bayes, indicaram superioridade da priori independente t-Student multivariada – Gama inversa em relação à priori hierárquica Normal multivariada – Gama inversa e a priori de Jeffreys. Os resultados indicam a importância de se dividir os animais em grupos homogêneos de acordo com a acurácia. Constatou-se também que, em média, a eficiência de previsão dos valores de DEP para um ano futuro foi próxima de 80%.The objective of this work was to accomplish a bayesian analysis of an autoregressive, AR(p), panel data model from Nelore sires' expected progenie difference (EPD) observed during 2000–2006. The AR(2) model was used due to the results of partial autocorrelation function analysis. The prior comparisons were performed through Bayes Factor and Pseudo-Bayes Factor, and the results showed the independent t-Student multivariate – inverse Gamma superiority in relation to the hierarchical multivariate Normal – inverse Gamma and Jeffreys prior. Results indicate the importance of sires grouping by accuracy values, and also show forecast efficiency around 80%

    Inferência bayesiana para o ajuste de curvas do acúmulo de matéria seca em plantas de alho

    Get PDF
    The objective of this work was to identify nonlinear regression models that best describe dry matter accumulation curves over time, in garlic (Allium sativum) accessions, using Bayesian and frequentist approaches. Multivariate cluster analyses were made to group similar accessions according to the estimates of the parameters with biological interpretation (β1 and β3). In order to verify if the obtained groups were equal, statistical tests were applied to assess the parameter equality of the representative curves of each group. Thirty garlic accessions were used, which are kept by the vegetable germplasm bank of Universidade Federal de Viçosa, Brazil. The logistic model was the one that fit best to data in both approaches. Parameter estimates of this model were subjected to the cluster analysis using Ward’s algorithm, and the generalized Mahalanobis distance was used as a measure of dissimilarity. The optimal number of groups, according to the Mojena method, was three and four, for the frequentist and Bayesian approaches, respectively. Hypothesis tests for the parameter equality from estimated curves, for each identified group, indicated that both approaches highlight the differences between the accessions identified in the cluster analysis. Therefore, both approaches are recommended for this kind of study.O objetivo deste trabalho foi identificar modelos de regressão não linear que melhor descrevam curvas de acúmulo de matéria seca em acessos de alho (Allium sativum), ao longo do tempo, com uso das abordagens bayesiana e frequentista. Análises de agrupamento multivariadas foram empregadas para agrupar acessos similares quanto às estimativas dos parâmetros das curvas com interpretação biológica (β1 e β3). Para verificar se os grupos formados eram iguais, aplicaram-se testes estatísticos para testar a igualdade de parâmetros das curvas representativas de cada grupo. Foram utilizados 30 acessos de alho, mantidos pelo Banco de Germoplasma de Hortaliças da Universidade Federal de Viçosa. O modelo logístico foi o que melhor se ajustou aos dados em ambas as abordagens. As estimativas dos parâmetros deste modelo foram submetidas à análise de agrupamento com o algoritmo de Ward, e a distância generalizada de Mahalanobis foi utilizada como medida de dissimilaridade. O número ótimo de grupos, de acordo com o método de Mojena, foi de três e quatro para as abordagens frequentista e bayesiana, respectivamente. Testes de hipótese quanto à igualdade de parâmetros das curvas estimadas, para cada grupo de acesso, indicaram que ambas as metodologias evidenciam as diferenças identificadas pela análise de agrupamento. Portanto, ambas as abordagens são indicadas para estudos desta natureza

    Predição genômica com o modelo aditivo-dominante por métodos de redução de dimensionalidade

    Get PDF
    The objective of this work was to evaluate the application of different dimensionality reduction methods in the additive-dominant model and to compare them with the genomic best linear unbiased prediction (G-BLUP) method. The dimensionality reduction methods evaluated were: principal components regression (PCR), partial least squares (PLS), and independent components regression (ICR). A simulated data set composed of 1,000 individuals and 2,000 single-nucleotide polymorphisms was used, being analyzed in four scenarios: two heritability levels x two genetic architectures. To help choose the number of components, the results were evaluated as to additive, dominant, and total genomic information. In general, PCR showed higher accuracy values than the other methods. However, none of the methodologies are able to recover true genomic heritabilities and all of them present biased estimates, under- or overestimating the genomic genetic values. For the simultaneous estimation of the additive and dominance marker effects, the best alternative is to choose the number of components that leads the dominance genomic value to a higher accuracy.O objetivo deste trabalho foi avaliar a aplicação de diferentes métodos de redução de dimensionalidade no modelo aditivo-dominante e compará-los ao método genômico da melhor predição linear não viesada (G-BLUP). Os métodos de redução avaliados foram: regressão via componentes principais (PCR), quadrados mínimos parciais (PLS) e regressão via componentes independentes (ICR). Utilizou-se um conjunto de dados simulados composto por 1.000 indivíduos e 2.000 polimorfismos de nucleotídeo único, analisados em quatro cenários: dois níveis de herdabilidade x duas heranças genéticas. Para auxiliar na escolha do número de componentes, os resultados foram avaliados quanto às informações genômicas aditiva, dominante e total. De modo geral, a PCR apresentou maiores valores de acurácia em comparação aos demais métodos. No entanto, nenhuma das metodologias consegue capturar as herdabilidades genômicas reais e todas apresentam estimativas viesadas, tendo subestimado ou superestimado os valores genéticos genômicos. Para a estimação simultânea dos efeitos de marcadores aditivos e devidos à dominância, a melhor alternativa é a escolha do número de componentes que conduz o valor genômico devido à dominância à maior acurácia

    Genomic selection for boar taint compounds and carcass traits in a commercial pig population

    Get PDF
    AbstractThis study aimed to compare two different Genome-Wide Selection (GWS) methods (Ridge Regression BLUP − RR-BLUP and Bayesian LASSO − BL) to predict the genomic estimated breeding values (GEBV) of four phenotypes, including two boar taint compounds, i.e., the concentrations of androstenone (andro) and skatole (ska), and two carcass traits, i.e., backfat thickness (fat) and loin depth (loin), which were measured in a commercial male pig line. Six hundred twenty-two boars were genotyped for 2,500 previously selected single nucleotide polymorphisms (SNPs). The accuracies of the GEBV using both methods were estimated based on Jack-knife cross-validation. The BL showed the best performance for the andro, ska and loin traits, which had accuracy values of 0.65, 0.58 and 0.33, respectively; for the fat trait, the RR-BLUP accuracy of 0.61 outperformed the BL accuracy of 0.56. Considering that BL was more accurate for the majority of the traits, this method is the most favoured for GWS under the conditions of this study. The most relevant SNPs for each trait were located in the chromosome regions that were previously indicated as QTL regions in other studies, i.e., SSC6 for andro and ska, SSC2 for fat, and SSC11, SSC15 and SSC17 for loin

    Triple categorical regression for genomic selection: application to cassava breeding

    Get PDF
    Genome-wide selection (GWS) is currently a technique of great importance in plant breeding, since it improves efficiency of genetic evaluations by increasing genetic gains. The process is based on genomic estimated breeding values (GEBVs) obtained through phenotypic and dense marker genomic information. In this context, GEBVs of N individuals are calculated through appropriate models, which estimate the effect of each marker on phenotypes, allowing the early identification of genetically superior individuals. However, GWS leads to statistical challenges, due to high dimensionality and multicollinearity problems. These challenges require the use of statistical methods to approach the regularization of the estimation process. Therefore, we aimed to propose a method denominated as triple categorical regression (TCR) and compare it with the genomic best linear unbiased predictor (G-BLUP) and Bayesian least absolute shrinkage and selection operator (BLASSO) methods that have been widely applied to GWS. The methods were evaluated in simulated populations considering four different scenarios. Additionally, a modification of the G-BLUP method was proposed based on the TCR-estimated (TCR/G-BLUP) results. All methods were applied to real data of cassava (Manihot esculenta) with to increase efficiency of a current breeding program. The methods were compared through independent validation and efficiency measures, such as prediction accuracy, bias, and recovered genomic heritability. The TCR method was suitable to estimate variance components and heritability, and the TCR/G-BLUP method provided efficient GEBV predictions. Thus, the proposed methods provide new insights for GWS
    corecore