17 research outputs found

    Análise AMMI com dados imputados em experimentos de interação genótipo x ambiente de algodão

    Get PDF
    The objective of this work was to evaluate the convenience of defining the number of multiplicative components of additive main effect and multiplicative interaction models (AMMI) in genotype x enviroment interaction experiments in cotton with imputed or unbalanced data. A simulation study was carried out based on a matrix of real seed-cotton productivity data obtained in trials with genotype x environment interaction carried out with 15 genotypes at 27 locations in Brazil. The simulation was made with random withdrawals of 10, 20 and 30% of the data. The optimal number of multiplicative components for the AMMI model was determined using the Cornelius test and the likelihood ratio test onto the matrix completed by imputation. A correction based on the data missing in the Cornelius procedure was proposed for testing the hypothesis when the analysis is made from averages and the repetitions are not available. For data imputation, the methods considered used robust submodels, alternating least squares and multiple imputation. For analysis of unbalanced experiments, it is advisable to choose the number of multiplicative components of the AMMI model only from the observed information and to make the classical estimation of parameters based on the matrices completed by imputation.O objetivo deste trabalho foi avaliar a conveniência de definir o número de componentes multiplicativos dos modelos de efeitos principais aditivos com interação multiplicativa (AMMI) em experimentos de interações genótipo x ambiente de algodão com dados imputados ou desbalanceados. Um estudo de simulação foi realizado com base em uma matriz de dados reais de produtividade de algodão em caroço, obtidos em ensaios de interação genótipo x ambiente, conduzidos com 15 cultivares em 27 locais no Brasil. A simulação foi feita com retiradas aleatórias de 10, 20 e 30% dos dados. O número ótimo de componentes multiplicativos para o modelo AMMI foi determinado usando o teste de Cornelius e o teste de razão de verossimilhança sobre as matrizes completadas por imputação. Para testar as hipóteses, quando a análise é feita a partir de médias e não são disponibilizadas as repetições, foi proposta uma correção com base nas observações ausentes no teste de Cornelius. Para a imputação de dados, foram considerados métodos usando submodelos robustos, mínimos quadrados alternados e imputação múltipla. Na análise de experimentos desbalanceados, é recomendável escolher o número de componentes multiplicativos do modelo AMMI somente a partir da informação observada e fazer a estimação clássica dos parâmetros com base nas matrizes completadas por imputação

    Imputação múltipla livre de distribuição em tabelas incompletas de dupla entrada

    Get PDF
    The objective of this work was to propose a new distribution‑free multiple imputation algorithm, through modifications of the simple imputation method recently developed by Yan in order to circumvent the problem of unbalanced experiments. The method uses the singular value decomposition of a matrix and was tested using simulations based on two complete matrices of real data, obtained from eucalyptus and sugarcane trials, with values deleted randomly at different percentages. The quality of the imputations was evaluated by a measure of overall accuracy that combines the variance between imputations and their mean square deviations in relation to the deleted values. The best alternative for multiple imputation is a multiplicative model that includes weights near to 1 for the eigenvalues calculated with the decomposition. The proposed methodology does not depend on distributional or structural assumptions and does not have any restriction regarding the pattern or the mechanism of the missing data.O objetivo deste trabalho foi propor um novo algoritmo de imputação múltipla livre de distribuição, por meio de modificações no método de imputação simples recentemente desenvolvido por Yan para contornar o problema de desbalanceamento de experimentos. O método utiliza a decomposição por valores singulares de uma matriz e foi testado por meio de simulações baseadas em duas matrizes de dados reais completos, provenientes de ensaios com eucalipto e cana‑de‑açúcar, com retiradas aleatórias de valores em diferentes percentagens. A qualidade das imputações foi avaliada por uma medida de acurácia geral que combina a variância entre imputações e o viés quadrático médio delas em relação aos valores retirados. A melhor alternativa para imputação múltipla é um modelo multiplicativo que inclui pesos próximos a 1 para os autovalores calculados com a decomposição. A metodologia proposta não depende de pressuposições distribucionais ou estruturais e não tem restrições quanto ao padrão ou ao mecanismo de ausência dos dados

    University Issues. Year 3. Number 3. Journal of the Center for Research in Social Sciences and Arts

    Get PDF
    Las opiniones contenidas en los artíuclos de esta revista no vinvulan la institución sono que son exclusiva responsabilidad de los autores, dentro de los principios demacráticos de cátedar libre y libertad de expresión, consagrados en el artículo 3° Estatuto Genral de la Corporación Autónoma de Bucaramanga.Presentación. - 5 Investigación científica y tecnológica. - 8 Reflexión derivada de la investigación. -50 Anaquel. -120 Anexos. -122The opinions contained in the articles of this journal do not vindicate the institution but are the sole responsibility of the authors, within the democratic principles of free cattery and freedom of expression, enshrined in Article 3 General Statute of the Autonomous Corporation of Bucaramanga

    Data imputation in trials with genotype by environment interaction: an application on cotton data

    No full text
    Os experimentos multiambientes são um tipo especial dos experimentos bifatoriais, muito usados em melhoramento genético de plantas, nos quais algumas cultivares são avaliadas em diferentes locais. Geralmente nesses estudos se encontra uma resposta diferencial das cultivares em cada local que é chamada de interação genótipo x ambiente ou G x E, que é bem explicada por modelos de efeitos aditivos e interação multiplicativa (AMMI). Frequentemente os experimentos G x E podem ser desbalanceados e um ou vários genótipos não serem testados em alguns locais. Às vezes para o pesquisador recomendar os ambientes pode ser de interesse obter estimativas daquelas combinações genótipo ambiente que não foram testadas e tais estimativas podem ser calculadas explorando a informação inerente a aquelas combinações que foram atualmente obtidas. Além do interesse do pesquisador por essas estimativas, os da- dos ausentes podem causar alguma modificação na estimação tradicional dos parâmetros nos modelos AMMI, pois para estimar os parâmetros é necessário um processo sequencial fazendo uma análise de variância com uma posterior decomposição por valor singular da matriz de residuais, a qual não pode ser calculada se existir uma matriz de interação com dados faltantes. Para resolver esses problemas Bergamo (2007) e Bergamo et al. (2008) propuseram uma nova técnica através do uso de imputação múltipla livre de distribuição (IMLD) e é por essa razão que se decidiu avaliar o recente desenvolvimento comparando-o com algumas metodologias de imputação que têm sido usadas com sucesso nos experimentos G x E com dados ausentes como os mínimos quadrados alternados ALS(0), ALS(1) (CALINSKI et al., 1992) e estimativas robustas r-AMMI1 e r-AMMI2 (DENIS; BARIL, 1992). Assim, foi de- senvolvido um estudo de simulação baseado em uma matriz de dados reais genótipos (15) ambientes (27) do ensaio estadual de algodoeiro herbáceo 2000/01 (FARIAS, 2005), fazendo retiradas aleatórias de 10%, 20% e 30%, imputando os dados e comparando os métodos através da raiz quadrada da diferença preditiva média (RMSPD), a estatística de similari- dade de Procrustes e o coeciente de correlação não paramétrico de Spearman. Também foi feita uma análise sobre a escolha de componentes multiplicativos de um modelo AMMI quando se têm matrizes completadas (observados + imputados). Os resultados do estudo de simulação mostraram que segundo a distribuição da RMSPD padronizada, o método r- AMMI1 é o melhor, superando o IMLD. Entretanto, utilizando a estatística de Procrustes se encontrou que completando matrizes com ALS(0) se obtém a maior similaridade com relação à matriz de dados originais, também foi mostrado que os cinco métodos considerados têm uma alta correlação entre as imputações e os correspondentes dados reais. Finalmente, recomenda-se utilizar a imputação de dados para a estimação dos parâmetros de um modelo AMMI sob ocorrência de dados ausentes, mas para determinar o número de componentes multiplicativos é preferível tomar a decisão somente sobre a informação observada.The multienvironment trials are a special type of the two-factor experiments, widely used in genetic improvement of plants, where some cultivars are assessed in diferent locations. Generally, in these studies there is a di¤erential response of cultivars in each location that is called genotype environment interaction, or G x E, which is well explained by the additive main e¤ects and multiplicative interaction models (AMMI). Often the experiments GE may be unbalanced and one or several genotypes were not tested in some locations. Sometimes for the environments recommendations, the researcher may be interested in obtain estimates of those combinations G x E that were not tested and such estimates can be calcu- lated using the information of those combinations that were actually obtained. Additionally to the interest of the researchers in these estimates, the missing data may cause some pro- blems in the classical estimation of parameters in the AMMI models, because the parameter estimation need of a sequential process doing an analysis of variance followed by a singular value decomposition, which can not be calculated if there is a matrix of interaction with missing data. To solve these problems Bergamo (2007) and Bergamo et al. (2008) proposed a new technique using the distribution free multiple imputation (IMLD), and for this reason was decided to evaluate the recent development through the comparison with some methods of imputation that have been used successfully in experiments GE with missing data like the AMMI estimates based on alternating least squares ALS(0), ALS(1) (CALINSKI et al. 1992) and AMMI estimates with robust sub-model r-AMMI1 and r-AMMI2 (DENIS; BARIL, 1992). Thus, was developed a simulation study based on a matrix of true data genotypes (15) environments (27) of the upland cotton variety trials (ensaio estadual de algodoeiro her- báceo) 2000/01 (FARIAS, 2005), doing missed random (10%, 20%, 30%), imputing the data and comparing the methods through the root mean square predictive di¤erence (RMSPD) of the true value, the Procrustes statistic and the Spearman´s ranks correlation coe¢ cient. Also was made an analysis on the choice of the multiplicative components of an AMMI model after imputation on the complete data sets (observed + imputed). The results of the simulation study has shown that according to the distribution of RMSPD standardized, the r-AMMI1 method is better than the IMLD. However, using the Procrustes statistic was found that imputing data matrix with ALS(0), is obtained the greatest similarity related to the true data matrix. The ve methods considered show high correlation between the true and the imputed missing values. Finally, is recommended using the imputation data for the estimation of the parameters of an AMMI model under the presence of missing data, but for choosing the number of multiplicative terms is preferable take the decision only on the observed information

    Validación cruzada para matrices de rango inferior que contienen valores atípicos

    No full text
    12 páginasSeveral statistical techniques for analyzing data matrices use lower rank approximations to these matrices, for which, in general, the appropriate rank must first be estimated depending on the objective of the study. The estimation can be conducted by cross-validation (CV), but most methods are not designed to cope with the presence of outliers, a very common problem in data matrices. The literature suggests one option to circumvent the problem, namely, the elimination of the outliers, but such information removal should only be performed when it is possible to verify that an outlier effectively corresponds to a collection or typing error. This paper proposes a methodology that combines the robust singular value decomposition (rSVD) with a CV scheme, and this allows outliers to be taken into account without eliminating them. For this, three possible rSVD’s are considered and six resistant criteria are proposed for the choice of the rank, based on three classic statistics used in multivariate statistics. To test the performance of the various methods, a simulation study and an analysis of real data are described, using an exclusively numerical evaluation through Procrustes statistics and critical angles between subspaces of principal components. We conclude that, when data matrices are contaminated with outliers, the best estimation of rank is the one that uses a CV scheme over a robust lower rank approximation (RLRA) containing as many components as possible. In our experiments, the best results were obtained when this RLRA was calculated using an rSVD that minimizes the L2 norm.Varias técnicas estadísticas para analizar matrices de datos utilizan aproximaciones de rango inferior. a estas matrices, para las cuales, en general, primero se debe estimar el rango apropiado dependiendo sobre el objetivo del estudio. La estimación se puede realizar mediante validación cruzada (CV), pero la mayoría Los métodos no están diseñados para hacer frente a la presencia de valores atípicos, un problema muy común en los datos. matrices. La literatura sugiere una opción para sortear el problema, a saber, la eliminación del valores atípicos, pero dicha eliminación de información solo debe realizarse cuando sea posible verificar que El valor atípico corresponde efectivamente a un error de recopilación o de mecanografía. Este artículo propone una metodología que combina la descomposición robusta de valores singulares (rSVD) con un esquema CV, y esto permite valores atípicos tener en cuenta sin eliminarlos. Para ello, se consideran tres posibles rSVD y Se proponen seis criterios resistentes para la elección del rango, basados ​​en tres estadísticas clásicas utilizadas en estadística multivariada. Para probar el rendimiento de los distintos métodos, se realizó un estudio de simulación y un Se describen análisis de datos reales, utilizando una evaluación exclusivamente numérica a través de Procusto. estadísticas y ángulos críticos entre subespacios de componentes principales. Concluimos que, cuando las matrices de datos están contaminadas con valores atípicos, la mejor estimación de rango es la que utiliza un CV esquema sobre una aproximación robusta de rango inferior (RLRA) que contiene tantos componentes como sea posible. En nuestros experimentos, los mejores resultados se obtuvieron cuando este RLRA se calculó utilizando un rSVD que minimiza la norma L2

    Missing value imputation in multi-environment trials: Reconsidering the Krzanowski method

    No full text
    We propose a new methodology for multiple imputation when faced with missing data in multi-environmental trials with genotype-by-environment interaction, based on the imputation system developed by Krzanowski that uses the singular value decomposition (SVD) of a matrix. Several different iterative variants are described; differential weights can also be included in each variant to represent the influence of different components of SVD in the imputation process. The methods are compared through a simulation study based on three real data matrices that have values deleted randomly at different percentages, using as measure of overall accuracy a combination of the variance between imputations and their mean square deviations relative to the deleted values. The best results are shown by two of the iterative schemes that use weights belonging to the interval [0.75, 1]. These schemes provide imputations that have higher quality when compared with other multiple imputation methods based on the Krzanowski method

    Imputação de dados climáticos utilizando a decomposição por valores singulares: uma comparação empírica

    No full text
    Um problema comum em dados climáticos é a informação ausente. Recentemente, foram desenvolvidos quatro métodos de imputação que têm como base a decomposição por valores singulares de uma matriz (DVS). O objetivo deste artigo é avaliar os novos desenvolvimentos fazendo uma comparação por meio de um estudo de simulação baseado em duas matrizes completas de dados reais. Uma matriz corresponde à precipitação histórica de Piracicaba/SP - Brasil, enquanto a outra matriz corresponde às características meteorológicas multivariadas na mesma cidade desde o ano 1997 até 2012. No estudo foram feitas retiradas aleatórias de diferentes porcentagens com posterior imputação, comparando as metodologias através de três critérios: a raiz quadrada normalizada do erro quadrático médio, a estatística de similaridade de Procrustes e o coeficiente de correlação não paramétrico de Spearman. Concluiu-se que a DVS deve ser utilizada unicamente quando sejam analisadas matrizes multivariadas e, no caso de matrizes de precipitação, a imputação pela média mensal supera o desempenho de métodos baseados na DVS

    Nuevos métodos de imputación múltiple para datos de genotipo por entorno que combinan la descomposición de valores singulares y el remuestreo Jackknife o esquemas de ponderación

    No full text
    8 páginasMissing data is a common phenomenon in agronomy and many other fields of research. Data imputation, in which the missing elements of a data matrix are replaced by plausible values, is one possible way to tackle this problem. In this paper, we consider the case of two-way data tables, e.g. phenotypic traits observed in multi-location plant trials with genotypes in the rows and environments in the columns. Two new methodologies for multiple imputation in genotype-by-environment interaction data tables, and in general two-way data tables, that combine singular value decomposition and either jackknife resampling or weighting strategies, are proposed. The proposed methods are compared with competing methods available in the literature for data imputation, by considering Monte Carlo simulations and a real data application. Two-way data tables with a given main effects and interaction structure are simulated and different percentages of observations are removed in order to obtain the three widely used missing data mechanisms: missing at random, missing completely at random, and missing not at random. The imputation methods under consideration are then applied to the incomplete two-way-data tables and comparisons are made via prediction errors and variances between imputations. The best results were obtained by the proposed multiple imputation weighted versions of the eigenvector method, which outperformed the classical method in all the considered scenarios.La falta de datos es un fenómeno común en agronomía y en muchos otros campos de investigación. La imputación de datos, en la que los elementos faltantes de una matriz de datos se reemplazan por valores plausibles, es una forma posible de abordar este problema. En este artículo, consideramos el caso de las tablas de datos de doble entrada, p. rasgos fenotípicos observados en ensayos de plantas en múltiples ubicaciones con genotipos en las filas y ambientes en las columnas. Se proponen dos nuevas metodologías para la imputación múltiple en tablas de datos de interacción genotipo-por-ambiente y, en general, tablas de datos bidireccionales, que combinan descomposición de valores singulares y estrategias de ponderación o remuestreo jackknife. Los métodos propuestos se comparan con los métodos de la competencia disponibles en la literatura para la imputación de datos, considerando simulaciones de Monte Carlo y una aplicación de datos reales. Se simulan tablas de datos bidireccionales con efectos principales y estructura de interacción dados y se eliminan diferentes porcentajes de observaciones para obtener los tres mecanismos de datos perdidos ampliamente utilizados: perdidos al azar, perdidos completamente al azar y perdidos no al azar. Los métodos de imputación considerados se aplican luego a las tablas de datos bidireccionales incompletas y se realizan comparaciones mediante errores de predicción y varianzas entre imputaciones. Los mejores resultados se obtuvieron con las versiones ponderadas de imputación múltiple propuestas del método de vectores propios, que superaron al método clásico en todos los escenarios considerados

    Imputación de valores faltantes utilizando técnicas de mínimos cuadrados en matrices contaminadas

    No full text
    8 páginasThis paper describes strategies to reduce the possible effect of outliers on the quality of imputations produced by a method that uses a mixture of two least squares techniques: regression and lower rank approximation of a matrix. To avoid the influence of discrepant data and maintain the computational speed of the original scheme, pre-processing options were explored before applying the imputation method. The first proposal is to previously use a robust singular value decomposition, the second is to detect outliers and then treat the potential outliers as missing. To evaluate the proposed methods, a cross-validation study was carried out on ten complete matrices of real data from multi-environment trials. The imputations were compared with the original data using three statistics: a measure of goodness of fit, the squared cosine between matrices and the prediction error. The results show that the original method should be replaced by one of the options presented here because outliers can cause low quality imputations or convergence problems. • The imputation algorithm based on Gabriel's cross-validation method uses two least squares techniques that can be affected by the presence of outliers. The inclusion of a robust singular value decomposition allows both to robustify the procedure and to detect outliers and consider them later as missing. These forms of pre-processing ensure that the algorithm performs well on any dataset that has a matrix form with suspected contamination."Este artículo describe estrategias para reducir el posible efecto de los valores atípicos en la calidad de las imputaciones producidas por un método que utiliza una combinación de dos técnicas de mínimos cuadrados: regresión y aproximación de rango inferior de una matriz. Para evitar la influencia de datos discrepantes y mantener la velocidad computacional del esquema original, se exploraron opciones de preprocesamiento antes de aplicar el método de imputación. La primera propuesta es utilizar previamente una descomposición robusta de valores singulares, la segunda es detectar valores atípicos y luego tratar los valores atípicos potenciales como faltantes. Con los métodos propuestos, se llevó a cabo un estudio de validación cruzada sobre diez matrices completas de datos reales provenientes de ensayos multiambientales y se compararon las imputaciones con los datos originales mediante tres estadísticos: una medida de bondad de ajuste, el coseno al cuadrado entre matrices y el error de predicción Los resultados muestran que el método original debe ser reemplazado por una de las opciones presentadas aquí porque los valores atípicos pueden causar imputaciones de baja calidad o problemas de convergencia. • El algoritmo de imputación basado en el método de validación cruzada de Gabriel utiliza dos técnicas de mínimos cuadrados que pueden verse afectadas por la presencia de valores atípicos. La inclusión de una descomposición robusta en valores singulares permite tanto robustecer el procedimiento como detectar valores atípicos y considerarlos posteriormente como faltantes. Estas formas de preprocesamiento garantizan que el algoritmo funcione bien en cualquier conjunto de datos que tenga una forma matricial con sospecha de contaminación"
    corecore