Exploratory data analysis: identification of a single outlier in experiments designed in randomized blocks

Abstract

A análise exploratória de dados é hoje considerada uma etapa imprescindível e simultânea às análises conclusivas, que têm por base modelos usuais em análise de dados. A moderna análise da variância, sem dúvida, envolve o cálculo e avaliação de resíduos. Dentre os aspectos comumente considerados em uma análise de resíduos, situa-se o reconhecimento e avaliação de "outliers". No entanto, em delineamentos experimentais, esse reconhecimento é feito, geralmente, através de métodos informais. Isso se deve ao fato de que, com raras exceções, o desenvolvimento do estudo dos "outliers" disponível na bibliografia tem estado basicamente preso aos modelos de regressão ou às amostras isoladas. Este estudo visou apresentar uma sequência de procedimentos que levam à identificação de um único "outlier" e promover sua adaptação, através do modelo linear de Gauss-Markov, aos delineamentos em blocos casualizados, tão úteis na pesquisa agropecuária. Apresentou-se também a análise exploratória de dados, bem como um procedimento remediador, para dados de exemplos numéricos, buscando evidenciar algumas das sequelas causadas pela presença de um único valor aberrante e, a medida do possível, como amenizá-lasThe exploratory data analysis today is considered a simultaneous and indispensable phase to a conclusive analysis that has a base usual models in data analysis. The modern analysis of variance, without question, envolves the calculation and evaluation of residuals. Among the commonly considered aspects in a residuals analysis, one can find the reconnaissance and evaluation of outliers. However, in experimental designs the reconnaissance is done, generally, through informal methods. This occurs because, with rare exceptions, the development of the outliers study, available in the literature, has been basically connected to the regression models and to isolated samples. This study aimed to show a series of procedures that lead to the identification of a single outlier and promote its adaptation, through Gauss-Markov's linear model, to the randomized blocks designs, very useful on the agriculture research. Exploratory data analysis was also presented, as well as a helpful procedure, for numerical examples data, seeking to show some of the effects caused by the presence of a single outlier and, as much as possible, how to the

    Similar works