2 research outputs found
All Data are Wrong, but Some are Useful? Advocating the Need for Data Auditing
<p>In a recent article from the <i>Annals of Applied Statistics</i>, Cox discussed the main phases of applied statistical research ranging from clarifying study objectives to final data analysis and interpreting results. As an incidental remark to these main phases, we advocate that beyond <i>cleaning</i> and <i>preprocessing</i> the data, it is a good practice to <i>audit</i> the data to determine if they can be trusted at all. A case study based on Ghanaian Official Fishery Statistics is used to illustrate this need, with Benford's law being the tool used to carrying out the data audit. Supplementary materials for this article are available online.</p
Método de predição usando vizinho mais próximo em modelo misto logito de escolha discreta
Discrete choice models are a group of models that are used to analyze choice data basically because they accommodate the nature of the process that generates the data. The most common types of discrete models include the logit, probit, multinomial logit, nested logit, mixed logit and most recently the generalized multinomial logit. Discrete choice models have been mostly used in the area economics, transportation, energy, psychology, etc. Prediction in these models isn\'t uncommon, in contexts such as engineering, marketing, and production, discrete choice models are mostly used to forecast demand. Unfortunately, for out-of-sample prediction at the individual level for complex models such as mixed logit, which involves predicting the random effects/parameters, there isn\'t any work found in literature. Thus, in this is work we propose a method for this scenario in mixed logit discrete models using the nearest neighbour concept. We carry out various simulations and then apply on two types of real-life data. We find that the prediction accuracy of this new method is better than the rudimentary method of using the population parameters especially when the model fitted isn\'t the very best.Modelos de escolha discreta são um grupo de modelos usados para analisar dados de escolha basicamente porque eles acomodam a natureza do processo que gera os dados.Os tipos mais comuns de modelos discretos incluem o logito, probito, logito multinomial, nested logito,misto logito e, mais recentemente, o logito multinomial generalizado. Modelos de escolha discreta têm sido usados principalmente na área de Economia, Transporte, Energia, Psicologia, etc. Usando modelos de escolha discreta para predição é comun; em áreas como Engenharia, marketing e produção, são usados principalmente para prever a demanda. Infelizmente, para previsão fora da amostra no nÃvel individual para modelos complexos como o misto logito, que envolve a predição de efeitos (ou parâmetros aleatórios), não há nenhum trabalho encontrado na literatura. Assim, neste trabalho propomos um método para este cenário em modelos discretos misto logito usando o conceito de vizinho mais próximo. Realizamos várias simulações e, em seguida, aplicamos em dois conjuntos de dados reais. Descobrimos que a precisão da previsão deste novo método é melhor do que o método rudimentar de usar os parâmetros da população, especialmente quando o modelo ajustado não é o melhor