Identificação das variáveis mais relevantes para categorização de bateladas de produção : reduzindo a variância do percentual de variáveis retidas

Abstract

O desenvolvimento de métodos de seleção de variáveis em processos produtivos tem encontrado suporte no elevado volume de informações coletadas para fins de monitoramento e controle do processo. Embora métodos para a seleção de variáveis com propósitos de predição venham sendo amplamente sugeridos na literatura, a seleção de variáveis com vistas à classificação de observações em processos industriais permanece pouco explorada. Este artigo sugere extensões no método em Anzanello et al. (2009) com vistas à redução da variância do percentual de variáveis retidas para a classificação de bateladas de produção em duas classes. As variáveis de processo são analisadas pela regressão por mínimos quadrados parciais (Partial Least Squares — PLS) e ordenadas em termos de importância. As observações (representando bateladas de produção) são classificadas através da ferramenta k-vizinhos mais próximos (KVP) à medida que as variáveis são eliminadas. O melhor subconjunto de variáveis é escolhido via análise de Pareto. O método sugerido reduziu o percentual e a variância das variáveis retidas, e conduziu a incrementos sensíveis de acurácia, tanto em dados simulados como em dados de processos industriais.Methods for variable selection have been massively developed due to the increasing volume of process data collected by sensors. Although selecting variables for the prediction purpose has been widely discussed, few studies have focused on variable selection for classification in industrial applications. In this paper, we extend the method proposed in Anzanello et al. (2009) in order to reduce the percent of retained variables for the classification of production batches into two classes. The method applies Partial Least Squares (PLS) regression to characterize the process variables, which are then ranked according to importance. Observations representing production batches are classified by means of the k-Nearest Neighbor technique as variables are removed. The best subset of variables is identified via Pareto Optimal analysis. When applied to simulated and real datasets, the proposed method reduced the percent and variance of retained variables, and yielded slight increments on classification accuracy

    Similar works