30 research outputs found

    Introduction to Data Analytics and Emerging Real-World Use Cases

    Get PDF
    Data analytics is a rapidly emerging interdisciplinary research area that involves advances in engineering, computer science, statistics and operations research. This webinar is focused on introducing the foundation of data analytics and emerging real-world use cases of data analytics. This presentation will begin with a discussion of the mathematical and statistical modeling aspects of various levels of data analytics (i.e., descriptive, predictive and prescriptive). In this webinar, you will hear an overview of data analytics in real world problems ranging from healthcare analytics, retail analytics and financial analytics

    Identificação das variáveis mais relevantes para categorização de bateladas de produção : reduzindo a variância do percentual de variáveis retidas

    No full text
    O desenvolvimento de métodos de seleção de variáveis em processos produtivos tem encontrado suporte no elevado volume de informações coletadas para fins de monitoramento e controle do processo. Embora métodos para a seleção de variáveis com propósitos de predição venham sendo amplamente sugeridos na literatura, a seleção de variáveis com vistas à classificação de observações em processos industriais permanece pouco explorada. Este artigo sugere extensões no método em Anzanello et al. (2009) com vistas à redução da variância do percentual de variáveis retidas para a classificação de bateladas de produção em duas classes. As variáveis de processo são analisadas pela regressão por mínimos quadrados parciais (Partial Least Squares — PLS) e ordenadas em termos de importância. As observações (representando bateladas de produção) são classificadas através da ferramenta k-vizinhos mais próximos (KVP) à medida que as variáveis são eliminadas. O melhor subconjunto de variáveis é escolhido via análise de Pareto. O método sugerido reduziu o percentual e a variância das variáveis retidas, e conduziu a incrementos sensíveis de acurácia, tanto em dados simulados como em dados de processos industriais.Methods for variable selection have been massively developed due to the increasing volume of process data collected by sensors. Although selecting variables for the prediction purpose has been widely discussed, few studies have focused on variable selection for classification in industrial applications. In this paper, we extend the method proposed in Anzanello et al. (2009) in order to reduce the percent of retained variables for the classification of production batches into two classes. The method applies Partial Least Squares (PLS) regression to characterize the process variables, which are then ranked according to importance. Observations representing production batches are classified by means of the k-Nearest Neighbor technique as variables are removed. The best subset of variables is identified via Pareto Optimal analysis. When applied to simulated and real datasets, the proposed method reduced the percent and variance of retained variables, and yielded slight increments on classification accuracy

    Identificação das variáveis mais relevantes para categorização de bateladas de produção : reduzindo a variância do percentual de variáveis retidas

    Get PDF
    O desenvolvimento de métodos de seleção de variáveis em processos produtivos tem encontrado suporte no elevado volume de informações coletadas para fins de monitoramento e controle do processo. Embora métodos para a seleção de variáveis com propósitos de predição venham sendo amplamente sugeridos na literatura, a seleção de variáveis com vistas à classificação de observações em processos industriais permanece pouco explorada. Este artigo sugere extensões no método em Anzanello et al. (2009) com vistas à redução da variância do percentual de variáveis retidas para a classificação de bateladas de produção em duas classes. As variáveis de processo são analisadas pela regressão por mínimos quadrados parciais (Partial Least Squares — PLS) e ordenadas em termos de importância. As observações (representando bateladas de produção) são classificadas através da ferramenta k-vizinhos mais próximos (KVP) à medida que as variáveis são eliminadas. O melhor subconjunto de variáveis é escolhido via análise de Pareto. O método sugerido reduziu o percentual e a variância das variáveis retidas, e conduziu a incrementos sensíveis de acurácia, tanto em dados simulados como em dados de processos industriais.Methods for variable selection have been massively developed due to the increasing volume of process data collected by sensors. Although selecting variables for the prediction purpose has been widely discussed, few studies have focused on variable selection for classification in industrial applications. In this paper, we extend the method proposed in Anzanello et al. (2009) in order to reduce the percent of retained variables for the classification of production batches into two classes. The method applies Partial Least Squares (PLS) regression to characterize the process variables, which are then ranked according to importance. Observations representing production batches are classified by means of the k-Nearest Neighbor technique as variables are removed. The best subset of variables is identified via Pareto Optimal analysis. When applied to simulated and real datasets, the proposed method reduced the percent and variance of retained variables, and yielded slight increments on classification accuracy

    Support Feature Machine for Classification of Abnormal Brain Activity ∗ ABSTRACT

    No full text
    In this study, a novel multidimensional time series classification technique, namely support feature machine (SFM), is proposed. SFM is inspired by the optimization model of support vector machine and the nearest neighbor rule to incorporate both spatial and temporal of the multi-dimensional time series data. This paper also describes an application of SFM for detecting abnormal brain activity. Epilepsy is a case in point in this study. In epilepsy studies, electroencephalograms (EEGs), acquired in multidimensional time series format, have been traditionally used as a gold-standard tool for capturing the electrical changes in the brain. From multi-dimensional EEG time series data, SFM was used to identify seizure pre-cursors and detect seizure susceptibility (pre-seizure) periods. The empirical results showed that SFM achieved over 80 % correct classification of per-seizure EEG on average in 10 patients using 5-fold cross validation. The proposed optimization model of SFM is very compact and scalable, and can be implemented as an online algorithm. The outcome of this study suggests that it is possible to construct a computerized algorithm used to detect seizure pre-cursors and warn of impending seizures through EEG classification. Categories and Subject Descriptors I.5.4 [Pattern Recognition]: Applications—signal processing, waveform analysi
    corecore