Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos

Abstract

Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014.Rede Bayesiana é uma técnica de classificação vastamente utilizada na área de Inteligência Artificial. Sua estrutura é composta por um grafo acíclico direcionado usado para modelar a associação de variáveis categóricas (qualitativas). Entretanto, em casos onde existem variáveis numéricas no domínio, uma pré discretização é geralmente necessária. Nesta dissertação, é apresentada uma discretização heurística para Redes Bayesianas que procura padrões nos dados e os divide de acordo com os padrões encontrados. Esses padrões são identificados por dois eventos que são otimizados por uma busca através do Algoritmo Genético. Esses dois eventos mudam de acordo com a base de dados, tornando a discretização proposta mais flexível para lidar com diferentes domínios de aplicação. O método de discretizaçãao proposto foi testado em duas situações distintas: quando a variável de saída é qualitativa (classificação) e também quando a variável de saída é quantitativa e é necessário estimar o seu valor médio e desvio-padrão. Para casos em que a saída é qualitativa foram utilizados duas bases de dados: Iris Flower e Wine. Em ambas as bases de dados a acurácia do método proposto foi superior quando comparada com outros dois métodos da literatura: um que discretiza as variáveis por frequência e outro por tamanho de classes. Para representar os casos em que variável de saída é quantitativa, foi utilizada uma base de dados real com dados de perfuração de poços de petróleo com o objetivo de estimar a taxa média de perfuração de broca. Nesses casos, é feito a estimação do valor de saída através da média da distribuição de probabilidade. O método proposto obteve um erro inferior na estimação quando comparado tanto com o método que discretiza por frequência quanto com o método que discretiza por tamanho. Com os resultados, a conclusão é que o método pode discretizar as variáveis quantitativas através das identificações dos eventos que desviam de um intervalo intermediário nos dados, seja para cima (pico) ou para baixo (vale). Também foi observado que o método está ligado a um problema de otimização global quando todas as variáveis quantitativas são discretizadas ao mesmo tempo.<br>Abstract : Bayesian Network (BN) is a classification technique widely used in Artificial Intelligence. Its structure is a DAG (direct acyclic graph) used to model the association of categorical variables. However, in cases where the variables are numerical, a previous discretization is usually necessary. In this dissertation, we show a heuristic discretization for Bayesian Networks that search for data patterns and divide the data according to them. These patterns are identified by two events: peak and valley being optimized by a search through the Genetic Algorithm. These two events change according to the database, making the proposed method a exible discretization to handle difierent application domains. The Peak-Valley Discretization Method proposed was tested two different situations: only classification when the output variable is qualitative and also estimating the mean value and the standard deviation when the output variable is quantitative. Considering the cases where the output is quantitative, two databases where used: Iris Flower and Wine. The accuracy in both of them was superior with the proposed method when compared with two other methods from the literature: one that discretizes the variable by frequency and one that does that by class' size. To represent the cases where the output variable is quantitative, was used a real data of oil wells perforation with the objective of estimating the average perforation rate. In such cases, the estimation is done by the average of the output value distribution of probability. The proposed method achieved a lower error in the estimation when compared with the method of frequency discretization and with the method that discretizes by size. With the results, the conclusion is that the method can properly discretize the quantitative variables by identifying events that deviate from expected results within the knowledge domain, whether up (peak) or down (valley). It was also observed that the method brings a problem of global optimization when discretizing all quantitative variables simultaneously. The problem of global optimization was treated by a Genetic Algorithm

Similar works

Full text

thumbnail-image

RCAAP - Repositório Científico de Acesso Aberto de Portugal

redirect
Last time updated on 10/08/2016

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.