13 research outputs found
Post-processing of association rules.
In this paper, we situate and motivate the need for a post-processing phase to the association rule mining algorithm when plugged into the knowledge discovery in databases process. Major research effort has already been devoted to optimising the initially proposed mining algorithms. When it comes to effectively extrapolating the most interesting knowledge nuggets from the standard output of these algorithms, one is faced with an extreme challenge, since it is not uncommon to be confronted with a vast amount of association rules after running the algorithms. The sheer multitude of generated rules often clouds the perception of the interpreters. Rightful assessment of the usefulness of the generated output introduces the need to effectively deal with different forms of data redundancy and data being plainly uninteresting. In order to do so, we will give a tentative overview of some of the main post-processing tasks, taking into account the efforts that have already been reported in the literature.
Mining optimal item packages using mixed integer programming
Traditional methods for discovering frequent patterns from large databases are based on attributing equal weights to all items of the database. In the real world, managerial decisions are based on economic values attached to the item sets. In this paper, we introduce the concept of the value based frequent item packages problems. Furthermore, we provide a mixed integer linear programming (MILP) model for value based optimization problem in the context of transaction data. The problem discussed in this paper is to find an optimal set of item packages (or item sets making up the whole transaction) that returns maximum profit to the organization under some limited resources. The specification of this problem opens the way for applying existing and new MILP solution techniques to deal with a number of practical decision problems. The model has been implemented and tested with real life retail data. The test results are reported in the paper
Estimating the win probability in a hockey game
When a hockey game is being played, its data comes continuously. Therefore, it is possible
to use the stream mining method to estimate the win probability (WP) of a team once the
game begins. Based on 8 seasons’ data of NHL from 2003-2014, we provide three methods
to estimate the win probability in a hockey game. Win probability calculation method based
on statistics is the first model, which is built based on the summary of the historical data.
Win probability calculation method based on data mining classification technique is the
second model. In this model, we implemented some data classification algorithms on our
data and compared the results, then chose the best algorithm to build the win probability
model. Naive Bayes, SVM, VFDT, and Random Tree data classification methods have been compared in this thesis on the hockey dataset. We used stream mining technique in
our last model, which is a real time prediction model, which can be interpreted as a trainingupdate-
training model. Every 20 events in a hockey game are split as a window. We use
the last window as the training data set to get decision tree rules used for classifying the
current window. Then a parameter can be calculated by the rules trained by these two
windows. This parameter can tell us which rule is better than another to train the next
window. In our models the variables time, leadsize, number of shots, number of misses,
number of penalties are combined to calculate the win probability. Our WP estimates can provide useful evaluations of plays, prediction of game result and in some cases, guidance
for coach decisions.Master of Science (M.Sc.) in Computational Science
Prescription Fraud detection via data mining : a methodology proposal
Ankara : The Department of Industrial Engineering and the Institute of Engineering and Science of Bilkent University, 2009.Thesis (Master's) -- -Bilkent University, 2009.Includes bibliographical references leaves 61-69Fraud is the illegitimate act of violating regulations in order to gain personal profit.
These kinds of violations are seen in many important areas including, healthcare, computer
networks, credit card transactions and communications. Every year health care fraud causes
considerable amount of losses to Social Security Agencies and Insurance Companies in many
countries including Turkey and USA. This kind of crime is often seem victimless by the
committers, nonetheless the fraudulent chain between pharmaceutical companies, health care
providers, patients and pharmacies not only damage the health care system with the financial
burden but also greatly hinders the health care system to provide legitimate patients with
quality health care. One of the biggest issues related with health care fraud is the prescription
fraud. This thesis aims to identify a data mining methodology in order to detect fraudulent
prescriptions in a large prescription database, which is a task traditionally conducted by
human experts. For this purpose, we have developed a customized data-mining model for the
prescription fraud detection. We employ data mining methodologies for assigning a risk score
to prescriptions regarding Prescribed Medicament- Diagnosis consistency, Prescribed
Medicaments’ consistency within a prescription, Prescribed Medicament- Age and Sex
consistency and Diagnosis- Cost consistency. Our proposed model has been tested on real
world data. The results we obtained from our experimentations reveal that the proposed model
works considerably well for the prescription fraud detection problem with a 77.4% true
positive rate. We conclude that incorporating such a system in Social Security Agencies
would radically decrease human-expert auditing costs and efficiency.Aral, Karca DuruM.S
Sistema de Informação de Apoio à Detecção de Perdas de Energia Eléctrica – O Caso da Electra
A realidade mundial é preocupante no que diz respeito ao
aumento de ocorrências de perdas e fraudes em redes de
distribuição de energia eléctrica. Em Cabo Verde, mas precisamente
na Cidade da Praia a realidade é ainda mais preocupante devido ao
número de ocorrências e a gravidade dos mesmos.
Propõe-se um trabalho de investigação sobre perdas e fraudes de
energia eléctrica baseado na análise dos dados relativos aos registos
dos clientes na Base de Dados da Electra (Cabo Verde), com o
intuito de nortear as tomadas de decisões de gestão estratégica no
que diz respeito às políticas de controlo e prevenção de perdas e
fraudes de energia eléctrica.
O trabalho baseia-se na recolha e selecção de dados a organizar
numa Data Warehouse para depois aplicar as tecnologias OLAP
para a identificação de perdas nos Postos de Transformação e zonas
geográficas da Cidade da Praia em Cabo Verde e posteriormente
identificar possíveis fraudes de energia eléctrica nos clientes finais
utilizando Data Mining.
Os resultados principais consistiram na identificação de
situações de perdas de energia eléctrica nos Postos de
Transformação, a identificação de áreas críticas seleccionadas para
inspecção dos seus clientes finais e a detecção de padrões de
anomalias associadas ao perfil dos clientes.A única empresa de produção e distribuição de energia em Cabo Verde, Electra, vem
enfrentando grandes desafios. Atropelada pela crise energética pela qual o país passa e
pelas novas regras de gestão mais rigorosa, ela está actualmente obrigada a buscar novos
meios para optimizar a sua operação e maximizar a qualidade dos serviços de forma a
garantir a sua rentabilidade e sobrevivência no mercado e possa prestar um serviço
essencial para a sociedade.
A distribuição de energia eléctrica implica perdas que podem ser técnicas e comerciais.
As perdas técnicas podem ocorrer naturalmente no processo de distribuição de energia, ou
seja, relacionadas com as características do próprio sistema de distribuição. As perdas
comerciais estão relacionadas directamente com as fraudes (ligações clandestinas), falhas
na medição, erros de leituras e facturação, que fazem o desvio de energia eléctrica da rede
de distribuição directamente para as instalações do consumidor, sem passagem pelo
contador de energia (Eller, 2003)
Sistema de Informação de Apoio à Detecção de Perdas de Energia Eléctrica – O Caso da Electra
A realidade mundial é preocupante no que diz respeito ao
aumento de ocorrências de perdas e fraudes em redes de
distribuição de energia eléctrica. Em Cabo Verde, mas precisamente
na Cidade da Praia a realidade é ainda mais preocupante devido ao
número de ocorrências e a gravidade dos mesmos.
Propõe-se um trabalho de investigação sobre perdas e fraudes de
energia eléctrica baseado na análise dos dados relativos aos registos
dos clientes na Base de Dados da Electra (Cabo Verde), com o
intuito de nortear as tomadas de decisões de gestão estratégica no
que diz respeito às políticas de controlo e prevenção de perdas e
fraudes de energia eléctrica.
O trabalho baseia-se na recolha e selecção de dados a organizar
numa Data Warehouse para depois aplicar as tecnologias OLAP
para a identificação de perdas nos Postos de Transformação e zonas
geográficas da Cidade da Praia em Cabo Verde e posteriormente
identificar possíveis fraudes de energia eléctrica nos clientes finais
utilizando Data Mining.
Os resultados principais consistiram na identificação de
situações de perdas de energia eléctrica nos Postos de
Transformação, a identificação de áreas críticas seleccionadas para
inspecção dos seus clientes finais e a detecção de padrões de
anomalias associadas ao perfil dos clientes.Universidade de Aveiro e Cooperação Portugues
Sistema de informação de apoio à detecção de perdas de energia eléctrica: o caso da Electra
Mestrado em Engenharia Electrónica e Telecomunicações - Sistemas de InformaçãoA realidade mundial é preocupante no que diz respeito ao
aumento de ocorrências de perdas e fraudes em redes de
distribuição de energia eléctrica. Em Cabo Verde, mas precisamente
na Cidade da Praia a realidade é ainda mais preocupante devido ao
número de ocorrências e a gravidade dos mesmos.
Propõe-se um trabalho de investigação sobre perdas e fraudes de
energia eléctrica baseado na análise dos dados relativos aos registos
dos clientes na Base de Dados da Electra (Cabo Verde), com o
intuito de nortear as tomadas de decisões de gestão estratégica no
que diz respeito às políticas de controlo e prevenção de perdas e
fraudes de energia eléctrica.
O trabalho baseia-se na recolha e selecção de dados a organizar
numa Data Warehouse para depois aplicar as tecnologias OLAP
para a identificação de perdas nos Postos de Transformação e zonas
geográficas da Cidade da Praia em Cabo Verde e posteriormente
identificar possíveis fraudes de energia eléctrica nos clientes finais
utilizando Data Mining.
Os resultados principais consistiram na identificação de
situações de perdas de energia eléctrica nos Postos de
Transformação, a identificação de áreas críticas seleccionadas para
inspecção dos seus clientes finais e a detecção de padrões de
anomalias associadas ao perfil dos clientes.This work focuses on the study of losses and frauds’ detection on
electric power distribution networks, based on the analyses of the
customers’ records in the Electra (Cabo Verde) database. The aim
of this research study is to guide the strategic management
decisions, related with the policies for control and prevention of
losses and frauds in the electric power distribution network.
This work includes data collection, transformation and
organization in a Data Warehouse and subsequent application of
OLAP technologies identify the losses in the transformation posts
and geographic regions, followed by the identification of possible
frauds in by the final costumers’ using the Data Mining techniques.
The main results of this work are: the analyses and discovery of
the loss of power in the transformation posts, the identification of
critical areas for inspection of the final consumers and the
detection of anomalies based on the profile of the client
Um modelo de formalização do processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de dados
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia de ProduçãoDefinição de um modelo de formalização do processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de dados, que inclui uma metodologia sistemática e rigorosa e um ambiente interativo para a implementação desses sistemas. A metodologia proposta integra UML (Unified Modeling Language) e Linguagem E-LOTOS (Enhancements to Language Of Temporal Ordering Specification). O principal objetivo é gerar informações relevantes à tomada de decisão, através da aplicação de técnicas de mineração de dados. O ambiente de implementação é baseado na Tecnologia de Agentes para facilitar o desempenho de suas tarefas. O modelo proposto foi aplicado na plataforma de informações da pós-graduação Brasileira (dados da CAPES 1998). Esta aplicação teve como principal objetivo validar a metodologia proposta, segundo critérios de análise encontrados na literatura
Data mining using neural networks
Data mining is about the search for relationships and global patterns in large databases that are increasing in size. Data mining is beneficial for anyone who has a huge amount of data, for example, customer and business data, transaction, marketing, financial, manufacturing and web data etc. The results of data mining are also referred to as knowledge in the form of rules, regularities and constraints. Rule mining is one of the popular data mining methods since rules provide concise statements of potentially important information that is easily understood by end users and also actionable patterns. At present rule mining has received a good deal of attention and enthusiasm from data mining researchers since rule mining is capable of solving many data mining problems such as classification, association, customer profiling, summarization, segmentation and many others. This thesis makes several contributions by proposing rule mining methods using genetic algorithms and neural networks. The thesis first proposes rule mining methods using a genetic algorithm. These methods are based on an integrated framework but capable of mining three major classes of rules. Moreover, the rule mining processes in these methods are controlled by tuning of two data mining measures such as support and confidence. The thesis shows how to build data mining predictive models using the resultant rules of the proposed methods. Another key contribution of the thesis is the proposal of rule mining methods using supervised neural networks. The thesis mathematically analyses the Widrow-Hoff learning algorithm of a single-layered neural network, which results in a foundation for rule mining algorithms using single-layered neural networks. Three rule mining algorithms using single-layered neural networks are proposed for the three major classes of rules on the basis of the proposed theorems. The thesis also looks at the problem of rule mining where user guidance is absent. The thesis proposes a guided rule mining system to overcome this problem. The thesis extends this work further by comparing the performance of the algorithm used in the proposed guided rule mining system with Apriori data mining algorithm. Finally, the thesis studies the Kohonen self-organization map as an unsupervised neural network for rule mining algorithms. Two approaches are adopted based on the way of self-organization maps applied in rule mining models. In the first approach, self-organization map is used for clustering, which provides class information to the rule mining process. In the second approach, automated rule mining takes the place of trained neurons as it grows in a hierarchical structure