5 research outputs found
Data mining languages for business intelligence
Tese de doutoramento in Information Systems and Technologies (area of Engineering and Management Information Systems)Desde que Lunh usou, pela primeira vez, em 1958, o termo Business Intelligence (BI), grandes
transformações se operaram na área dos sistemas e tecnologias de informação e, em especial,
na área dos sistemas de apoio à decisão. Atualmente, os sistemas de BI são amplamente
utilizados nas organizações e a sua importância estratégica é largamente reconhecida. Estes
sistemas apresentam-se como essenciais para um completo conhecimento do negócio e como
uma ferramenta insubstituível no apoio à tomada de decisão. A divulgação das ferramentas de
Data Mining (DM) tem vindo a aumentar na área do BI, assim como o reconhecimento da
relevância da sua utilização nos sistemas de BI empresariais.
As ferramentas de BI são ferramentas amigáveis, iterativas e interativas, permitindo aos
utilizadores finais um acesso fácil. Desta forma, é possível ao utilizador final manipular
diretamente os dados, tendo assim a possibilidade de extrair todo o valor para o negócio neles
contido. Um dos problemas apontados na utilização do DM na área do BI prende-se com o facto
de os modelos de DM serem, em geral, demasiado complexos para que os utilizadores de
negócio os possam manipular diretamente, contrariamente ao que ocorre com as outras
ferramentas de BI.
Neste contexto, foi identificado como problema de investigação a não existência de ferramentas
de BI que possibilitem ao utilizador de negócio a manipulação direta dos modelos de DM e,
consequentemente, não possibilitando extrair todo o valor potencial neles contidos. Este aspeto
reveste-se de particular importância num universo empresarial no qual a concorrência é cada vez
mais forte e no qual o conhecimento do negócio, das variáveis envolvidas e dos potenciais
cenários representam um papel fundamental para as organizações poderem concorrer num
mercado extremamente exigente.
Considerando que os sistemas de BI assentam, maioritariamente, sobre sistemas operacionais
que utilizam sobretudo o modelo relacional de bases de dados, a investigação efetuada inspirouse
nos conceitos ligados ao modelo relacional de bases de dados e nas linguagens a ele
associadas em particular as linguagens Query-By-Example (QBE). Estas linguagens têm uma
forte componente de interactividade, são amigáveis e permitem iteratividade e são amplamente
utilizadas em ambiente de negócio pelos utilizadores finais.
Têm vindo a ser desenvolvidos esforços no sentido do desenvolvimento de padrões e normas na
área do DM, sendo dada grande relevância ao tema das bases de dados indutivas. No contexto das bases de dados indutivas é dada grande relevância às chamadas linguagens de DM. Estes
conceitos serviram, igualmente, de inspiração a esta investigação. Apesar da importância destas
linguagens de DM, elas não estão orientadas para os utilizadores finais em ambientes de
negócio.
Ligando os conceitos relacionados com as linguagens QBE e com as linguagens de DM, foi
concebida e implementada uma linguagem de DM para BI, à qual foi dado o nome QMBE. Esta
nova linguagem é por natureza amigável, iterativa e interativa, isto é, apresenta as mesmas
características que as ferramentas de BI habituais permitindo aos utilizadores finais a
manipulação direta dos modelos de DM e, deste modo, aceder a todo o valor potencial desses
modelos com todos as vantagens que daí poderão advir. Utilizando um protótipo de um sistema
de BI, a linguagem foi implementada, testada e avaliada conceptualmente. Verificou-se que a
linguagem possui as propriedades desejadas, a saber, é amigável, iterativa, interativa.
Finalmente, a linguagem foi avaliada por utilizadores finais que já tinham experiência anterior na
utilização de DM em contexto de BI. Verificou-se que na ótica destes utilizadores a utilização da
linguagem apresenta vantagens em relação à utilização tradicional de DM no âmbito do BI.Since Lunh first used the term Business Intelligence (BI) in 1958, major transformations
happened in the field of information systems and technologies, especially in the area of decision
support systems. Nowadays, BI systems are widely used in organizations and their strategic
importance is clearly recognized. These systems present themselves as an essential part of a
complete knowledge of business and an irreplaceable tool in the support to decision making. The
dissemination of data mining (DM) tools is increasing in the BI field, as well as the
acknowledgement of the relevance of its usage in enterprise BI systems.
BI tools are friendly, iterative and interactive, allowing business users an easy access. This way,
the user can directly manipulate data, thus having the possibility to extract all the value contained
into that business data. One of the problems noted in the use of DM in the field of BI is related to
the fact that DM models are, generally, too complex in order to be directly manipulated by
business users, as opposite to other BI tools.
Within this context, the nonexistence of BI tools allowing business users the direct manipulation
of DM models was identified as the research problem, since that, as a consequence of business
users not directly manipulating DM models, they can be not able of extracting all the potential
value contained in DM models. This aspect has a particular relevance in an entrepreneurial
universe where competition is stronger every day and the knowledge of the business, the
variables involved and the possible scenarios play a fundamental role in allowing organizations to
compete in an extremely demanding market.
Considering that the majority of BI systems are built on top of operational systems, which use
mainly the relational model for databases, the research was inspired on the concepts related to
this model and associated languages in particular Query-By-Example (QBE) languages. These
languages are widely used by business users in business environments, and have got a strong
interactivity component, are user-friendly, and allow for iterativeness.
Efforts are being developed in order to create standards and rules in the field of DM with great
relevance being given to the subject of inductive databases. Within the context of inductive
databases a great relevance is given to the so called DM languages. These concepts were also an
inspiration for this research. Despite their importance, these languages are not oriented to
business users in business environments. Linking concepts related with QBE languages and with DM languages, a new DM language for BI,
named as Query-Models-By-Example (QMBE) was conceived and implemented. This new
language is, by nature, user-friendly, iterative and interactive; it presents the same characteristics
as the usual BI tools allowing business users the direct manipulation of DM models and, through
this, the access to the potential value of these models with all the advantages that may arise.
Using a BI system prototype, the language was implemented, tested, and conceptually evaluated.
It has been verified that the language possesses the desired properties, namely, being userfriendly,
iterative, and interactive. The language was evaluated later by business users who were
already experienced in using DM within the context of BI. It has been verified that, according to
these users, using the language presents advantages when comparing to the traditional use of
DM within BI
Data mining languages for business intelligence
Doctoral Thesis in Information Systems and Technologies Area of Engineering and Manag
ement Information SystemsDesde que Lunh usou, pela primeira vez, em 1958, o
termo Business Intelligence (BI), grandes
transformações se operaram na área dos sistemas e t
ecnologias de informação e, em especial,
na área dos sistemas de apoio à decisão. Atualmente
, os sistemas de BI são amplamente
utilizados nas organizações e a sua importância est
ratégica é largamente reconhecida. Estes
sistemas apresentam-se como essenciais para um comp
leto conhecimento do negócio e como
uma ferramenta insubstituível no apoio à tomada de
decisão. A divulgação das ferramentas de
Data Mining (DM) tem vindo a aumentar na área do BI, assim como o reconhecimento da
relevância da sua utilização nos sistemas de BI emp
resariais.
As ferramentas de BI são ferramentas amigáveis, ite
rativas e interativas, permitindo aos
utilizadores finais um acesso fácil. Desta forma, é
possível ao utilizador final manipular
diretamente os dados, tendo assim a possibilidade d
e extrair todo o valor para o negócio neles
contido. Um dos problemas apontados na utilização d
o DM na área do BI prende-se com o facto
de os modelos de DM serem, em geral, demasiado comp
lexos para que os utilizadores de
negócio os possam manipular diretamente, contrariam
ente ao que ocorre com as outras
ferramentas de BI.
Neste contexto, foi identificado como problema de i
nvestigação a não existência de ferramentas
de BI que possibilitem ao utilizador de negócio a m
anipulação direta dos modelos de DM e,
consequentemente, não possibilitando extrair todo o
valor potencial neles contidos. Este aspeto
reveste-se de particular importância num universo e
mpresarial no qual a concorrência é cada vez
mais forte e no qual o conhecimento do negócio, das
variáveis envolvidas e dos potenciais
cenários representam um papel fundamental para as o
rganizações poderem concorrer num
mercado extremamente exigente.
Considerando que os sistemas de BI assentam, maiori
tariamente, sobre sistemas operacionais
que utilizam sobretudo o modelo relacional de bases
de dados, a investigação efetuada inspirou-
se nos conceitos ligados ao modelo relacional de ba
ses de dados e nas linguagens a ele
associadas em particular as linguagens Query-By-Exa
mple (QBE). Estas linguagens têm uma
forte componente de interactividade, são amigáveis
e permitem iteratividade e são amplamente
utilizadas em ambiente de negócio pelos utilizadore
s finais.
Têm vindo a ser desenvolvidos esforços no sentido d
o desenvolvimento de padrões e normas na
área do DM, sendo dada grande relevância ao tema da
s bases de dados indutivas. No contexto
Data mining languages for business intelligence
iv
das bases de dados indutivas é dada grande relevânc
ia às chamadas linguagens de DM. Estes
conceitos serviram, igualmente, de inspiração a est
a investigação. Apesar da importância destas
linguagens de DM, elas não estão orientadas para os
utilizadores finais em ambientes de
negócio.
Ligando os conceitos relacionados com as linguagens
QBE e com as linguagens de DM, foi
concebida e implementada uma linguagem de DM para B
I, à qual foi dado o nome QMBE. Esta
nova linguagem é por natureza amigável, iterativa e
interativa, isto é, apresenta as mesmas
características que as ferramentas de BI habituais
permitindo aos utilizadores finais a
manipulação direta dos modelos de DM e, deste modo,
aceder a todo o valor potencial desses
modelos com todos as vantagens que daí poderão advi
r. Utilizando um protótipo de um sistema
de BI, a linguagem foi implementada, testada e aval
iada conceptualmente. Verificou-se que a
linguagem possui as propriedades desejadas, a saber
, é amigável, iterativa, interativa.
Finalmente, a linguagem foi avaliada por utilizador
es finais que já tinham experiência anterior na
utilização de DM em contexto de BI. Verificou-se qu
e na ótica destes utilizadores a utilização da
linguagem apresenta vantagens em relação à utilizaç
ão tradicional de DM no âmbito do BI.Since Lunh first used the term Business Intelligenc
e (BI) in 1958, major transformations
happened in the field of information systems and te
chnologies, especially in the area of decision
support systems. Nowadays, BI systems are widely us
ed in organizations and their strategic
importance is clearly recognized. These systems pre
sent themselves as an essential part of a
complete knowledge of business and an irreplaceable
tool in the support to decision making. The
dissemination of data mining (DM) tools is increasi
ng in the BI field, as well as the
acknowledgement of the relevance of its usage in en
terprise BI systems.
BI tools are friendly, iterative and interactive, a
llowing business users an easy access. This way,
the user can directly manipulate data, thus having
the possibility to extract all the value contained
into that business data. One of the problems noted
in the use of DM in the field of BI is related to
the fact that DM models are, generally, too complex
in order to be directly manipulated by
business users, as opposite to other BI tools.
Within this context, the nonexistence of BI tools a
llowing business users the direct manipulation
of DM models was identified as the research problem
, since that, as a consequence of business
users not directly manipulating DM models, they can
be not able of extracting all the potential
value contained in DM models. This aspect has a par
ticular relevance in an entrepreneurial
universe where competition is stronger every day an
d the knowledge of the business, the
variables involved and the possible scenarios play
a fundamental role in allowing organizations to
compete in an extremely demanding market.
Considering that the majority of BI systems are bui
lt on top of operational systems, which use
mainly the relational model for databases, the rese
arch was inspired on the concepts related to
this model and associated languages in particular Q
uery-By-Example (QBE) languages. These
languages are widely used by business users in busi
ness environments, and have got a strong
interactivity component, are user-friendly, and all
ow for iterativeness.
Efforts are being developed in order to create stan
dards and rules in the field of DM with great
relevance being given to the subject of inductive d
atabases. Within the context of inductive
databases a great relevance is given to the so call
ed DM languages. These concepts were also an
inspiration for this research. Despite their import
ance, these languages are not oriented to
business users in business environments.
Data mining languages for business intelligence
vi
Linking concepts related with QBE languages and wit
h DM languages, a new DM language for BI,
named as Query-Models-By-Example (QMBE) was conceiv
ed and implemented. This new
language is, by nature, user-friendly, iterative an
d interactive; it presents the same characteristics
as the usual BI tools allowing business users the d
irect manipulation of DM models and, through
this, the access to the potential value of these mo
dels with all the advantages that may arise.
Using a BI system prototype, the language was imple
mented, tested, and conceptually evaluated.
It has been verified that the language possesses th
e desired properties, namely, being user-
friendly, iterative, and interactive. The language
was evaluated later by business users who were
already experienced in using DM within the context
of BI. It has been verified that, according to
these users, using the language presents advantages
when comparing to the traditional use of
DM within BI
ETL for data science?: A case study
Big data has driven data science development and research over the last years. However, there is a problem - most of the data science projects don't make it to production. This can happen because many data scientists don’t use a reference data science methodology. Another aggravating element is data itself, its quality and processing. The problem can be mitigated through research, progress and case studies documentation about the topic, fostering knowledge dissemination and reuse. Namely, data mining can benefit from other mature fields’ knowledge that explores similar matters, like data warehousing. To address the problem, this dissertation performs a case study about the project “IA-SI - Artificial Intelligence in Incentives Management”, which aims to improve the management of European grant funds through data mining. The key contributions of this study, to the academia and to the project’s development and success are: (1) A combined process model of the most used data mining process models and their tasks, extended with the ETL’s subsystems and other selected data warehousing best practices. (2) Application of this combined process model to the project and all its documentation. (3) Contribution to the project’s prototype implementation, regarding the data understanding and data preparation tasks. This study concludes that CRISP-DM is still a reference, as it includes all the other data mining process models’ tasks and detailed descriptions, and that its combination with the data warehousing best practices is useful to the project IA-SI and potentially to other data mining projects.A big data tem impulsionado o desenvolvimento e a pesquisa da ciência de dados nos últimos anos. No entanto, há um problema - a maioria dos projetos de ciência de dados não chega à produção. Isto pode acontecer porque muitos deles não usam uma metodologia de ciência de dados de referência. Outro elemento agravador são os próprios dados, a sua qualidade e o seu processamento. O problema pode ser mitigado através da documentação de estudos de caso, pesquisas e desenvolvimento da área, nomeadamente o reaproveitamento de conhecimento de outros campos maduros que exploram questões semelhantes, como data warehousing. Para resolver o problema, esta dissertação realiza um estudo de caso sobre o projeto “IA-SI - Inteligência Artificial na Gestão de Incentivos”, que visa melhorar a gestão dos fundos europeus de investimento através de data mining. As principais contribuições deste estudo, para a academia e para o desenvolvimento e sucesso do projeto são: (1) Um modelo de processo combinado dos modelos de processo de data mining mais usados e as suas tarefas, ampliado com os subsistemas de ETL e outras recomendadas práticas de data warehousing selecionadas. (2) Aplicação deste modelo de processo combinado ao projeto e toda a sua documentação. (3) Contribuição para a implementação do protótipo do projeto, relativamente a tarefas de compreensão e preparação de dados. Este estudo conclui que CRISP-DM ainda é uma referência, pois inclui todas as tarefas dos outros modelos de processos de data mining e descrições detalhadas e que a sua combinação com as melhores práticas de data warehousing é útil para o projeto IA-SI e potencialmente para outros projetos de data mining