1,405 research outputs found
Ontology of core data mining entities
In this article, we present OntoDM-core, an ontology of core data mining
entities. OntoDM-core defines themost essential datamining entities in a three-layered
ontological structure comprising of a specification, an implementation and an application
layer. It provides a representational framework for the description of mining
structured data, and in addition provides taxonomies of datasets, data mining tasks,
generalizations, data mining algorithms and constraints, based on the type of data.
OntoDM-core is designed to support a wide range of applications/use cases, such as
semantic annotation of data mining algorithms, datasets and results; annotation of
QSAR studies in the context of drug discovery investigations; and disambiguation of
terms in text mining. The ontology has been thoroughly assessed following the practices
in ontology engineering, is fully interoperable with many domain resources and
is easy to extend
Data Analytics and Knowledge Discovery for Root Cause Analysis in LTE Self-Organizing Networks.
En las últimas décadas, las redes móviles han cobrado cada vez más importancia en el mundo de las telecomunicaciones. Lo que empezó con el objetivo de dar un servicio de voz a nivel global, ha tomado recientemente la direcci\'on de convertirse en un servicio casi exclusivo de datos en banda ancha, dando lugar a la red LTE. Como consecuencia de la continua aparición de nuevos servicios, los usuarios demandan cada vez redes con mayor capacidad, mejor calidad de servicio y a precios menores.
Esto provoca una dura competición entre los operadores, que necesitan reducir costes y cortes en el servicio causados por trabajos de mejora o problemas.
Para este fin, las redes autoorganizadas SON (Self-Organizing Network) proporcionan herramientas para la automatización de las tareas de operación y mantenimiento, haciéndolas más rápidas y mantenibles por pequeños equipos de expertos. Las funcionalidades SON se dividen en tres grupos principales: autoconfiguración (Self-configuration, los elementos nuevos se configuran de forma automática), autooptimización (Self-optimization, los parámetros de la red se actualizan de forma automática para dar el mejor servicio posible) y autocuración (Self-healing, la red se recupera automáticamente de problemas).
En el ambiente competitivo de las redes móviles, los cortes de servicio provocados por problemas en la red causan un gran coste de oportunidad, dado que afectan a la experiencia de usuario. Self-healing es la función SON que se encarga de la automatización de la resolución de problemas. El objetivo principal de Self-healing es reducir el tiempo que dura la resolución de un problema y liberar a los expertos de tareas repetitivas. Self-healing tiene cuatro procesos principales: detección (identificar que los usuarios tienen problemas en una celda), compensación (redirigir los recursos de la red para cubrir a los usuarios afectados), diagnosis (encontrar la causa de dichos problemas) y recuperación (realizar las acciones necesarias para devolver los elementos afectados a su operación normal).
De todas las funcionalidades SON, Self-healing (especialmente la función de diagnosis) es la que constituye el mayor desafío, dada su complejidad, y por tanto, es la que menos se ha desarrollado. No hay sistemas comerciales que hagan una diagnosis automática con la suficiente fiabilidad para convencer a los operadores de red.
Esta falta de desarrollo se debe a la ausencia de información necesaria para el diseño de sistemas de diagnosis automática. No hay bases de datos que recojan datos de rendimiento de la red en casos problemáticos y los etiqueten con la causa del problema que puedan ser estudiados para encontrar los mejores algoritmos de tratamiento de datos.
A pesar de esto, se han propuesto soluciones basadas en la Inteligencia Artificial (IA) para la diagnosis, tomando como punto de partida la limitada información disponible. Estos algoritmos a su vez necesitan ser entrenados con datos realistas. Nuevamente, dado que no hay bases de datos de problemas reales, los datos de entrenamiento suelen ser extraídos de simulaciones, lo cual les quita realismo.
La causa de la falta de datos es que los expertos en resolución de problemas no registran los casos conforme los van solucionando. En el ambiente competitivo en el que trabajan, su tiempo es un recurso limitado que debe ser utilizado para resolver problemas y no para registrarlos.
En el caso en que tales bases de datos fueran recogidas, un aspecto importante a tener en cuenta es que el volumen, variabilidad y velocidad de generación de los datos hacen que éste sea considerado un problema Big Data.
El problema principal de los sistemas de diagnosis automática es la falta de conocimiento experto. Para resolver esto, el conocimiento experto debe convertirse a un formato utilizable. Este proceso se conoce como adquisición del conocimiento. Hay dos aproximaciones a la adquisición del conocimiento: manual(a través de entrevistas o con la implicación de los expertos en el desarrollo) o a través de la analítica de datos (minería de datos en bases de datos que contienen el resultado del trabajo de los expertos).
Esta tesis estudia la aproximación de la analítica de datos, utilizando las técnicas KDD (Knowledge Discovery and Datamining). Para que esta aproximación pueda ser utilizada, se requiere la existencia de una base de datos de casos reales de fallo, lo cual es un gran desafío.
La visión general de esta tesis es una plataforma en la que cada vez que un experto diagnostica un problema en la red, éste puede reportarlo con un esfuerzo mínimo y almacenarlo en el sistema. La parte central de este sistema es un algoritmo de diagnosis (en esta tesis un controlador de lógica borrosa) que evoluciona y mejora aprendiendo de cada nuevo ejemplo, hasta llegar al punto en el que los expertos pueden confiar en su precisión para los problemas más comunes. Cada vez que surja un nuevo problema, se añadirá a la base de datos del sistema, incrementando así aún más su potencia. El fin es liberar a los expertos de tareas repetitivas, de modo que puedan dedicar su tiempo a desafíos cuya resolución sea más gratificante.
Por tanto, el primer objetivo de esta tesis es la colección de una base de datos de casos reales de fallos. Para ello, se diseña una interfaz de usuario para la recolección de datos teniendo en cuenta como requisito prioritario la facilidad de uso.
Una vez que se dispone de datos recogidos, se analizarán para comprender mejor sus propiedades y obtener la información necesaria para el diseño de los algoritmos de analítica de datos.
Otro objetivo de esta tesis es la creación de un modelo de fallos de LTE, encontrando las relaciones entre el rendimiento de la red y la ocurrencia de los problemas.
La adquisición del conocimiento se realiza mediante la aplicación de algoritmos de analítica sobre los datos recogidos. Se diseña un proceso KDD que extrae los parámetros de un controlador de lógica borrosa y se aplica sobre la base de datos recogida.
Finalmente, esta tesis también tiene como objetivo realizar un análisis de los aspectos Big Data de las funciones Self-healing, y tenerlos en cuenta a la hora de diseñar los algoritmos
Data mining in manufacturing: a review based on the kind of knowledge
In modern manufacturing environments, vast amounts of data are collected in database management systems and data warehouses from all involved areas, including product and process design, assembly, materials planning, quality control, scheduling, maintenance, fault detection etc. Data mining has emerged as an important tool for knowledge acquisition from the manufacturing databases. This paper reviews the literature dealing with knowledge discovery and data mining applications in the broad domain of manufacturing with a special emphasis on the type of functions to be performed on the data. The major data mining functions to be performed include characterization and description, association, classification, prediction, clustering and evolution analysis. The papers reviewed have therefore been categorized in these five categories. It has been shown that there is a rapid growth in the application of data mining in the context of manufacturing processes and enterprises in the last 3 years. This review reveals the progressive applications and existing gaps identified in the context of data mining in manufacturing. A novel text mining approach has also been used on the abstracts and keywords of 150 papers to identify the research gaps and find the linkages between knowledge area, knowledge type and the applied data mining tools and techniques
Improving intrusion detection systems using data mining techniques
Recent surveys and studies have shown that cyber-attacks have caused a
lot of damage to organisations, governments, and individuals around the world.
Although developments are constantly occurring in the computer security field,
cyber-attacks still cause damage as they are developed and evolved by
hackers. This research looked at some industrial challenges in the intrusion
detection area. The research identified two main challenges; the first one is that
signature-based intrusion detection systems such as SNORT lack the capability of
detecting attacks with new signatures without human intervention. The other
challenge is related to multi-stage attack detection, it has been found that
signature-based is not efficient in this area. The novelty in this research is
presented through developing methodologies tackling the mentioned challenges.
The first challenge was handled by developing a multi-layer classification
methodology. The first layer is based on decision tree, while the second layer is a
hybrid module that uses two data mining techniques; neural network, and fuzzy
logic. The second layer will try to detect new attacks in case the first one fails to
detect. This system detects attacks with new signatures, and then updates the
SNORT signature holder automatically, without any human intervention. The
obtained results have shown that a high detection rate has been obtained with
attacks having new signatures. However, it has been found that the false positive
rate needs to be lowered. The second challenge was approached by evaluating IP
information using fuzzy logic. This approach looks at the identity of participants
in the traffic, rather than the sequence and contents of the traffic. The results have
shown that this approach can help in predicting attacks at very early stages in
some scenarios. However, it has been found that combining this approach with a
different approach that looks at the sequence and contents of the traffic, such as
event- correlation, will achieve a better performance than each approach
individually
Database marketing intelligence methodology supported by ontologies and knowlegde discovery in databases
Tese de doutoramento em Tecnologias e Sistemas de InformaçãoActualmente as organizações actuam em ambientes caracterizados pela inconstância,
elevada competitividade e pressão no desenvolvimento de novas abordagens ao
mercado e aos clientes. Nesse contexto, o acesso à informação, o suporte à tomada de
decisão e a partilha de conhecimento tornam-se essenciais para o desempenho
organizativo.
No domínio do marketing têm surgido diversas abordagens para a exploração do
conteúdo das suas bases de dados. Uma das abordagens, utilizadas com maior sucesso,
tem sido o processo para a descoberta de conhecimento em bases de dados. Por outro
lado, a necessidade de representação e partilha de conhecimento tem contribuído para
um crescente desenvolvimento das ontologias em áreas diversas como sejam medicina,
aviação ou segurança.
O presente trabalho cruza diversas áreas: tecnologias e sistemas de informação (em
particular a descoberta de conhecimento), o marketing (especificamente o database
marketing) e as ontologias. O objectivo principal desta investigação foca o papel das
ontologias em termos de suporte e assistência ao processo de descoberta de
conhecimento em bases de dados num contexto de database marketing. Através de
abordagens distintas foram formuladas duas ontologias: ontologia para o processo de
descoberta de conhecimento em bases de dados e, a ontologia para o processo database
marketing suportado na extracção de conhecimento em bases de dados (com
reutilização da ontologia anterior). O processo para licitação e validação de
conhecimento, baseou-se no método de Delphi (ontologia de database marketing) e no
processo de investigação baseada na revisão de literatura (ontologia de descoberta de
conhecimento). A concretização das ontologias suportou-se em duas metodologias:
metodologia methontology, para a ontologia de descoberta de conhecimento e
metodologia 101 para a ontologia de database marketing. A última, evidencia a
reutilização de ontologias, viabilizando assim a reutilização da ontologia de descoberta
de conhecimento na ontologia de database marketing. Ambas ontologias foram desenvolvidas sobre a ferramenta Protege-OWL permitindo não só a criação de toda a
hierarquia de classes, propriedades e relações, como também, a realização de métodos
de inferência através de linguagens baseadas em regras de Web semântica.
Posteriormente, procedeu-se à experimentação da ontologia em casos práticos de
extracção de conhecimento a partir de bases de dados de marketing.
O emprego das ontologias neste contexto de investigação, representa uma abordagem
pioneira e inovadora, uma vez que são propostas para assistirem em cada uma das fases
do processo de extracção de conhecimento em bases de dados através de métodos de
inferência. È assim possível assistir o utilizador em cada fase do processo de database
marketing em acções tais como de selecção de actividades de marketing em função dos
objectivos de marketing (e.g., perfil de cliente), em acções de selecção dados (e.g., tipos
de dados a utilizar em função da actividade a desenvolver) ou mesmo no processo de
selecção de algoritmos (e.g. inferir sobre o tipo de algoritmo a usar em função do
objectivo definido).
A integração das duas ontologias num contexto mais lato permite, propor uma
metodologia com vista ao efectivo suporte do processo de database marketing baseado
no processo de descoberta de conhecimento em bases de dados, denominado nesta
dissertação como: Database Marketing Intelligence. Para a demonstração da viabilidade
da metodologia proposta foi seguido o método action-research com o qual se observou
e testou o papel das ontologias no suporte à descoberta de conhecimento em bases de
dados (através de um caso prático) num contexto de database marketing. O trabalho de
aplicação prática decorreu sobre uma base de dados real relativa a um cartão de
fidelização de uma companhia petrolífera a operar em Portugal.
Os resultados obtidos serviram para demonstrar em duas vertente o sucesso da
abordagem proposta: por um lado foi possível formalizar e acompanhar todo o processo
de descoberta de conhecimento em bases de dados; por outro lado, foi possível
perspectivar uma metodologia para um domínio concreto suportado por ontologias
(suporte á decisão na selecção de métodos e tarefas) e na descoberta de conhecimento
em bases de dados.Nowadays, the environment in which companies work is turbulent, very competitive
and pressure in the development of new approaches to the market and clients. In this
context, the access to information, the decision support and knowledge sharing become
essential for the organization performance.
In the marketing domain several approaches for the exploration of database exploration
have emerged. One of the most successfully used approaches has been the knowledge
discovery process in databases. On the other hand, the necessity of knowledge
representation and sharing and contributed to a growing development of ontologies in
several areas such as in the medical, the aviation or safety areas.
This work crosses several areas: technology and information systems (specifically
knowledge discovery in databases), marketing (specifically database marketing) and
ontologies in general. The main goal of this investigation is to focus on the role of
ontologies in terms of support and aid to the knowledge discovery process in databases
in a database marketing context. Through distinct approaches two ontologies were
created: ontology for the knowledge discovery process in databases, and the ontology
for the database marketing process supported on the knowledge extraction in databases
(reusing the former ontology). The elicitation and validation of knowledge process was
based on the Delphi method (database marketing ontology) and the investigation
process was based on literature review (knowledge discovery ontology). The carrying
out of both ontologies was based on two methodologies: methontology methodology,
for the knowledge discovery process and 101 methodology for the database marketing
ontology. The former methodology, stresses the reusing of ontologies, allowing the
reusing of the knowledge discovery ontology in the database marketing ontology. Both
ontologies were developed with the Protege-OWL tool. This tool allows not only the
creation of all the hierarchic classes, properties and relationships, but also the carrying
out of inference methods through web semantics based languages. Then, the ontology
was tested in practical cases of knowledge extraction from marketing databases. The application of ontologies in this investigation represents a pioneer and innovative
approach, once they are proposed to aid and execute an effective support in each phase
of the knowledge extraction from databases in the database marketing context process.
Through inference processes on the knowledge base created it was possible to assist the
user in each phase of the database marketing process such as, in marketing activity
selection actions according to the marketing objectives (e.g., client profile) or in data
selection actions (e.g., type of data to use according to the activity to be preformed. In
relation to aid in the knowledge discovery process in databases, it was also possible to
infer on the type of algorithm to use according to the defined objective or even
according to the type of data pre-processing activities to develop regarding the type of
data and type of attribute information.
The integration of both ontologies in a more general context allows proposing a
methodology aiming to the effective support of the database marketing process based on
the knowledge discovery process in databases, named in this dissertation as: Database
Marketing Intelligence. To demonstrate the viability of the proposed methodology the
action-research method was followed with which the role of ontologies in assisting
knowledge discovery in databases (through a practical case) in the database marketing
context was observed and tested. For the practical application work a real database
about a customer loyalty card from a Portuguese oil company was used.
The results achieved demonstrated the success of the proposed approach in two ways:
on one hand, it was possible to formalize and follow the whole knowledge discovery in
databases process; on the other hand, it was possible to perceive a methodology for a
concrete domain supported by ontologies (support of the decision in the selection of
methods and tasks) and in the knowledge discovery in databases.Fundação para a Ciência e a Tecnologia (FCT) - SFRH/BD/36541/200
- …