1,405 research outputs found

    Ontology of core data mining entities

    Get PDF
    In this article, we present OntoDM-core, an ontology of core data mining entities. OntoDM-core defines themost essential datamining entities in a three-layered ontological structure comprising of a specification, an implementation and an application layer. It provides a representational framework for the description of mining structured data, and in addition provides taxonomies of datasets, data mining tasks, generalizations, data mining algorithms and constraints, based on the type of data. OntoDM-core is designed to support a wide range of applications/use cases, such as semantic annotation of data mining algorithms, datasets and results; annotation of QSAR studies in the context of drug discovery investigations; and disambiguation of terms in text mining. The ontology has been thoroughly assessed following the practices in ontology engineering, is fully interoperable with many domain resources and is easy to extend

    Data Analytics and Knowledge Discovery for Root Cause Analysis in LTE Self-Organizing Networks.

    Get PDF
    En las últimas décadas, las redes móviles han cobrado cada vez más importancia en el mundo de las telecomunicaciones. Lo que empezó con el objetivo de dar un servicio de voz a nivel global, ha tomado recientemente la direcci\'on de convertirse en un servicio casi exclusivo de datos en banda ancha, dando lugar a la red LTE. Como consecuencia de la continua aparición de nuevos servicios, los usuarios demandan cada vez redes con mayor capacidad, mejor calidad de servicio y a precios menores. Esto provoca una dura competición entre los operadores, que necesitan reducir costes y cortes en el servicio causados por trabajos de mejora o problemas. Para este fin, las redes autoorganizadas SON (Self-Organizing Network) proporcionan herramientas para la automatización de las tareas de operación y mantenimiento, haciéndolas más rápidas y mantenibles por pequeños equipos de expertos. Las funcionalidades SON se dividen en tres grupos principales: autoconfiguración (Self-configuration, los elementos nuevos se configuran de forma automática), autooptimización (Self-optimization, los parámetros de la red se actualizan de forma automática para dar el mejor servicio posible) y autocuración (Self-healing, la red se recupera automáticamente de problemas). En el ambiente competitivo de las redes móviles, los cortes de servicio provocados por problemas en la red causan un gran coste de oportunidad, dado que afectan a la experiencia de usuario. Self-healing es la función SON que se encarga de la automatización de la resolución de problemas. El objetivo principal de Self-healing es reducir el tiempo que dura la resolución de un problema y liberar a los expertos de tareas repetitivas. Self-healing tiene cuatro procesos principales: detección (identificar que los usuarios tienen problemas en una celda), compensación (redirigir los recursos de la red para cubrir a los usuarios afectados), diagnosis (encontrar la causa de dichos problemas) y recuperación (realizar las acciones necesarias para devolver los elementos afectados a su operación normal). De todas las funcionalidades SON, Self-healing (especialmente la función de diagnosis) es la que constituye el mayor desafío, dada su complejidad, y por tanto, es la que menos se ha desarrollado. No hay sistemas comerciales que hagan una diagnosis automática con la suficiente fiabilidad para convencer a los operadores de red. Esta falta de desarrollo se debe a la ausencia de información necesaria para el diseño de sistemas de diagnosis automática. No hay bases de datos que recojan datos de rendimiento de la red en casos problemáticos y los etiqueten con la causa del problema que puedan ser estudiados para encontrar los mejores algoritmos de tratamiento de datos. A pesar de esto, se han propuesto soluciones basadas en la Inteligencia Artificial (IA) para la diagnosis, tomando como punto de partida la limitada información disponible. Estos algoritmos a su vez necesitan ser entrenados con datos realistas. Nuevamente, dado que no hay bases de datos de problemas reales, los datos de entrenamiento suelen ser extraídos de simulaciones, lo cual les quita realismo. La causa de la falta de datos es que los expertos en resolución de problemas no registran los casos conforme los van solucionando. En el ambiente competitivo en el que trabajan, su tiempo es un recurso limitado que debe ser utilizado para resolver problemas y no para registrarlos. En el caso en que tales bases de datos fueran recogidas, un aspecto importante a tener en cuenta es que el volumen, variabilidad y velocidad de generación de los datos hacen que éste sea considerado un problema Big Data. El problema principal de los sistemas de diagnosis automática es la falta de conocimiento experto. Para resolver esto, el conocimiento experto debe convertirse a un formato utilizable. Este proceso se conoce como adquisición del conocimiento. Hay dos aproximaciones a la adquisición del conocimiento: manual(a través de entrevistas o con la implicación de los expertos en el desarrollo) o a través de la analítica de datos (minería de datos en bases de datos que contienen el resultado del trabajo de los expertos). Esta tesis estudia la aproximación de la analítica de datos, utilizando las técnicas KDD (Knowledge Discovery and Datamining). Para que esta aproximación pueda ser utilizada, se requiere la existencia de una base de datos de casos reales de fallo, lo cual es un gran desafío. La visión general de esta tesis es una plataforma en la que cada vez que un experto diagnostica un problema en la red, éste puede reportarlo con un esfuerzo mínimo y almacenarlo en el sistema. La parte central de este sistema es un algoritmo de diagnosis (en esta tesis un controlador de lógica borrosa) que evoluciona y mejora aprendiendo de cada nuevo ejemplo, hasta llegar al punto en el que los expertos pueden confiar en su precisión para los problemas más comunes. Cada vez que surja un nuevo problema, se añadirá a la base de datos del sistema, incrementando así aún más su potencia. El fin es liberar a los expertos de tareas repetitivas, de modo que puedan dedicar su tiempo a desafíos cuya resolución sea más gratificante. Por tanto, el primer objetivo de esta tesis es la colección de una base de datos de casos reales de fallos. Para ello, se diseña una interfaz de usuario para la recolección de datos teniendo en cuenta como requisito prioritario la facilidad de uso. Una vez que se dispone de datos recogidos, se analizarán para comprender mejor sus propiedades y obtener la información necesaria para el diseño de los algoritmos de analítica de datos. Otro objetivo de esta tesis es la creación de un modelo de fallos de LTE, encontrando las relaciones entre el rendimiento de la red y la ocurrencia de los problemas. La adquisición del conocimiento se realiza mediante la aplicación de algoritmos de analítica sobre los datos recogidos. Se diseña un proceso KDD que extrae los parámetros de un controlador de lógica borrosa y se aplica sobre la base de datos recogida. Finalmente, esta tesis también tiene como objetivo realizar un análisis de los aspectos Big Data de las funciones Self-healing, y tenerlos en cuenta a la hora de diseñar los algoritmos

    Data mining in manufacturing: a review based on the kind of knowledge

    Get PDF
    In modern manufacturing environments, vast amounts of data are collected in database management systems and data warehouses from all involved areas, including product and process design, assembly, materials planning, quality control, scheduling, maintenance, fault detection etc. Data mining has emerged as an important tool for knowledge acquisition from the manufacturing databases. This paper reviews the literature dealing with knowledge discovery and data mining applications in the broad domain of manufacturing with a special emphasis on the type of functions to be performed on the data. The major data mining functions to be performed include characterization and description, association, classification, prediction, clustering and evolution analysis. The papers reviewed have therefore been categorized in these five categories. It has been shown that there is a rapid growth in the application of data mining in the context of manufacturing processes and enterprises in the last 3 years. This review reveals the progressive applications and existing gaps identified in the context of data mining in manufacturing. A novel text mining approach has also been used on the abstracts and keywords of 150 papers to identify the research gaps and find the linkages between knowledge area, knowledge type and the applied data mining tools and techniques

    Improving intrusion detection systems using data mining techniques

    Get PDF
    Recent surveys and studies have shown that cyber-attacks have caused a lot of damage to organisations, governments, and individuals around the world. Although developments are constantly occurring in the computer security field, cyber-attacks still cause damage as they are developed and evolved by hackers. This research looked at some industrial challenges in the intrusion detection area. The research identified two main challenges; the first one is that signature-based intrusion detection systems such as SNORT lack the capability of detecting attacks with new signatures without human intervention. The other challenge is related to multi-stage attack detection, it has been found that signature-based is not efficient in this area. The novelty in this research is presented through developing methodologies tackling the mentioned challenges. The first challenge was handled by developing a multi-layer classification methodology. The first layer is based on decision tree, while the second layer is a hybrid module that uses two data mining techniques; neural network, and fuzzy logic. The second layer will try to detect new attacks in case the first one fails to detect. This system detects attacks with new signatures, and then updates the SNORT signature holder automatically, without any human intervention. The obtained results have shown that a high detection rate has been obtained with attacks having new signatures. However, it has been found that the false positive rate needs to be lowered. The second challenge was approached by evaluating IP information using fuzzy logic. This approach looks at the identity of participants in the traffic, rather than the sequence and contents of the traffic. The results have shown that this approach can help in predicting attacks at very early stages in some scenarios. However, it has been found that combining this approach with a different approach that looks at the sequence and contents of the traffic, such as event- correlation, will achieve a better performance than each approach individually

    Database marketing intelligence methodology supported by ontologies and knowlegde discovery in databases

    Get PDF
    Tese de doutoramento em Tecnologias e Sistemas de InformaçãoActualmente as organizações actuam em ambientes caracterizados pela inconstância, elevada competitividade e pressão no desenvolvimento de novas abordagens ao mercado e aos clientes. Nesse contexto, o acesso à informação, o suporte à tomada de decisão e a partilha de conhecimento tornam-se essenciais para o desempenho organizativo. No domínio do marketing têm surgido diversas abordagens para a exploração do conteúdo das suas bases de dados. Uma das abordagens, utilizadas com maior sucesso, tem sido o processo para a descoberta de conhecimento em bases de dados. Por outro lado, a necessidade de representação e partilha de conhecimento tem contribuído para um crescente desenvolvimento das ontologias em áreas diversas como sejam medicina, aviação ou segurança. O presente trabalho cruza diversas áreas: tecnologias e sistemas de informação (em particular a descoberta de conhecimento), o marketing (especificamente o database marketing) e as ontologias. O objectivo principal desta investigação foca o papel das ontologias em termos de suporte e assistência ao processo de descoberta de conhecimento em bases de dados num contexto de database marketing. Através de abordagens distintas foram formuladas duas ontologias: ontologia para o processo de descoberta de conhecimento em bases de dados e, a ontologia para o processo database marketing suportado na extracção de conhecimento em bases de dados (com reutilização da ontologia anterior). O processo para licitação e validação de conhecimento, baseou-se no método de Delphi (ontologia de database marketing) e no processo de investigação baseada na revisão de literatura (ontologia de descoberta de conhecimento). A concretização das ontologias suportou-se em duas metodologias: metodologia methontology, para a ontologia de descoberta de conhecimento e metodologia 101 para a ontologia de database marketing. A última, evidencia a reutilização de ontologias, viabilizando assim a reutilização da ontologia de descoberta de conhecimento na ontologia de database marketing. Ambas ontologias foram desenvolvidas sobre a ferramenta Protege-OWL permitindo não só a criação de toda a hierarquia de classes, propriedades e relações, como também, a realização de métodos de inferência através de linguagens baseadas em regras de Web semântica. Posteriormente, procedeu-se à experimentação da ontologia em casos práticos de extracção de conhecimento a partir de bases de dados de marketing. O emprego das ontologias neste contexto de investigação, representa uma abordagem pioneira e inovadora, uma vez que são propostas para assistirem em cada uma das fases do processo de extracção de conhecimento em bases de dados através de métodos de inferência. È assim possível assistir o utilizador em cada fase do processo de database marketing em acções tais como de selecção de actividades de marketing em função dos objectivos de marketing (e.g., perfil de cliente), em acções de selecção dados (e.g., tipos de dados a utilizar em função da actividade a desenvolver) ou mesmo no processo de selecção de algoritmos (e.g. inferir sobre o tipo de algoritmo a usar em função do objectivo definido). A integração das duas ontologias num contexto mais lato permite, propor uma metodologia com vista ao efectivo suporte do processo de database marketing baseado no processo de descoberta de conhecimento em bases de dados, denominado nesta dissertação como: Database Marketing Intelligence. Para a demonstração da viabilidade da metodologia proposta foi seguido o método action-research com o qual se observou e testou o papel das ontologias no suporte à descoberta de conhecimento em bases de dados (através de um caso prático) num contexto de database marketing. O trabalho de aplicação prática decorreu sobre uma base de dados real relativa a um cartão de fidelização de uma companhia petrolífera a operar em Portugal. Os resultados obtidos serviram para demonstrar em duas vertente o sucesso da abordagem proposta: por um lado foi possível formalizar e acompanhar todo o processo de descoberta de conhecimento em bases de dados; por outro lado, foi possível perspectivar uma metodologia para um domínio concreto suportado por ontologias (suporte á decisão na selecção de métodos e tarefas) e na descoberta de conhecimento em bases de dados.Nowadays, the environment in which companies work is turbulent, very competitive and pressure in the development of new approaches to the market and clients. In this context, the access to information, the decision support and knowledge sharing become essential for the organization performance. In the marketing domain several approaches for the exploration of database exploration have emerged. One of the most successfully used approaches has been the knowledge discovery process in databases. On the other hand, the necessity of knowledge representation and sharing and contributed to a growing development of ontologies in several areas such as in the medical, the aviation or safety areas. This work crosses several areas: technology and information systems (specifically knowledge discovery in databases), marketing (specifically database marketing) and ontologies in general. The main goal of this investigation is to focus on the role of ontologies in terms of support and aid to the knowledge discovery process in databases in a database marketing context. Through distinct approaches two ontologies were created: ontology for the knowledge discovery process in databases, and the ontology for the database marketing process supported on the knowledge extraction in databases (reusing the former ontology). The elicitation and validation of knowledge process was based on the Delphi method (database marketing ontology) and the investigation process was based on literature review (knowledge discovery ontology). The carrying out of both ontologies was based on two methodologies: methontology methodology, for the knowledge discovery process and 101 methodology for the database marketing ontology. The former methodology, stresses the reusing of ontologies, allowing the reusing of the knowledge discovery ontology in the database marketing ontology. Both ontologies were developed with the Protege-OWL tool. This tool allows not only the creation of all the hierarchic classes, properties and relationships, but also the carrying out of inference methods through web semantics based languages. Then, the ontology was tested in practical cases of knowledge extraction from marketing databases. The application of ontologies in this investigation represents a pioneer and innovative approach, once they are proposed to aid and execute an effective support in each phase of the knowledge extraction from databases in the database marketing context process. Through inference processes on the knowledge base created it was possible to assist the user in each phase of the database marketing process such as, in marketing activity selection actions according to the marketing objectives (e.g., client profile) or in data selection actions (e.g., type of data to use according to the activity to be preformed. In relation to aid in the knowledge discovery process in databases, it was also possible to infer on the type of algorithm to use according to the defined objective or even according to the type of data pre-processing activities to develop regarding the type of data and type of attribute information. The integration of both ontologies in a more general context allows proposing a methodology aiming to the effective support of the database marketing process based on the knowledge discovery process in databases, named in this dissertation as: Database Marketing Intelligence. To demonstrate the viability of the proposed methodology the action-research method was followed with which the role of ontologies in assisting knowledge discovery in databases (through a practical case) in the database marketing context was observed and tested. For the practical application work a real database about a customer loyalty card from a Portuguese oil company was used. The results achieved demonstrated the success of the proposed approach in two ways: on one hand, it was possible to formalize and follow the whole knowledge discovery in databases process; on the other hand, it was possible to perceive a methodology for a concrete domain supported by ontologies (support of the decision in the selection of methods and tasks) and in the knowledge discovery in databases.Fundação para a Ciência e a Tecnologia (FCT) - SFRH/BD/36541/200
    corecore