40 research outputs found

    Semantic data mining and linked data for a recommender system in the AEC industry

    Get PDF
    Even though it can provide design teams with valuable performance insights and enhance decision-making, monitored building data is rarely reused in an effective feedback loop from operation to design. Data mining allows users to obtain such insights from the large datasets generated throughout the building life cycle. Furthermore, semantic web technologies allow to formally represent the built environment and retrieve knowledge in response to domain-specific requirements. Both approaches have independently established themselves as powerful aids in decision-making. Combining them can enrich data mining processes with domain knowledge and facilitate knowledge discovery, representation and reuse. In this article, we look into the available data mining techniques and investigate to what extent they can be fused with semantic web technologies to provide recommendations to the end user in performance-oriented design. We demonstrate an initial implementation of a linked data-based system for generation of recommendations

    Dedalo: looking for clusters explanations in a labyrinth of Linked Data

    Get PDF
    We present Dedalo, a framework which is able to exploit Linked Data to generate explanations for clusters. In general, any result of a Knowledge Discovery process, including clusters, is interpreted by human experts who use their background knowledge to explain them. However, for someone without such expert knowledge, those results may be difficult to understand. Obtaining a complete and satisfactory explanation becomes a laborious and time-consuming process, involving expertise in possibly different domains. Having said so, not only does the Web of Data contain vast amounts of such background knowledge, but it also natively connects those domains. While the efforts put in the interpretation process can be reduced with the support of Linked Data, how to automatically access the right piece of knowledge in such a big space remains an issue. Dedalo is a framework that dynamically traverses Linked Data to find commonalities that form explanations for items of a cluster. We have developed different strategies (or heuristics) to guide this traversal, reducing the time to get the best explanation. In our experiments, we compare those strategies and demonstrate that Dedalo finds relevant and sophisticated Linked Data explanations from different areas

    Explaining data patterns using background knowledge from Linked Data

    Get PDF
    When using data mining to find regularities in data, the obtained results (or patterns) need to be interpreted. The explanation of such patterns is achieved using the background knowledge which might be scattered among different sources. This intensive process is usually committed to the experts in the domain. With the rise of Linked Data and the increasing number of connected datasets, we assume that the access to this knowledge can be easier, faster and more automated. This PhD research aims to demonstrate whether Linked Data can be used to provide the background knowledge for pattern interpretation and how

    On approach for the implementation of data mining to business process optimisation in commercial companies

    Get PDF
    Nowadays, organisations aim to automate their business processes to improve operational efficiency, reduce costs, improve the quality of customer service and reduce the probability of human error. Business process intelligence aims to apply data warehousing, data analysis and data mining techniques to process execution data, thus enabling the analysis, interpretation, and optimisation of business processes. Data mining approaches are especially effective in helping us to extract insights into customer behaviour, habits, potential needs and desires, credit associated risks, fraudulent transactions and etc. However, the integration of data mining into business processes still requires a lot of coordination and manual adjustment. This paper aims at reducing this effort by reusing successful data mining solutions. We propose an approach for implementation of data mining into a business process. The confirmation of the suggested approach is based on the results achieved in eight commercial companies, covering different industries, such as telecommunications, banking and retail

    Trepan Reloaded: A Knowledge-driven Approach to Explaining Artificial Neural Networks

    Get PDF
    Explainability in Artificial Intelligence has been revived as a topic of active research by the need of conveying safety and trust to users in the `how' and `why' of automated decision-making. Whilst a plethora of approaches have been developed for post-hoc explainability, only a few focus on how to use domain knowledge, and how this influences the understandability of global explanations from the users' perspective. In this paper, we show how ontologies help the understandability of global post-hoc explanations, presented in the form of symbolic models. In particular, we build on Trepan, an algorithm that explains artificial neural networks by means of decision trees, and we extend it to include ontologies modeling domain knowledge in the process of generating explanations. We present the results of a user study that measures the understandability of decision trees using a syntactic complexity measure, and through time and accuracy of responses as well as reported user confidence and understandability. The user study considers domains where explanations are critical, namely, in finance and medicine. The results show that decision trees generated with our algorithm, taking into account domain knowledge, are more understandable than those generated by standard Trepan without the use of ontologies

    Sesame: clustering with semantic similarity based on multiple ontologies

    Get PDF
    Tese de mestrado, Engenharia Informática (Sistemas de Informação) Universidade de Lisboa, Faculdade de Ciências, 2016Muitas das técnicas de prospecção de dados actualmente utilizadas funcionam de um modo “cego”, limitando-se ao que pode ser extraído directamente a partir dos dados, sem compreender o seu significado e, de um modo geral, deixando a interpretação dos resultados para peritos humanos. É, no entanto, amplamente reconhecido que codificar um maior número de relações entre objectos melhora o desempenho de abordagens de prospecção de dados. Isto, tipicamente, envolve a feitura de regras que sejam capazes de expressar conhecimento relativamente à forma como objectos de dados se relacionam entre si, mas o surgimento de tecnologias de Semantic Web e a sua aplicação em domínios diversificados como as ciências da vida, a astronomia ou a geografia, está a disponibilizar uma grande quantidade de dados enriquecidos com conhecimento de domínio na forma de múltiplas ontologias. Este cenário apresenta oportunidades únicas para a combinação do poder de abordagens de prospecção de dados e aprendizagem máquina com o conhecimento codificado em ontologias. O presente trabalho tem por objectivo abordar o desafio apresentado por esta mudança de paradigma através do desenvolvimento de novas abordagens para a descoberta de conhecimento alavancadas em tecnologias de Semantic Web e na abundância de conhecimento tornado disponível por intermédio das mesmas. Neste contexto, a semelhança semântica surge como um possível caminho para fazer a ponte entre os dois mundos, uma vez que pode ser usada para produzir uma medida de distância entre dois conceitos de uma ontologia ou entre duas entidades anotadas com conjuntos de conceitos de uma ontologia. Tendo em consideração que a distância é uma pedra angular de um número considerável de abordagens de aprendizagem máquina, incluindo diversas abordagens de segmentação (como, por exemplo, k-Means e Farthest First), a integração de semelhança semântica em algoritmos representativos do estado da arte da aprendizagem máquina disponibiliza uma forma de explorar dados usando o conhecimento contido em ontologias. Tendo em vista atingir os objectivos descritos, foi implementada uma estrutura que utiliza duas bibliotecas de software do mais alto nível de desenvolvimento: a Biblioteca de Medidas Semânticas (SML) para o cálculo de semelhança semântica e o Ambiente Waikato para Análise de Conhecimento (WEKA) para algoritmos de aprendizagem máquina. A SML foi ainda estendida tendo em vista permitir a computação de semelhança semântica usando múltiplas ontologias. Pela disponibilização de informação acrescida relativamente a relações entre entidades, o recurso a referências semânticas provenientes de mais do que uma ontologia representa uma oportunidade para reforçar a qualidade potencial de processos de segmentação. Lidar com a integração de múltiplas ontologias numa única medida de semelhança semântica é um desafio conhecido. Neste trabalho foram usadas duas abordagens simples: Híper-grafo e Média Ponderada. Para se obter um híper-grafo na SML, é necessário levar a efeito um processo de redefinição de raízes em que uma raiz virtual é criada para ligar os grafos carregados com cada uma das ontologias envolvidas. A abordagem de média ponderada combina os valores de semelhança semântica pela ponderação dos contributos de cada ontologia. No que diz respeito ao interface com o utilizador, para além de uma opção simples baseada em texto e da possibilidade de execução com especificação de parâmetros em linha de comando foi feita a integração das novas opções no explorador gráfico do WEKA e desenvolvido um ambiente gráfico próprio. Os resultados de cada execução são disponibilizados num ficheiro cujo conteúdo visa essencialmente disponibilizar toda a informação relativa a essa execução com o máximo de clareza incluindo, nomeadamente, uma designada matriz de confusão identificando o número de instâncias de cada classe de dados afetado a cada segmento. O conjunto de dados usado na avaliação da aplicação de segmentação desenvolvida foi obtido a partir de caminhos metabólicos presentes no repositório Reactome que disponibiliza uma lista de proteínas envolvidas para cada um dos caminhos metabólicos. A avaliação foi focada em três tipos de conjuntos de caminhos metabólicos humanos com anotações na ontologia de genes (GO) e/ou na ontologia de entidades químicas de interesse biológico (ChEBI): (1) Sem Ligação, ou seja, grupos distantes de caminhos metabólicos, sem qualquer ligação entre si; (2) Com Ligação, ou seja, diferentes grupos de caminhos metabólicos com uma ligação entre si e (3) Mesmo Grupo, ou seja, caminhos metabólicos pertences a um mesmo grupo de caminhos. Para cada conjunto foram efectuados oito testes, cada um deles com dezasseis tarefas de segmentação, com tamanhos de dados e números de segmentos alvo diversificados. A aplicação inclui dois algoritmos de segmentação, SimplekMeans e Farthest First, e foi testada com duas bem conhecidas medidas de semelhança semântica, a medida semântica de comparação directa de grupos de anotações por cada duas entidades SimGIC e a medida semântica de comparação indirecta de grupos de anotações por cada duas entidades baseada na medida de comparação de pares de conceitos Lin com uma estratégia de agregação Média de Melhores Correspondências. Uma linha de base – referência para os resultados de segmentação tendo em vista capturar a influência da utilização de distâncias semânticas em contraponto às distâncias convencionalmente usadas em segmentação – foi estabelecida cujas anotações foram tratadas como palavras usando filtro disponibilizado pelo WEKA que converte um atributo de cadeia de caracteres num vector representativo das frequências de ocorrência de palavras. Tendo em conta o tipo (dos três atrás descritos) de conjunto de caminhos metabólico, o uso de semelhança semântica é claramente benéfico tanto para o tipo Sem Ligação como para o tipo Com Ligação, com aumentos de desempenho que vão desde +3% a +11%. No que diz respeito ao conjunto Mesmo Grupo, a linha de base tem um desempenho em média melhor do que as abordagens baseadas em semelhança semântica. Os resultados usando ambas as ontologias ou apenas a GO revelam desempenhos muito semelhantes para as mesmas abordagens de segmentação e semelhança semântica, o que não acontece quando é usada unicamente a ontologia ChEBI. Uma pequena parte das proteínas usadas nos conjuntos de dados são anotadas com conceitos da ontologia ChEBI (apenas cerca de 5 a 10%) e a estrutura daquela ontologia é maioritariamente plana, com uma grande proporção de nodos folhas, o que se confirmou diminuir o impacto da utilização de medidas de semelhança semântica. Foi possível confirmar a conhecida tendência em algoritmos de segmentação baseados no k-Means para uma diminuição do desempenho da segmentação associada ao aumento do número alvo de segmentos e ainda, verificar que essa tendência se agrava consideravelmente se, com um elevado número de segmentos alvo, se conjugar um muito elevado número de instâncias a segmentar. Mostrou-se também que esta conjugação se revela, como seria de esperar, causadora de piores tempos de execução com a curiosidade de tal se verificar quando é usado o SimplekMeans mas não com o Farthest First. O primeiro foi, nas mesmas condições de teste, sempre mais lento que o segundo assim como a medida SimGIC foi sempre mais rápida do que a baseada na medida Lin. Foi então possível demonstrar que a utilidade de empregar semelhança semântica depende não só da diversidade e qualidade das anotações existentes nos conjuntos de dados, mas também da estrutura das ontologia usadas e do grau em que as mesmas são capazes de acrescentar informação útil para identificar instâncias semelhantes. O presente trabalho constitui-se como um primeiro contributo que abre caminho a esforços futuros complementares em frentes diversas como, por exemplo: (1) Avaliar melhor as suas potencialidades com testes adicionais com diferentes combinações e números de ontologias usadas bem como diferentes fontes de dados; (2) Explorar algoritmos de segmentação, incluindo métodos de inicialização de centróides, alternativos; (3) Considerar medidas de semelhança semântica mais complexas e (4) Investigar aspectos relacionados com a eficiência computacional no uso de múltiplas ontologias. Em última análise, a abordagem proposta pode vir a ser usada para analisar conjuntos de dados diversos compostos tanto por anotações semânticas como por valores numéricos, através da sua combinação comas abordagens convencionais já disponíveis.Many of the currently employed data mining techniques work in a blind mode, limiting themselves to what can be extracted directly from the data, without understanding its meaning. It is, however, widely recognized that encoding more relations between objects increases the performance of data mining approaches. This typically involves the handcrafting of rules that are able to express knowledge about how data objects relate to each other, but the emergence of semantic web technologies and their application in diverse domains is providing a wealth of data that is enriched with domain knowledge in the form of multiple ontologies. The present work aims at addressing the challenge presented by this paradigm shift by integrating semantic similarity into machine learning algorithms to explore data using the knowledge contained in ontologies. A software application was developed that utilizes two state of the art libraries: The Semantic Measures Library (SML) for semantic similarity calculations and The Waikato Environment for Knowledge Analysis (WEKA) for machine learning algorithms. SML was further extended to allow the computation of semantic similarity using multiple ontologies. The data-set used in the application’s evaluation was derived from the metabolic pathways present in Reactome, which provides a list of involved proteins for each of the pathways. The evaluation focused on three types of sets of human pathways with annotations to GO and ChEBI: (1) No Link, not linked pathways’ groups; (2) Link, pathways’ groups with one link and (3) Same Group, pathways in the same group. It was shown that the usefulness of employing semantic similarity depends not only on the diversity and quality of the data-sets annotations, but also on the structure of the ontologies employed, and the degree to which they are able to impart useful information to identify similar instances. Ultimately, the proposed approach can be used to analyze diverse data-sets composed of both semantic annotations and numerical values, by combining it with the conventional approaches already available
    corecore