3 research outputs found

    FESHYD : busca federada sobre bases de dados RDF híbridas

    Get PDF
    Orientadora: Carmem Satie HaraCoorientadora: Raqueline Ritter de Moura PenteadoDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 04/09/2020Inclui referências: p.66-67Área de concentração: Ciência da ComputaçãoResumo Na Web Semantica, os dados sao disponibilizados no formato RDF e consultados por meio da linguagem SPARQL. A maioria dos processadores de consultas consideram apenas bases RDF federadas ou apenas bases proprietarias. Bases federadas consistem de um conjunto de repositorios autonomos, enquanto bases proprietarias permitem acesso irrestrito, tanto aos dados quanto ao processamento interno da consulta. Caso uma consulta envolva tanto dados de bases de terceiros autonomas bem como dados da base proprietaria, existem duas alternativas para o seu processamento: (i) tratar a base proprietaria como um componente da base federada; (ii) intervencao do usuario para integrar os dados de base proprietaria e federada. Embora ambas permitam integracao de dados da base, elas nao exploram otimizacoes que sao possiveis pelo fato de haver acesso irrestrito a base proprietaria. Esta questao e tratada nesta dissertacao, com a proposta de uma terceira alternativa, denominada de FeSHyD, que processa consultas SPARQL tanto sobre bases federadas quanto proprietarias distribuidas. O FeSHyD gera um plano de consultas otimizado, que e executado em paralelo por todos os servidores que compoem a base proprietaria. Durante a geracao do plano, a otimizacao envolve metodos para a selecao das fontes e para a ordenacao dos blocos que compoem o plano de consulta, de forma que a base proprietaria seja explorada antes de submeter subconsultas as bases de terceiros. Durante o processamento da consulta, os servidores da base proprietaria submetem estas subconsultas a base federada diretamente, sem a existencia de um ponto central de controle. O sistema foi implementado e os resultados experimentais mostram que ele reduz o tempo de processamento de consultas em ate 45% comparado a alternativa de tratar a base proprietaria como um componente de uma base federada. Palavras-chave: busca federada, consulta SPARQL, bases de dados hibridas distribuidas, integracao de sistemas distribuidos, selecao de fontes, ordenacao das subconsultas.Abstract In the Semantic Web, data is made available in RDF format and queried using the SPARQL language. Most query processors consider only federated RDF bases or only proprietary bases. Federated databases consist of a set of autonomous repositories, while proprietary databases allow unrestricted access, both to data and to query processing execution alternatives. If a query involves both data from autonomous third party databases as well as data from the proprietary database, there are two alternatives for processing it: (i) consider the proprietary base as a component of the federated database; (ii) rely on user intervention to integrate the proprietary and federated databases. Although both alternatives promote data integration, they do not explore optimizations that are possible by the fact that there is unrestricted access to the proprietary base. This issue is addressed in this dissertation, with the proposal of a third alternative, called FeSHyD, which processes SPARQL queries on both federated and distributed proprietary bases. FeSHyD generates an optimized query plan that is executed in parallel by all servers that compose the proprietary database. During the generation of the plan, the optimization involves methods for selecting external data sources, and for ordering the blocks that compose the query plan such that the proprietary base is explored before subqueries are submitted to external sources. During query processing, these subqueries are sent to third party databases directly by the servers, without relying on a central control point. The system was implemented and the experimental results show that it reduces query processing time by up to 45% compared to the alternative of considering the proprietary base as a component of a federated database. Keywords: federated search, SPARQL query, distributed hybrid databases, distributed system integration, source selection, subquery orderin
    corecore