1,289 research outputs found
Answering Non-Monotonic Queries in Relational Data Exchange
Relational data exchange is the problem of translating relational data from a
source schema into a target schema, according to a specification of the
relationship between the source data and the target data. One of the basic
issues is how to answer queries that are posed against target data. While
consensus has been reached on the definitive semantics for monotonic queries,
this issue turned out to be considerably more difficult for non-monotonic
queries. Several semantics for non-monotonic queries have been proposed in the
past few years. This article proposes a new semantics for non-monotonic
queries, called the GCWA*-semantics. It is inspired by semantics from the area
of deductive databases. We show that the GCWA*-semantics coincides with the
standard open world semantics on monotonic queries, and we further explore the
(data) complexity of evaluating non-monotonic queries under the
GCWA*-semantics. In particular, we introduce a class of schema mappings for
which universal queries can be evaluated under the GCWA*-semantics in
polynomial time (data complexity) on the core of the universal solutions.Comment: 55 pages, 3 figure
Grundlagen der Anfrageverarbeitung beim relationalen Datenaustausch
Relational data exchange deals with translating relational data according to a given specification. This problem is one of the many tasks that arise in data integration, for example, in data restructuring, in ETL (Extract-Transform-Load) processes used for updating data warehouses, or in data exchange between different, possibly independently created, applications. Systems for relational data exchange exist for several decades now. Motivated by their experiences with one of those systems, Fagin, Kolaitis, Miller, and Popa (2003) studied fundamental and algorithmic issues arising in relational data exchange. One of these issues is how to answer queries that are posed against the target schema (i.e., against the result of the data exchange) so that the answers are consistent with the source data. For monotonic queries, the certain answers semantics proposed by Fagin, Kolaitis, Miller, and Popa (2003) is appropriate. For many non-monotonic queries, however, the certain answers semantics was shown to yield counter-intuitive results. This thesis deals with computing the certain answers for monotonic queries on the one hand, and on the other hand, it deals with the issue of which semantics are appropriate for answering non-monotonic queries, and how hard it is to evaluate non-monotonic queries under these semantics. As shown by Fagin, Kolaitis, Miller, and Popa (2003), computing the certain answers for unions of conjunctive queries - a subclass of the monotonic queries - basically reduces to computing universal solutions, provided the data transformation is specified by a set of tgds (tuple-generating dependencies) and egds (equality-generating dependencies). If M is such a specification and S is a source database, then T is called a solution for S under M if T is a possible result of translating S according to M. Intuitively, universal solutions are most general solutions. Since the above-mentioned work by Fagin, Kolaitis, Miller, and Popa it was unknown whether it is decidable if a source database has a universal solution under a given data exchange specification. In this thesis, we show that this problem is undecidable. More precisely, we construct a specification M that consists of tgds only so that it is undecidable whether a given source database has a universal solution under M. From the proof it also follows that it is undecidable whether the chase procedure - by which universal models can be obtained - terminates on a given source database and the set of tgds in M. The above results in particular strengthen results of Deutsch, Nash, and Remmel (2008). Concerning the issue of which semantics are appropriate for answering non-monotonic queries, we study several semantics for answering such queries. All of these semantics are based on the closed world assumption (CWA). First, the CWA-semantics of Libkin (2006) are extended so that they can be applied to specifications consisting of tgds and egds. The key is to extend the concept of CWA-solution, on which the CWA-semantics are based. CWA-solutions are characterized as universal solutions that are derivable from the source database using a suitably controlled version of the chase procedure. In particular, if CWA-solutions exist, then there is a minimal CWA-solution that is unique up to isomorphism: the core of the universal solutions introduced by Fagin, Kolaitis, and Popa (2003). We show that evaluation of a query under some of the CWA-semantics reduces to computing the certain answers to the query on the minimal CWA-solution. The CWA-semantics resolve some the known problems with answering non-monotonic queries. There are, however, two natural properties that are not possessed by the CWA-semantics. On the one hand, queries may be answered differently with respect to data exchange specifications that are logically equivalent. On the other hand, there are queries whose answer under the CWA-semantics intuitively contradicts the information derivable from the source database and the data exchange specification. To find an alternative semantics, we first test several CWA-based semantics from the area of deductive databases for their suitability regarding non-monotonic query answering in relational data exchange. More precisely, we focus on the CWA-semantics by Reiter (1978), the GCWA-semantics (Minker 1982), the EGCWA-semantics (Yahya, Henschen 1985) and the PWS-semantics (Chan 1993). It turns out that these semantics are either too weak or too strong, or do not possess the desired properties. Finally, based on the GCWA-semantics we develop the GCWA*-semantics which intuitively possesses the desired properties. For monotonic queries, some of the CWA-semantics as well as the GCWA*-semantics coincide with the certain answers semantics, that is, results obtained for the certain answers semantics carry over to those semantics. When studying the complexity of evaluating non-monotonic queries under the above-mentioned semantics, we focus on the data complexity, that is, the complexity when the data exchange specification and the query are fixed. We show that in many cases, evaluating non-monotonic queries is hard: co-NP- or NP-complete, or even undecidable. For example, evaluating conjunctive queries with at least one negative literal under simple specifications may be co-NP-hard. Notice, however, that this result only says that there is such a query and such a specification for which the problem is hard, but not that the problem is hard for all such queries and specifications. On the other hand, we identify a broad class of queries - the class of universal queries - which can be evaluated in polynomial time under the GCWA*-semantics, provided the data exchange specification is suitably restricted. More precisely, we show that universal queries can be evaluated on the core of the universal solutions, independent of the source database and the specification.Beim relationalen Datenaustausch geht es um die Transformation relationaler Daten gemÀà einer vorgegebenen Spezifikation. Dieses Problem ist eines der vielen Probleme, die bei der Informationsintegration anfallen, und unterliegt Anwendungen wie der Datenrestrukturierung, dem Austausch von Daten zwischen unabhĂ€ngig voneinander entwickelten Anwendungen und der Aktualisierung von DatenwarenhĂ€usern mittels ETL. Systeme fĂŒr den relationalen Datenaustausch existieren bereits seit einiger Zeit. Motiviert durch die Erfahrungen mit solch einem System haben sich Fagin, Kolaitis, Miller und Popa (2003) genauer mit grundlegenden und algorithmischen Fragestellungen zum relationalen Datenaustausch auseinandergesetzt. Eine dieser Fragestellungen ist, wie Anfragen ĂŒber dem Zielschema (d.h. Anfragen an das Resultat des Datenaustauschs) beantwortet werden können, so dass die Antworten semantisch konsistent mit den Eingabedaten sind. FĂŒr monotone Anfragen ist die von Fagin, Kolaitis, Miller und Popa (2003) vorgestellte Sichere Antworten-Semantik gut geeignet. FĂŒr viele nicht-monotone Anfragen liefert sie jedoch unnatĂŒrliche Antworten. Die vorliegende Dissertation beschĂ€ftigt sich zum Einen mit der Berechnung der sicheren Antworten fĂŒr monotone Anfragen und zum Anderen mit der Problematik, was geeignete Semantiken fĂŒr nicht-monotone Anfragen sind und wie schwer es ist, nicht-monotone Anfragen unter diesen Semantiken auszuwerten. Die Berechnung der sicheren Antworten fĂŒr Vereinigungen konjunktiver Anfragen - einer Teilklasse der monotonen Anfragen - reduziert sich nach Fagin, Kolaitis, Miller und Popa (2003) im Wesentlichen auf die Berechnung universeller Lösungen, wenn die Datentransformation durch eine Menge so genannter tgds (engl. tuple-generating dependencies) und egds (engl. equality-generating dependencies) spezifiziert wurde. Wenn M solch eine Spezifikation und S eine Quelldatenbank ist, so nennt man T eine Lösung fĂŒr S unter M, wenn T ein mögliches Resultat der Transformation von S bezĂŒglich M ist. Universelle Lösungen sind intuitiv allgemeinste Lösungen. Seit der oben genannten Arbeit von Fagin, Kolaitis, Miller und Popa war unbekannt, ob die Existenz universeller Lösungen fĂŒr eine gegebene Quelldatenbank entscheidbar ist. In der vorliegenden Dissertation wird gezeigt, dass dieses Problem unentscheidbar ist. Genauer wird gezeigt, dass es bereits eine feste Spezifikation M mittels tgds gibt, so dass unentscheidbar ist, ob eine gegebene Quelldatenbank unter M eine universelle Lösung besitzt. Nebenbei folgt aus dem Beweis, dass das Problem, ob die zur Berechnung universeller Lösungen eingesetzte Chase-Prozedur fĂŒr die Menge der tgds in M bei gegebener Quelldatenbank terminiert, unentscheidbar ist. Die oben genannten Resultate verstĂ€rken insbesondere Ergebnisse von Deutsch, Nash und Remmel (2008). Zu der Frage, was geeignete Semantiken fĂŒr nicht-monotone Anfragen sind, werden verschiedene Semantiken fĂŒr nicht-monotone Anfragen untersucht. All diese Semantiken basieren auf der so genannten Closed World Assumption (CWA). ZunĂ€chst werden die von Libkin (2006) eingefĂŒhrten CWA-Semantiken so erweitert, dass diese auf Spezifikationen durch tgds und egds anwendbar sind. Der SchlĂŒssel dazu ist die Erweiterung des Konzeptes der CWA-Lösungen, auf dem die CWA-Semantiken basieren. CWA-Lösungen werden als universelle Lösungen charakterisiert, die durch eine spezielle Variante der Chase-Prozedur aus einer Quelldatenbank abgeleitet werden können. Insbesondere gibt es eine bis auf Isomorphie eindeutige minimale CWA-Lösung (falls mindestens eine CWA-Lösung existiert): den von Fagin, Kolaitis und Popa (2003) eingefĂŒhrten Kern der universellen Lösungen. Die Auswertung von Anfragen unter einigen der CWA-Semantiken lassen sich auf die Berechnung der sicheren Antworten der Anfrage auf einer solchen minimalen CWA-Lösung reduzieren. Die CWA-Semantik beseitigt einige der bekannten Probleme bei der Beantwortung nicht-monotoner Anfragen. Es gibt jedoch zwei natĂŒrliche Eigenschaften, die die CWA-Semantiken nicht besitzen. Zum Einen werden Anfragen unter logisch Ă€quivalenten Spezifikationen nicht notwendigerweise gleich beantwortet. Des Weiteren gibt es Anfragen, deren Antwort unter den CWA-Semantiken intuitiv den aus der Quelldatenbank und der Spezifikation ableitbaren Information widerspricht. Um eine alternative Semantik zu finden, werden zuerst verschiedene CWA-basierte Semantiken aus dem Bereich der deduktiven Datenbanken betrachtet und auf ihre Tauglichkeit zur Beantwortung nicht-monotoner Anfragen im relationalen Datenaustausch untersucht. Genauer konzentrieren wir uns hier auf die CWA-Semantik von Reiter (1978), die GCWA-Semantik (Minker 1982), die EGCWA-Semantik (Yahya, Henschen 1985) und die PWS-Semantik (Chan 1993). Es stellt sich heraus, dass diese Semantiken zu stark oder zu schwach sind bzw. nicht die erforderlichen Eigenschaften aufweisen. SchlieĂlich wird basierend auf der GCWA-Semantik die GCWA*-Semantik entwickelt, die intuitiv die gewĂŒnschten Eigenschaften besitzt. FĂŒr monotone Anfragen stimmen einige der CWA-Semantiken sowie die GCWA*-Semantik mit der Sicheren Antworten-Semantik ĂŒberein, d.h. Resultate fĂŒr die Sichere Antworten-Semantik gehen auf diese Semantiken ĂŒber. Bei der Frage, wie schwer es ist, nicht-monotone Anfragen unter den oben angesprochenen Semantiken auszuwerten, konzentrieren wir uns auf die DatenkomplexitĂ€t, d.h. die KomplexitĂ€t bei fester Spezifikation und Anfrage. Wir zeigen, dass die Auswertung nicht-monotoner Anfragen in vielen FĂ€llen sehr schwierig ist: co-NP- bzw. NP-schwer bzw. sogar unentscheidbar in der DatenkomplexitĂ€t. So kann z.B. die Auswertung konjunktiver Anfragen mit nur einem zusĂ€tzlichen negativen Literal unter bereits sehr einfachen Spezifikationen co-NP-hart sein. Man beachte, dass dieses Resultat besagt, dass es eine schwierige Anfrage und eine schwierige Spezifikation gibt, jedoch nicht, dass alle solchen Anfragen und Spezifikationen schwer sind. Auf der anderen Seite identifizieren wir eine gröĂere Klasse von Anfragen - die so genannten universellen Anfragen -, die sich unter der GCWA*-Semantik in Polynomialzeit auswerten lassen, wenn die Spezifikation der Datentransformation genĂŒgend eingeschrĂ€nkt ist. PrĂ€ziser wird gezeigt, dass universelle Anfragen unabhĂ€ngig von der (genĂŒgend eingeschrĂ€nkten) Spezifikation und der Quelldatenbank auf dem Kern der universellen Lösungen in Polynomialzeit auswertet werden können, auf dem auch eine Vielzahl anderer Anfragen ausgewertet werden können
The Vadalog System: Datalog-based Reasoning for Knowledge Graphs
Over the past years, there has been a resurgence of Datalog-based systems in
the database community as well as in industry. In this context, it has been
recognized that to handle the complex knowl\-edge-based scenarios encountered
today, such as reasoning over large knowledge graphs, Datalog has to be
extended with features such as existential quantification. Yet, Datalog-based
reasoning in the presence of existential quantification is in general
undecidable. Many efforts have been made to define decidable fragments. Warded
Datalog+/- is a very promising one, as it captures PTIME complexity while
allowing ontological reasoning. Yet so far, no implementation of Warded
Datalog+/- was available. In this paper we present the Vadalog system, a
Datalog-based system for performing complex logic reasoning tasks, such as
those required in advanced knowledge graphs. The Vadalog system is Oxford's
contribution to the VADA research programme, a joint effort of the universities
of Oxford, Manchester and Edinburgh and around 20 industrial partners. As the
main contribution of this paper, we illustrate the first implementation of
Warded Datalog+/-, a high-performance Datalog+/- system utilizing an aggressive
termination control strategy. We also provide a comprehensive experimental
evaluation.Comment: Extended version of VLDB paper
<https://doi.org/10.14778/3213880.3213888
Preliminary results on Ontology-based Open Data Publishing
Despite the current interest in Open Data publishing, a formal and
comprehensive methodology supporting an organization in deciding which data to
publish and carrying out precise procedures for publishing high-quality data,
is still missing. In this paper we argue that the Ontology-based Data
Management paradigm can provide a formal basis for a principled approach to
publish high quality, semantically annotated Open Data. We describe two main
approaches to using an ontology for this endeavor, and then we present some
technical results on one of the approaches, called bottom-up, where the
specification of the data to be published is given in terms of the sources, and
specific techniques allow deriving suitable annotations for interpreting the
published data under the light of the ontology
Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources
Apache Calcite is a foundational software framework that provides query
processing, optimization, and query language support to many popular
open-source data processing systems such as Apache Hive, Apache Storm, Apache
Flink, Druid, and MapD. Calcite's architecture consists of a modular and
extensible query optimizer with hundreds of built-in optimization rules, a
query processor capable of processing a variety of query languages, an adapter
architecture designed for extensibility, and support for heterogeneous data
models and stores (relational, semi-structured, streaming, and geospatial).
This flexible, embeddable, and extensible architecture is what makes Calcite an
attractive choice for adoption in big-data frameworks. It is an active project
that continues to introduce support for the new types of data sources, query
languages, and approaches to query processing and optimization.Comment: SIGMOD'1
- âŠ