7 research outputs found
Large-Scale Storage and Reasoning for Semantic Data Using Swarms
Scalable, adaptive and robust approaches to store and analyze the massive amounts of data expected from Semantic Web applications are needed to bring the Web of Data to its full potential. The solution at hand is to distribute both data and requests onto multiple computers. Apart from storage, the annotation of data with machine-processable semantics is essential for realizing the vision of the Semantic Web. Reasoning on webscale data faces the same requirements as storage. Swarm-based approaches have been shown to produce near-optimal solutions for hard problems in a completely decentralized way. We propose a novel concept for reasoning within a fully distributed and self-organized storage system that is based on the collective behavior of swarm individuals and does not require any schema replication. We show the general feasibility and efficiency of our approach with a proof-of-concept experiment of storage and reasoning performance. Thereby, we positively answer the research question of whether swarm-based approaches are useful in creating a large-scale distributed storage and reasoning system. © 2012 IEEE
RDF Data Indexing and Retrieval: A survey of Peer-to-Peer based solutions
The Semantic Web enables the possibility to model, create and query resources found on the Web. Enabling the full potential of its technologies at the Internet level requires infrastructures that can cope with scalability challenges and support various types of queries. The attractive features of the Peer-to-Peer (P2P) communication model such as decentralization, scalability, fault-tolerance seems to be a natural solution to deal with these challenges. Consequently, the combination of the Semantic Web and the P2P model can be a highly innovative attempt to harness the strengths of both technologies and come up with a scalable infrastructure for RDF data storage and retrieval. In this respect, this survey details the research works that adopt this combination and gives an insight on how to deal with the RDF data at the indexing and querying levels.Le Web Sémantique permet de modéliser, créer et faire des requêtes sur les ressources disponibles sur le Web. Afin de permettre à ses technologies d'exploiter leurs potentiels à l'échelle de l'Internet, il est nécessaire qu'elles reposent sur des infrastructures qui puissent passer à l'échelle ainsi que de répondre aux exigences d'expressivité des types de requêtes qu'elles offrent. Les bonnes propriétés qu'offrent les dernières générations de systèmes pair-à- pair en termes de décentralisation, de tolérance aux pannes ainsi que de passage à l'échelle en font d'eux des candidats prometteurs. La combinaison du modèle pair-à-pair et des technologies du Web Sémantique est une tentative innovante ayant pour but de fournir une infrastructure capable de passer à l'échelle et pouvant stocker et rechercher des données de type RDF. Dans ce contexte, ce rapport présente un état de l'art et discute en détail des travaux autour de systèmes pair-à-pair qui traitent des données de type RDF à large échelle. Nous détaillons leurs mécanismes d'indexation de données ainsi que le traitement des divers types de requêtes offerts
Scalable discovery of networked data : Algorithms, Infrastructure, Applications
Harmelen, F.A.H. van [Promotor]Siebes, R.M. [Copromotor
Recommended from our members
Investigating elastic cloud based RDF processing
The Semantic Web was proposed as an extension of the traditional Web to give Web data context and meaning by using the Resource Description Framework (RDF) data model. The recent growth in the adoption of RDF in addition to the massive growth of RDF data, have led numerous efforts to focus on the challenges of processing this data. To this extent, many approaches have focused on vertical scalability by utilising powerful hardware, or horizontal scalability utilising always-on physical computer clusters or peer to peer networks. However, these approaches utilise fixed and high specification computer clusters that require considerable upfront and ongoing investments to deal with the data growth. In recent years cloud computing has seen wide adoption due to its unique elasticity and utility billing features.
This thesis addresses some of the issues related to the processing of large RDF datasets by utilising cloud computing. Initially, the thesis reviews the background literature of related distributed RDF processing work and issues, in particular distributed rulebased reasoning and dictionary encoding, followed by a review of the cloud computing paradigm and related literature. Then, in order to fully utilise features that are specific to cloud computing such as elasticity, the thesis designs and fully implements a Cloud-based Task Execution framework (CloudEx), a generic framework for efficiently
distributing and executing tasks on cloud environments. Subsequently, some of the large-scale RDF processing issues are addressed by using the CloudEx framework to develop algorithms for processing RDF using cloud computing. These algorithms perform efficient dictionary encoding and forward reasoning using cloud-based
columnar databases. The algorithms are collectively implemented as an Elastic Cost Aware Reasoning Framework (ECARF), a cloud-based RDF triple store. This thesis
presents original results and findings that advance the state of the art of performing distributed cloud-based RDF processing and forward reasoning
Κατανεμημένη αποτίμηση επερωτήσεων και συλλογιστική για το μοντέλο RDF σε δίκτυα ομοτίμων κόμβων
Με το ενδιαφέρον για τις εφαρμογές του Σημασιολογικού Ιστού να αυξάνεται
ραγδαία, το μοντέλο RDF και RDFS έχει γίνει ένα από τα πιο ευρέως
χρησιμοποιούμενα μοντέλα δεδομένων για την αναπαράσταση και την ενσωμάτωση
δομημένης πληροφορίας στον Ιστό. Το πλήθος των διαθέσιμων πηγών πληροφορίας RDF
συνεχώς αυξάνεται με αποτέλεσμα να υπάρχει μια επιτακτική ανάγκη για τη
διαχείριση RDF δεδομένων. Σε αυτή τη διατριβή επικεντρωνόμαστε στην
κατανεμημένη διαχείριση RDF δεδομένων σε δίκτυα ομότιμων κόμβων. Σχεδιάζουμε
και υλοποιούμε το σύστημα Atlas, ένα πλήρως κατανεμημένο σύστημα για την
αποθήκευση RDF και RDFS δεδομένων, την αποτίμηση και βελτιστοποίηση επερωτήσεων
στη γλώσσα SPARQL και τη συλλογιστική στο μοντέλο RDFS. Το σύστημα Atlas
χρησιμοποιεί κατανεμημένους πίνακες κατακερματισμού, μια δημοφιλή περίπτωση
δικτύων ομότιμων κόμβων. Αρχικά, αναλύουμε κατανεμημένους αλγόριθμους για
συλλογιστική RDFS χρησιμοποιώντας κατανεμημένους πίνακες κατακερματισμού.
Υλοποιηούμε διάφορες παραλλαγές των αλγορίθμων προς τα εμπρός αλυσίδα εκτέλεσης
και προς τα πίσω αλυσίδα εκτέλεσης καθώς και έναν αλγόριθμο που χρησιμοποιεί
την τεχνική μετασχηματισμού των κανόνων σε μαγικό σύνολο. Αποδεικνύουμε
θεωρητικά την ορθότητα των αλγορίθμων αυτών και προσφέρουμε μια συγκριτική
μελέτη τόσο αναλυτικά όσο και πειραματικά. Παράλληλα, προτείνουμε αλγορίθμους
και τεχνικές για την αποτίμηση και τη βελτιστοποίηση επερωτήσεων στη γλώσσα
SPARQL για RDF δεδομένα που είναι αποθηκευμένα σε κατανεμημένους πίνακες
κατακερματισμού. Οι τεχνικές βελτιστοποίησης βασίζονται σε εκτιμήσεις
επιλεκτικότητας και έχουν στόχο τη μείωση του χρόνου απόκρισης της επερώτησης
καθώς και της κατανάλωσης εύρους ζώνης του δικτύου. Η εκτεταμένη πειραματική
αξιολόγηση των μεθόδων βελτιστοποίησης γίνεται σε μια τοπική συστάδα
υπολογιστών χρησιμοποιώντας ένα ευρέως διαδεδομένο σημείο αναφοράς μετρήσεων.With the interest in Semantic Web applications rising rapidly, the Resource
Description Framework (RDF) and its accompanying vocabulary description
language, RDF Schema (RDFS), have become one of the most widely used data
models for representing and integrating structured information in the Web. With
the vast amount of available RDF data sources on the Web increasing rapidly,
there is an urgent need for RDF data management. In this thesis, we focus on
distributed RDF data management in peer-to-peer (P2P) networks. More
specifically, we present results that advance the state-of-the-art in the
research area of distributed RDF query processing and reasoning in P2P
networks. We fully design and implement a P2P system, called Atlas, for the
distributed query processing and reasoning of RDF and RDFS data. Atlas is built
on top of distributed hash tables (DHTs), a commonly-used case of P2P networks.
Initially, we study RDFS reasoning algorithms on top of DHTs. We design and
develop distributed forward and backward chaining algorithms, as well as an
algorithm which works in a bottom-up fashion using the magic sets
transformation technique. We study theoretically the correctness of our
reasoning algorithms and prove that they are sound and complete. We also
provide a comparative study of our algorithms both analytically and
experimentally. In the experimental part of our study, we obtain measurements
in the realistic large-scale distributed environment of PlanetLab as well as in
the more controlled environment of a local cluster. Moreover, we propose
algorithms for SPARQL query processing and optimization over RDF(S) databases
stored on top of distributed hash tables. We fully implement and evaluate a
DHT-based optimizer. The goal of the optimizer is to minimize the time for
answering a query as well as the bandwidth consumed during the query
evaluation. The optimization algorithms use selectivity estimates to determine
the chosen query plan. Our algorithms and techniques have been extensively
evaluated in a local cluster