32 research outputs found

    Extending YAGO2geo with geospatial information from other countries

    Get PDF
    Το YAGO είναι μία τεράστια βάση γνώσης, που προσφέρει τα δεδομένα της δημόσια ως ανοιχτά διασυνδεδεμένα δεδομένα (Τα συνδεδεμένα δεδομένα είναι δομημένα δεδομένα που συνδέονται με άλλα δεδομένα,ώστε να μπορούμε να αποκτήσουμε χρήσιμες πληροφορίες) και έχει αναπτυχθεί από το Max Planck Institute. Το YAGO περιλαμβάνει και συνδιάζει δεδομένα από πολλές διαφορετικές πηγές. Σε αυτή τη διατριβή θα επεκτείνουμε τη βάση πληροφορίας YAGO2geo ( μια βάση γνώσης που αναπτύχθηκε στο Πανεπιστήμιο μας, η οποία επεκτείνει το YAGO με ακριβή γεωχωρικά δεδομένα), προσθέτωντας ή γεωχωρική πληροφορία (πολύγωνα και ευθείες) που “τραβήχτηκαν” από διαφορετικές επίσημες πηγές για την Ολλανδία.YAGO is a large semantic knowledge base that provides their data publicly as Linked Open Data (Linked data is structured data which is interlinked with other data so we can acquire useful information) and it has been developed by the Max Planck Institute. YAGO contains and combines data from various sources. In this thesis we are going to extend YAGO2geo knowledge base, ( a knowledge base, developed in our University that extends YAGO with precise geospatial information), by adding geo-spatial information (polygons and lines) extracted from multiple official sources for Netherlands

    Extending YAGO4 Knowledge Graph with Geospatial Knowledge

    Get PDF
    To YAGO είναι μία από τις μεγαλύτερες βάσεις γνώσης που διαθέτει τα δεδομένα της ως Ανοικτά Διασυνδεδεμένα Δεδομένα. Η τελευταία της έκδοση, YAGO4, συνδιάζει τους λεπτομερείς περιορισμούς με τις πλούσιες οντότητες που παρέχονται από το schema.org και το Wikidata, αντίστοιχα. Με αυτό τον τρόπο, προκύπτουν 2 δισεκατομμύρια "σταθερές" τριάδες που αντιστοιχούν σε 64 εκατομμύρια οντότητες, ενώ ταυτόχρονα δημιουργείται μια σταθερή οντολογία που επιτρέπει τη σημασιολογική συλλογιστική πορεία σύμφωνα με την λογική περιγραφή του OWL 2. Σε αυτή τη δουλειά, επεκτείνουμε αυτό τον γράφο γνώσης με ποιοτική γεωχωρική πληροφορία, η οποία παρέχεται από το σύνολο δεδομένων της Ελληνικής Διοικητικής Γεωγραφίας. Κύριος στόχος μας, είναι η επέκταση των ήδη υπάρχοντων οντοτήτων, καθώς και η δημιουργία εκείνων που λείπουν, χωρίς την εισαγωγή διπλότυπης πληροφορίας.YAGO is one of the largest knowledge bases in the Linked Open Data cloud. The latest version of YAGO, YAGO4, reconciles the rigorous typing and constraints of schema.org with the rich instance data of Wikidata. The resulting resource contains 2 billion type-consistent triples for 64 Million entities, and has a consistent ontology that allows semantic reasoning with OWL 2 description logics. In this work we present an extension of YAGO4 with qualitative geospatial information, extracted from Greek Administrative Geography (GAG) dataset. Our main goal is to extend and create preexisting and missing entities respectively, without introducing any duplication knowledge that already exists in the knowledge graph

    Geospatial Question Answering on the YAGO2geo Knowledge Graph

    Get PDF
    Τα τελευταία χρόνια έχουν γίνει πολλές προσπάθειες για την ανάπτυξη συστημάτων που να μπορούν να επεξεργαστούν ερωτήσεις σε φυσική γλώσσα και να επιστρέψουν έυστοχες απαντήσεις ώστε να γίνει η πληροφορία διαθέσιμη σε όλους και όχι μόνο σε όσους μπορούν να γράψουν ερωτήματα σε βάσεις δεδομένων. Τέτοια συστήματα μπορούν να σχεδιαστούν έτσι ώστε να δουλεύουν για διάφορα είδη ερωτήσεων, από γεγονότα για ιστορικά πρόσωπα μέχρι επιστημονικά προβλήματα. Σε αυτή την πτυχιακή εργασία θα δουλέψουμε με γεωχωρικές ερωτήσεις. Χρησιμοποιούμε ένα ήδη υπάρχον σύστημα γεωχωρικών ερωτήσεων-απαντήσεων φυσικής γλώσσας που μέχρι τώρα χρησιμοποιεί τους γράφους γνώσης Dbpedia, GADM (Database of Global Administrative Areas) και OSM (Open Street Map) και το αλλάζουμε ώστε να χρησιμοποιεί το γράφο γνώσης YAGO2geo ο οποίος έχει επεκταθεί με δεδομένα από το Open Street Map, το Ordnance Survey και το GADM. Ο σκοπός της αλλαγής αυτής είναι η επίτευξη αποτελεσμάτων μεγαλύτερης ακρίβειας χρησιμοποιώντας τα γεωχωρικά δεδομένα του Open Street Map και του Ordnance και τον τεράστιο αριθμό κλάσεων που περιέχονται στο γράφο γνώσης YAGO2.In the recent years there have been many attempts to develop systems that can process natural language questions and return meaningful answers in order to make information available to everyone and not only to people who can write queries for databases. Such systems can be designed to work for different types of questions varying from facts about historical figures all the way to questions about science problems. In this thesis, we will be working with geospatial questions. We use an already existing geospatial natural language QA system (GeoQA system) that is currently using the DBpedia, GADM (Database of Global Administrative Areas) and OSM (Open Street Map) knowledge graphs and changing it to use the YAGO2geo knowledge graph which has been extended with Open Street Map, Ordnance Survey and GADM data. The purpose of this change is to achieve more accurate results using the geospatial information that is in Open Street Map and Ordnance Survey and the huge amount of classes that are included in the YAGO2 knowledge graph

    Geospatial Query Answering Using Knowledge Graph Embeddings

    Get PDF
    Τα γραφήματα γεωχωρικής γνώσης πάσχουν από ελλιπή στοιχεία, τα οποία οφείλονται στις όχι πάντα αξιόπιστες πηγές δεδομένων. Αυτό επηρεάζει δραματικά τα αποτελέσματα της απάντησης γεωχωρικών ερωτημάτων με τις παραδοσιακές τεχνικές που χρησιμοποιούν τυποποιημένες γλώσσες ερωτημάτων όπως η stSPARQL ή η GeoSPARQL. Τα μοντέλα που βασίζονται στην ενσωμάτωση προβάλλουν τις οντότητες και τις σχέσεις του ερωτήματος που τίθεται στον συνεχή διανυσματικό χώρο, προβλέποντας, με αυτόν τον τρόπο, τις απαντήσεις στο ερώτημα που τίθεται. Ως εκ τούτου, μπορούν να χειριστούν ερωτήματα για τα οποία τα δεδομένα που απαιτούνται για την απάντησή τους δεν δηλώνονται ρητά στον γράφο γνώσης. Στην παρούσα ερευνητική εργασία, αναπτύξαμε το μοντέλο απάντησης γεωχωρικών ερωτημάτων με βάση την ενσωμάτωση, SQABo, το οποίο κωδικοποιεί τα γεωχωρικά ερωτήματα ως κουτιά στον χώρο ενσωμάτωσης και επιστρέφει τις απαντήσεις εντός του κουτιού. Δείχνουμε ότι αυτή η προσέγγιση έχει καλύτερες επιδόσεις από τις υπάρχουσες εργασίες στη βιβλιογραφία, οι οποίες κωδικοποιούν τα ερωτήματα ως σημεία στο διανυσματικό χώρο. Επιπλέον, διαθέτουμε ελεύθερα στην ερευνητική κοινότητα ένα σύνολο δεδομένων για την απάντηση ερωτημάτων για το YAGO2geo, έναν από τους πλουσιότερους και ακριβέστερους γράφους γεωχωρικής γνώσης, για μελλοντική έρευνα.Geospatial knowledge graphs suffer from incompleteness which is due to the not-alwaysreliable data sources. This dramatically affects the results of geospatial query answering with traditional techniques which use standard query languages like stSPARQL or GeoSPARQL.An alternative method for query answering is by using KG embeddings. Embedding-based models project entities and relations of the posed query onto the continuous vector space, predicting, this way, the answers to the posed query. Hence, they can handle queries for which the data required for their answering is not explicitly stated in the knowledge graph. In this research work, we have developed the embedding-based geospatial query answering model, SQABo, which encodes the geospatial queries as boxes into the embedding space and returns the answers inside the box. We show that this approach performs better than existing work in the literature, which encodes the queries as points in the vector space. Additionally, we make freely available a query-answering dataset for YAGO2geo, one of the richest and most precise geospatial knowledge graphs, to the research community for future research

    Extending the YAGO Knowledge Graph with Geospatial Knowledge

    Get PDF
    Η βάση γνώσης YAGO είναι μία από τις μεγαλύτερες βάσεις γνώσεις, που διαθέτουν τα δε- δομένα τους ως ανοιχτά διασυνδεδεμένα δεδομένα. Χωρική πληροφορία, δηλαδή η ανα- παράσταση της τοποθεσίας οντοτήτων με ένα σημείο, προστέθηκε στη δεύτερη έκδοση του YAGO. Σε αυτή τη δουλειά έχουμε ως σκοπό να επεκτείνουμε το γράφο γνώσης του YAGO με ποιοτική γεωχωρική πληροφορία (πολύγωνα και ευθείες), η οποία προέρχεται από πολλαπλές πηγές. Μελετήσαμε δεδομένα τα οποία διανέμονται όχι μόνο από έργα που βασίζονται στον πληθοπορισμό αλλά και από επίσημες πηγές διαφόρων κρατών. Εί- ναι σημαντικό να μην προσθέσουμε στο γράφο γνώσης πληροφορία που ήδη υπάρχει σε αυτόν και γι’ αυτό το λόγο ψάχνουμε συσχετίσεις μεταξύ των οντοτήτων του YAGO και εκείνων που ανήκουν στα σύνολα δεδομένων που εξετάσαμε. Τα αποτελέσματα δείχνουν πως η μεθοδολογία μας παρήγαγε συσχετίσεις με πολύ μεγάλη ακρίβεια. Στο τέλος της εργασίας αυτής παρουσιάζουμε τον επεκταμένο γράφο γνώσης.YAGO is one of the largest knowledge bases that provide their data as Linked Open Data. Spatial information, in the form of points, was introduced in YAGO2, the second version of YAGO. In this work we present an extension of YAGO with qualitative geospatial inform- ation (i.e., polygons and lines), which was extracted from multiple sources. We studied datasets that are provided from crowdsourced projects as well as from official sources of several countries. It is important to point out that we do not introduce duplicate information in the knowledge graph of YAGO, by creating entities that already exist. Hence, at first, we try to match entities of YAGO with the entities of the data sources that we used. Our results show that our methodology produced matches with very high precision. This work is concluded with a demonstration of the extended knowledge graph

    Ένα σύστημα για την σταδιακή ενημέρωση του γράφου γνώσης YAGO2geo με γεωχωρική πληροφορία από το OpenStreetMap

    Get PDF
    Το YAGO αποτελεί μια από τις μεγαλύτερες βάσεις γνώσης σήμερα, που διαθέτει τα δεδομένα της ως ανοικτή πληροφορία. Μια επέκταση του YAGO2 είναι το YAGO2geo. Το YAGO2geo αποτελεί έναν γνωσιακό γράφο με ακριβή γεωχωρική πληροφορία όπου ένα μεγάλο μέρος της προέρχεται από το OpenStreetMap. Ο βασικός σκοπός της πτυχιακής εργασίας είναι να διατηρήσει την ακρίβεια της γεωχωρικής αυτής πληροφορίας κρατώντας την ενημερωμένη στο σήμερα. Για να επιτευχθεί το προηγούμενο, η εργασία χωρίζεται σε τρία μέρη. Το πρώτο μέρος, αποτελεί την ανάκτηση των πιο πρόσφατων δεδομένων που χρειάζονται. Το δεύτερο και κυριότερο μέρος εμπεριέχει την διασύνδεση των δεδομένων αυτών με εκείνων του YAGO2geo. Αυτό επιτυγχάνεται με την χρήση της PostgreSQL , μιας σχεσιακής βάσης δεδομένων ανοιχτού κώδικα, μέσω της οποίας θα γίνει η ενημέρωση των δεδομένων. Το τρίτο σκέλος αποτελεί το ανέβασμα της νέας πληροφορίας με την χρήση ενός SPARQL endpoint όπου και βρίσκεται ο Γνωσιακός Γράφος του YAGO2geo.Yago is one of the largest open source Knowledge Bases nowadays. An extension of YAGO2 is YAGO2geo. YAGO2geo represents a knowledge graph with precise geospatial information. A large part of this data comes from OpenStreetMap. The main purpose of this thesis is to preserve the precision of the geospatial information by keeping it updated. To achieve this, the process can be divided into three parts. The first describes the acquisition of the most recent data we need. The second and the main part of the process includes the link and the update of YAGO2geo information using the previous data. In order to accomplish this, we are using the PostgreSQL database, a free and open-source relational database. The thrird and last part is to upload all the updated data on YAGO2geo Knowledge Graph by using a SPARQL endpoint

    Transforming into RDF and Interlinking Βig Geospatial Data

    Get PDF
    Στην εποχή των μεγάλων δεδομένων, μια μεγάλη ποσότητα γεωχωρικών δεδομένων είναι διαθέσιμη στο διαδίκτυο, προερχόμενη από κρατικές υπηρεσίες, εταιρίες και ερευνητικά έργα. Στις περισσότερες περιπτώσεις, αυτά τα δεδομένα δεν ακολουθούν το πρωτόκολλο των διασυνδεδεμένων δεδομένων και οι συνηθισμένοι μέθοδοι μετατροπείς τους έχουν αποδειχθεί ανεπαρκής, εξαιτίας του μεγάλου τους όγκου. Για αυτό τον λόγο, επεκτείνουμε το εργαλείο GeoTriples ώστε να μπορεί να μετατρέψει μεγάλα γεωχωρικά δεδομένα σε RDF γράφους, χρησιμοποιώντας το Apache Spark. Επιπλέον, μετατρέποντας τα δεδομένα σαν RDF τριπλέτες, μπορούμε να τα διασυνδέσουμε με άλλα υπάρχοντα συνδεδεμένα δεδομένα και να εμπλουτίσουμε περαιτέρω το σύννεφο των Ανοικτών Διασυνδεδεμένων Δεδομένων (Linked Open Data cloud). Οπότε, σε αυτήν την εργασία παρουσιάζουμε επίσης κάποιους καινοτόμους αλγορίθμους για συνολική ή βαθμιαία διασύνδεση γεωχωρικών δεδομένων, αλλά και πως τους έχουμε παραλληλοποιήσει στο σύστημα DS­JedAI, το οποίο δουλεύει πάνω στο Apache Spark. Στο τέλος, εκτελούμε αναλυτική αξιολόγηση των συστημάτων και αποδεικνύουμε ότι μπορούν να διαχειριστούν μεγάλα γεωχωρικά δεδομένα αποτελεσματικά.In the era of big data, a vast amount of geospatial data has become available from government agencies, businesses and research projects. In most cases, this data does not follow the linked data paradigm and the conventional methods for transforming it into linked data has been proved ineffective due to its large volume. For this purpose, we extended GeoTriples, an open-source tool developed by our group, to be able to massively transform big geospatial data into RDF graphs, using Apache Spark. Furthermore, by transforming it into RDF, we can interlink it with other linked data and further populated the Linked Open Data Cloud. In this work, we also present novel algorithms for batch and progressive Geospatial Interlinking, as well as how we have parallelized them in the system DS­JedAI, that runs on top of Apache Spark. In the end, we perform a detailed evaluation of both systems and we show that they can operate on big geospatial data effectively

    Big Data Computing for Geospatial Applications

    Get PDF
    The convergence of big data and geospatial computing has brought forth challenges and opportunities to Geographic Information Science with regard to geospatial data management, processing, analysis, modeling, and visualization. This book highlights recent advancements in integrating new computing approaches, spatial methods, and data management strategies to tackle geospatial big data challenges and meanwhile demonstrates opportunities for using big data for geospatial applications. Crucial to the advancements highlighted in this book is the integration of computational thinking and spatial thinking and the transformation of abstract ideas and models to concrete data structures and algorithms

    Knowledge Extraction for Hybrid Question Answering

    Get PDF
    Since the proposal of hypertext by Tim Berners-Lee to his employer CERN on March 12, 1989 the World Wide Web has grown to more than one billion Web pages and still grows. With the later proposed Semantic Web vision,Berners-Lee et al. suggested an extension of the existing (Document) Web to allow better reuse, sharing and understanding of data. Both the Document Web and the Web of Data (which is the current implementation of the Semantic Web) grow continuously. This is a mixed blessing, as the two forms of the Web grow concurrently and most commonly contain different pieces of information. Modern information systems must thus bridge a Semantic Gap to allow a holistic and unified access to information about a particular information independent of the representation of the data. One way to bridge the gap between the two forms of the Web is the extraction of structured data, i.e., RDF, from the growing amount of unstructured and semi-structured information (e.g., tables and XML) on the Document Web. Note, that unstructured data stands for any type of textual information like news, blogs or tweets. While extracting structured data from unstructured data allows the development of powerful information system, it requires high-quality and scalable knowledge extraction frameworks to lead to useful results. The dire need for such approaches has led to the development of a multitude of annotation frameworks and tools. However, most of these approaches are not evaluated on the same datasets or using the same measures. The resulting Evaluation Gap needs to be tackled by a concise evaluation framework to foster fine-grained and uniform evaluations of annotation tools and frameworks over any knowledge bases. Moreover, with the constant growth of data and the ongoing decentralization of knowledge, intuitive ways for non-experts to access the generated data are required. Humans adapted their search behavior to current Web data by access paradigms such as keyword search so as to retrieve high-quality results. Hence, most Web users only expect Web documents in return. However, humans think and most commonly express their information needs in their natural language rather than using keyword phrases. Answering complex information needs often requires the combination of knowledge from various, differently structured data sources. Thus, we observe an Information Gap between natural-language questions and current keyword-based search paradigms, which in addition do not make use of the available structured and unstructured data sources. Question Answering (QA) systems provide an easy and efficient way to bridge this gap by allowing to query data via natural language, thus reducing (1) a possible loss of precision and (2) potential loss of time while reformulating the search intention to transform it into a machine-readable way. Furthermore, QA systems enable answering natural language queries with concise results instead of links to verbose Web documents. Additionally, they allow as well as encourage the access to and the combination of knowledge from heterogeneous knowledge bases (KBs) within one answer. Consequently, three main research gaps are considered and addressed in this work: First, addressing the Semantic Gap between the unstructured Document Web and the Semantic Gap requires the development of scalable and accurate approaches for the extraction of structured data in RDF. This research challenge is addressed by several approaches within this thesis. This thesis presents CETUS, an approach for recognizing entity types to populate RDF KBs. Furthermore, our knowledge base-agnostic disambiguation framework AGDISTIS can efficiently detect the correct URIs for a given set of named entities. Additionally, we introduce REX, a Web-scale framework for RDF extraction from semi-structured (i.e., templated) websites which makes use of the semantics of the reference knowledge based to check the extracted data. The ongoing research on closing the Semantic Gap has already yielded a large number of annotation tools and frameworks. However, these approaches are currently still hard to compare since the published evaluation results are calculated on diverse datasets and evaluated based on different measures. On the other hand, the issue of comparability of results is not to be regarded as being intrinsic to the annotation task. Indeed, it is now well established that scientists spend between 60% and 80% of their time preparing data for experiments. Data preparation being such a tedious problem in the annotation domain is mostly due to the different formats of the gold standards as well as the different data representations across reference datasets. We tackle the resulting Evaluation Gap in two ways: First, we introduce a collection of three novel datasets, dubbed N3, to leverage the possibility of optimizing NER and NED algorithms via Linked Data and to ensure a maximal interoperability to overcome the need for corpus-specific parsers. Second, we present GERBIL, an evaluation framework for semantic entity annotation. The rationale behind our framework is to provide developers, end users and researchers with easy-to-use interfaces that allow for the agile, fine-grained and uniform evaluation of annotation tools and frameworks on multiple datasets. The decentral architecture behind the Web has led to pieces of information being distributed across data sources with varying structure. Moreover, the increasing the demand for natural-language interfaces as depicted by current mobile applications requires systems to deeply understand the underlying user information need. In conclusion, the natural language interface for asking questions requires a hybrid approach to data usage, i.e., simultaneously performing a search on full-texts and semantic knowledge bases. To close the Information Gap, this thesis presents HAWK, a novel entity search approach developed for hybrid QA based on combining structured RDF and unstructured full-text data sources
    corecore