Modularization of extraction of public procurement data to RDF

Abstract

Bakalářská práce se zabývá rozšířením extraktoru dat o veřejných zakázkách získaných ze serveru Tenders Electronic Daily. Tato práce pokrývá v modularizovaném extraktoru dalších 10 typů oznámení o veřejných zakázkách. Data jsou z XML souborů pomocí transformace převáděny do formátu RDF/XML. Rozšíření je realizováno pro formáty publikovaných dat TED-XML a META-XML. Práce dále rozšiřuje a osamostatňuje knihovny funkcí. Nově vytvořená knihovna funkcí je v práci zdokumentována. Pro zajištění správnosti extrahovaných dat z hlediska syntaxe a také použité ontologie jsou použity validační nástroje. Pro validaci syntaxe RDF/XML je použit nástroj Apache Jena Riot a pro testování správnosti výstupů z hlediska použití Public Contracts Ontology nástroj RDFUnit. Přínosem této práce je praktická část, která umožňuje převádět data z věstníku veřejných zakázek členských států EU do formátu RDF/XML. Vytvořené rozšíření umožňuje extrahovat data z oznámení typu F04 - F09 a F15 - F18.The bachelor thesis deals with extension of data extractor of public contracts gained from server Tenders Electronic Daily. The thesis covers a modularized extractor 10 new types of public contract notices. The data is retrieved from XML by using transformation scenario and they are extracted to RDF/XML data format. The extension is realized on TED-XML and META-XML formats of published data. The work also expands and creates independent library of functions. The library is documented. To ensure the accuracy of the extracted data in terms of syntax and also used ontologies there are used validation tools. For command line syntax validation Jena Apache Riot and for testing the correctness of output in terms of use Public Contracts Ontology RDFUnit testing tool. The contribution of this work is the practical part, allowing you to convert semi-structured data from the Journal of procurement of EU Member States into a fully structured data. Enhanced extractor allows you to extract data from the notices type F04 - F09 and F15 - F18

Similar works

Full text

thumbnail-image

Vysoká škola ekonomická v Praze, Česká republika, Document Server

Full text is not available
oai:vse.cz:vskp/45493Last time updated on 4/9/2020

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.