    Towards Budget Comparative Analysis: The Need for Fiscal Code Lists as Linked Data

    ABSTRACT Code lists are a key part of budget datasets as they serve for the coding of fiscal concepts within them. However, the great diversity of classifications across countries and concepts does not allow to presume upon their actual value, as dimension properties. In this paper we discuss the need for creating code lists Linked Data for the classifications used in fiscal datasets, in three basic steps. First, code lists have to be extracted from fiscal datasets, especially if there are no relevant metadata in the budget description, which could easily identify them. Next, code lists from different datasets or sources have to be represented in the same way, with SKOS vocabulary, thus they can be linked with each other. Finally, linking of similar code lists will also allow the linking of the containing datasets, increasing their data analysis and knowledge extraction possibilities

    Methods for automated information filtering on the internet

    The aim of this work is to discuss the available methods for information filtering which can be used on the internet. These methods are used for automatic content classification to distinguish between desirable and undesirable items. This work introduces the specifics of internet and the problem of information overload which makes information filtering necessary. It describes the items and core processes that are involved in information filtering. The main attention is focused on the presentation of the particular methods. Dealing with their function and effect it also provides requierements and recommendations for the applications of these methods

    Linked open data pro informace veřejného sektoru

    The diploma thesis introduces the domain of proactive disclosure of public sector information via linked open data. At the start, the legal framework encompassing public sector information is expounded along with the basic approaches for its disclosure. The practices of publishing data as open data are defined as an ap- proach for proactive disclosure that is based on the application of the principle of openness to data with the goal to enable equal access and equal use of the data. The reviewed practices range from necessary legal actions, choices of appropriate technologies, and ways in which the technologies should be used to achieve the best data quality. Linked data is presented as a knowledge technology that, for the most part, fulfils the requirements on open technology suitable for open data. The thesis extrapolates further from the adoption of linked open data in the public sector to recognize the impact and challenges proceeding from this change. The distinctive focus on the side supplying data and the trust in the transformative effects of technological changes are identified among the key sources of these challenges. The emphasis on technologies for data disclosure at the expense of a more careful attention to the use of data is presented as a possible source of risks that may undermine the...Diplomová práce představuje problematiku zveřejňování informací veřejného sek- toru pomocí principů otevřených a propojených dat. Nejprve přibližuje právní rámec, v němž se informace veřejného sektoru nacházejí, a základní přístupy ke zveřejňování těchto informací. Jsou popsány praktiky, kterými jsou defi- nována otevřená data. Tyto praktiky vycházejí z aplikace principu otevřenosti na data a mají pro data zaručit rovný přístup a užití. Zahrnují nezbytné právní úkony, volbu vhodných technologií a jejich správné užití pro dosažení vysoké kvality dat. Propojená data jsou představena jako znalostní technologie, která po většině stránek naplňuje požadavky na otevřenou technologii pro otevřená data. Na základě užití principů otevřených a propojených dat ve veřejné správě jsou domýšleny jejich dopady a výzvy, které z této aplikace vyplývají. Mezi ústředními příčinami výzev, které s sebou převzetí těchto praktik ve veřejné správě nese, je identifikováno zejména vyhraněné zaměření na stranu nabídky dat a důvěra v transformativní účinky technologických změn. Zdůraznění tech- nologií pro zpřístupnění otevřených dat na úkor ohledů ke způsobům užití dat je představeno...

    Linked Open Data for Public Sector Information

    Párování uchazečů a veřejných zakázek pomocí propojených otevřených dat

    Párování prohledává možné páry nabídky a poptávky, které řadí dle míry, s jakou nabídka vyhovuje poptávce. Tato práce demonstruje, jak lze dva obecné postupy, jmenovitě případové usuzování a statistické relační učení, použít pro párování veřejných zakázek a uchazečů o zakázky. V obou případech párování využívá jak logické, tak statistické usuzování operující ve vzájemně porovnatelných, polo-strukturovaných a sémanticky popsaných datech. Na základech případového usuzování jsme navrhli novou metodu párování implementovanou pomocí dotazovacího jazyka SPARQL pro data ve formátu RDF. Metoda využívá podobnostní vyhledávání učící se z dříve udělených zakázek, které interpretuje jako zkušenosti vyřešených problémů. Pro párování vycházející ze statistického relačního učení jsme převzali RESCAL, což je algoritmus pro faktorizaci multi-relačních tenzorů využívající kolektivní učení pro predikci vazeb. Náš přínos v obou přístupech zahrnuje zejména výběr a tvorbu příznaků a také ladění parametrů párování.Metody párování jsme aplikovali na soubor propojených otevřených dat veřejné správy, jehož ústředním prvkem je Věstník veřejných zakázek. Doménu veřejných zakázek jsme zvolili, protože poskytuje explicitně popsané poptávky, které jsou díky zákonem vyžadovanému proaktivnímu zveřejňování oznámení o veřejných zakázkách dostupné v podobě otevřených a strukturovaných dat. Náš výzkum je motivován rozsáhlým pasivním plýtváním ve veřejných zakázkách, které má párování šanci zmírnit návrhy efektivnější alokace veřejných prostředků. Věstník veřejných zakázek jsme pro účely párování integrovali s dalšími daty veřejné správy, jako jsou číselníky nebo rejstříky právních osob. Příprava dat si vyžádala rozsáhlé úsilí při budování komplexních ETL procesů, jednak z důvodu mnoha problémů kvality dat o veřejných zakázkách, ale také kvůli nesourodosti kombinovaných datových sad. Jako rámec datové integrace jsme využili propojená otevřená data, která staví na technologických standardech sémantického webu. Řešení klíčových problémů dat zahrnovalo především návrh a implementaci technik pro propojování a fúzi dat. V průběhu přípravy dat jsme otestovali a integrovali dostupný software založený na technologiích sémantického webu, ale také vyvinuli přepoužitelné nástroje pro předzpracování dat ve formátu RDF.Evaluaci metod párování jsme provedli na úloze predikce vítězných uchazečů o zakázky v retrospektivních datech o zakázkách udělených během doby 10 let. Evaluací metrik přesnosti a diverzity jsme vyhodnotili přínos dílčích faktorů ovlivňujících párování, jako je například expanze dotazů nebo objem dat pro strojové učení. Kvalita a rozsah vstupních dat se projevily jako zásadní faktory rozhodující o úspěšnosti párování. Párování využívající SPARQL ve všech ohledech jednoznačně překonalo přístup založený na algoritmu RESCAL, a to zejména s ohledem na diverzitu výsledků a náročnost výpočtu. Na rozdíl od většiny využitých příznaků, které se projevily jako šum, se příznaky z řízených slovníků popisujících zakázky nebo uchazeče ukázaly pro párování jako podstatně informativnější. Na hodnotu propojených dat poukázaly nejlepší výsledky u obou přístupů, které byly dosaženy párováním kombinujícím příznaky z více datových zdrojů.Matchmaking searches the space of possible pairs of demands and offers and ranks them according to the degree to which the offer satisfies the demand. We demonstrate how two generic approaches, namely case-based reasoning and statistical relational learning, can be applied to matchmaking of public contracts to bidders. Both adaptations use a combination of logical and statistical reasoning for matchmaking in comparable, semi-structured, and semantically described data. We designed and implemented a novel method using case-based reasoning for matchmaking via SPARQL, an RDF query language. It employs a similarity-based search that learns from past awarded contracts, which are treated as experiences of solved problems. In the context of statistical relational learning, we adopted RESCAL, an algorithm for factorization of multi-relational tensor data that leverages collective learning for link prediction. In both approaches our key contributions involve feature selection, feature construction, and tuning the configuration of the matchmakers.We apply the matchmakers to a collection of linked open government data centered on the Czech public procurement dataset. We chose public procurement as our application domain since it provides explicit demands available as structured open data thanks to the proactive disclosure of public procurement notices that is mandated by law. The pervasive large-scale passive waste caused by the inefficiencies in public procurement motivates our research in matchmaking to serve better resource allocation. We integrated the Czech public procurement dataset with other government data, such as business registers or controlled vocabularies. The data preparation required an extensive effort in building complex ETL pipelines, both since the public procurement data is fraught with numerous data quality issues and also due to the heterogeneity of the combined datasets. We used linked open data as a framework for data integration, building on the technological standards included in the semantic web stack. We addressed the key challenges posed by the data by designing and implementing techniques for linking and data fusion. As part of the data preparation we tested and integrated existing software based on the semantic web technologies, as well as developed reusable open-source tools for pre-processing RDF data.We evaluated the matchmakers on the task of predicting the winning bidders of contracts by using retrospective data on contract awards spanning ten years. We compared the impact of the factors involved in matchmaking, such as using query expansion or reducing the volume of data, through the metrics of accuracy and diversity. Data quality and volume manifested to be the fundamental factors that affect matchmaking, in many cases trumping the sophistication of matchmaking algorithms. We found the SPARQL-based approach clearly superior to the RESCAL-based one, especially in terms of diversity metrics and its runtime characteristics. While most features turned out to be noise, the features from controlled vocabularies that describe public contracts or bidders were identified as the most informative for matchmaking. For each approach the best-performing matchmakers combined features from multiple datasets, highlighting the value of contextual data from the linked datasets

    Polythematic Structured Subject Heading System; Conversion and distribution in SKOS format

    NTK - National Technical Library

    Publishing the vocabulary of the types of grey literature as linked data

    The formulation of the vocabulary of the types of grey literature in RDF (Resource Description Framework) provides an explicit conceptualization of the domain of grey literature. This type of modelling harnesses the expressive power of ontology languages for RDF data format and its flexible and extensible nature. Formalized in this way, the vocabulary serves as a means to describe grey literature resources in a structured, machine-readable manner. Adopting linked data publishing model affords the re-use and light-weight integration of the vocabulary with other vocabularies via links. The vocabulary built in this way can re-purpose existing vocabularies and re-purpose their concepts by putting them in a new context. This may lead to tighter integration of grey literature within the Web and make it easier to be discovered

    How to automatically index documents with Polythematic Structured Subject Headings System

    Přednáška se věnuje otázce, jak automaticky přiřadit dokumentům hesla Polytematického strukturovaného hesláře (PSH)