6 research outputs found

    Применение тезаурусов при обработке поисковых запросов: от локального использования – к связанным данным

    Get PDF
    The subject search in natural languages is the most difficult one due to phraseological ambiguities. To solve the problem, the information systems mobilize the terms in controlled dictionaries, e. g. thesauruses. The authors examine the classifications, thesauruses, subject headings, normative (authority) files within the context of the open networked space of the Linked Open Data environment (LOD). These links enable to enhance (complement) user queries with the words from other dictionaries, and to navigate through the other libraries’ systems for the resources. The authors explore the possibility of practical application of EUROVOC and GEMET thesauruses to expand search queries initiated by the users of RNPLS&T’s Single Open Information Archive (SOIA), Portal of Electronic Library (PEL) of the Parliamentary Library of the RF Federal Assembly and the thematic database “Ecology: Science and technologies”, which records could be potentially linked. The authors cite the study findings and characterize the problems revealed.The article is prepared within the framework of the Government Order “Information support of scientific research of scientists and specialists on the basis of the RNPLS&T Open Archive as the scientific knowledge aggregation system, (FNEG-2022-003)” for the years 2022–2024.Тематический поиск на естественном языке является самым сложным из-за фразеологической неоднозначности. Для решения этой проблемы информационные системы могут задействовать термины из контролируемых словарей, таких как тезаурусы. Классификации, тезаурусы, системы предметных рубрик, нормативные (авторитетные) файлы рассматриваются в открытом сетевом пространстве в среде связанных открытых данных (Linked Open Data, LOD) как LOD-словари. Связи между ними позволяют обогащать (дополнять) запросы пользователей словами из других словарей и программно переходить к поиску ресурсов в системах других библиотек. В статье рассматриваются возможности практического применения тезаурусов EUROVOC и GEMET с целью расширения поисковых запросов пользователей Единого открытого архива информации ГПНТБ России (ЕОАИ), Портала электронной библиотеки (ПЭБ) Парламентской библиотеки Федерального собрания Российской Федерации и тематической базы данных «Экология: наука и технологии», записи которых могут стать потенциально связанными. В настоящей работе приводятся результаты исследования и описан характер выявленных проблем.Статья подготовлена в рамках Государственного задания «Информационное обеспечение научных исследований учёных и специалистов на базе Открытого архива ГПНТБ России как системы агрегации научных знаний (FNEG2022-003)» на 2022–2024 гг

    Um Editor de Metadados para Documentar Padrões de Análise em uma Infraestrutura de Reuso

    Get PDF
    O processo de desenvolvimento de software muitas vezes encontra obstáculos para reutilizar padrões de análise devido ao difícil acesso a estes artefatos computacionais. A falta de uma ferramenta que facilite o processo de documentação dos padrões de análise e de um repositório digital para armazená-los contribui negativamente na recuperação e reuso dos mesmos. Este trabalho apresenta a ferramenta DC2AP Metadata Editor. Esta ferramenta é um editor de metadados para padrões de análise baseada no modelo Dublin Core Application Profile for Analysis Patterns (DC2AP). Para organizar o processo de documentação dos padrões de análise e facilitar sua recuperação, o DC2AP Metadata Editor provê padrões de análise documentados como Linked Data, permitindo assim que o conhecimento armazenado nesses artefatos sejam compartilhados e automaticamente interpretados por software

    Content Enrichment of Digital Libraries: Methods, Technologies and Implementations

    Get PDF
    Parallel to the establishment of the concept of a "digital library", there have been rapid developments in the fields of semantic technologies, information retrieval and artificial intelligence. The idea is to use make use of these three fields to crosslink bibliographic data, i.e., library content, and to enrich it "intelligently" with additional, especially non-library, information. By linking the contents of a library, it is possible to offer users access to semantically similar contents of different digital libraries. For instance, a list of semantically similar publications from completely different subject areas and from different digital libraries can be made accessible. In addition, the user is able to see a wider profile about authors, enriched with information such as biographical details, name alternatives, images, job titles, institute affiliations, etc. This information comes from a wide variety of sources, most of which are not library sources. In order to make such scenarios a reality, this dissertation follows two approaches. The first approach is about crosslinking digital library content in order to offer semantically similar publications based on additional information for a publication. Hence, this approach uses publication-related metadata as a basis. The aligned terms between linked open data repositories/thesauri are considered as an important starting point by considering narrower, broader and related concepts through semantic data models such as SKOS. Information retrieval methods are applied to identify publications with high semantic similarity. For this purpose, approaches of vector space models and "word embedding" are applied and analyzed comparatively. The analyses are performed in digital libraries with different thematic focuses (e.g. economy and agriculture). Using machine learning techniques, metadata is enriched, e.g. with synonyms for content keywords, in order to further improve similarity calculations. To ensure quality, the proposed approaches will be analyzed comparatively with different metadata sets, which will be assessed by experts. Through the combination of different information retrieval methods, the quality of the results can be further improved. This is especially true when user interactions offer possibilities for adjusting the search properties. In the second approach, which this dissertation pursues, author-related data are harvested in order to generate a comprehensive author profile for a digital library. For this purpose, non-library sources, such as linked data repositories (e.g. WIKIDATA) and library sources, such as authority data, are used. If such different sources are used, the disambiguation of author names via the use of already existing persistent identifiers becomes necessary. To this end, we offer an algorithmic approach to disambiguate authors, which makes use of authority data such as the Virtual International Authority File (VIAF). Referring to computer sciences, the methodological value of this dissertation lies in the combination of semantic technologies with methods of information retrieval and artificial intelligence to increase the interoperability between digital libraries and between libraries with non-library sources. By positioning this dissertation as an application-oriented contribution to improve the interoperability, two major contributions are made in the context of digital libraries: (1) The retrieval of information from different Digital Libraries can be made possible via a single access. (2) Existing information about authors is collected from different sources and aggregated into one author profile.Parallel zur Etablierung des Konzepts einer „Digitalen Bibliothek“ gab es rasante Weiterentwicklungen in den Bereichen semantischer Technologien, Information Retrieval und künstliche Intelligenz. Die Idee ist es, mit ihrer Hilfe bibliographische Daten, also Inhalte von Bibliotheken, miteinander zu vernetzen und „intelligent“ mit zusätzlichen, insbesondere nicht-bibliothekarischen Informationen anzureichern. Durch die Verknüpfung von Inhalten einer Bibliothek wird es möglich, einen Zugang für Benutzer*innen anzubieten, über den semantisch ähnliche Inhalte unterschiedlicher Digitaler Bibliotheken zugänglich werden. Beispielsweise können hierüber ausgehend von einer bestimmten Publikation eine Liste semantisch ähnlicher Publikationen ggf. aus völlig unterschiedlichen Themenfeldern und aus verschiedenen digitalen Bibliotheken zugänglich gemacht werden. Darüber hinaus können sich Nutzer*innen ein breiteres Autoren-Profil anzeigen lassen, das mit Informationen wie biographischen Angaben, Namensalternativen, Bildern, Berufsbezeichnung, Instituts-Zugehörigkeiten usw. angereichert ist. Diese Informationen kommen aus unterschiedlichsten und in der Regel nicht-bibliothekarischen Quellen. Um derartige Szenarien Realität werden zu lassen, verfolgt diese Dissertation zwei Ansätze. Der erste Ansatz befasst sich mit der Vernetzung von Inhalten Digitaler Bibliotheken, um auf Basis zusätzlicher Informationen für eine Publikation semantisch ähnliche Publikationen anzubieten. Dieser Ansatz verwendet publikationsbezogene Metadaten als Grundlage. Die verknüpften Begriffe zwischen verlinkten offenen Datenrepositorien/Thesauri werden als wichtiger Angelpunkt betrachtet, indem Unterbegriffe, Oberbegriffe und verwandten Konzepte über semantische Datenmodelle, wie SKOS, berücksichtigt werden. Methoden des Information Retrieval werden angewandt, um v.a. Publikationen mit hoher semantischer Verwandtschaft zu identifizieren. Zu diesem Zweck werden Ansätze des Vektorraummodells und des „Word Embedding“ eingesetzt und vergleichend analysiert. Die Analysen werden in Digitalen Bibliotheken mit unterschiedlichen thematischen Schwerpunkten (z.B. Wirtschaft und Landwirtschaft) durchgeführt. Durch Techniken des maschinellen Lernens werden hierfür Metadaten angereichert, z.B. mit Synonymen für inhaltliche Schlagwörter, um so Ähnlichkeitsberechnungen weiter zu verbessern. Zur Sicherstellung der Qualität werden die beiden Ansätze mit verschiedenen Metadatensätzen vergleichend analysiert wobei die Beurteilung durch Expert*innen erfolgt. Durch die Verknüpfung verschiedener Methoden des Information Retrieval kann die Qualität der Ergebnisse weiter verbessert werden. Dies trifft insbesondere auch dann zu wenn Benutzerinteraktion Möglichkeiten zur Anpassung der Sucheigenschaften bieten. Im zweiten Ansatz, den diese Dissertation verfolgt, werden autorenbezogene Daten gesammelt, verbunden mit dem Ziel, ein umfassendes Autorenprofil für eine Digitale Bibliothek zu generieren. Für diesen Zweck kommen sowohl nicht-bibliothekarische Quellen, wie Linked Data-Repositorien (z.B. WIKIDATA) und als auch bibliothekarische Quellen, wie Normdatensysteme, zum Einsatz. Wenn solch unterschiedliche Quellen genutzt werden, wird die Disambiguierung von Autorennamen über die Nutzung bereits vorhandener persistenter Identifikatoren erforderlich. Hierfür bietet sich ein algorithmischer Ansatz für die Disambiguierung von Autoren an, der Normdaten, wie die des Virtual International Authority File (VIAF) nachnutzt. Mit Bezug zur Informatik liegt der methodische Wert dieser Dissertation in der Kombination von semantischen Technologien mit Verfahren des Information Retrievals und der künstlichen Intelligenz zur Erhöhung von Interoperabilität zwischen Digitalen Bibliotheken und zwischen Bibliotheken und nicht-bibliothekarischen Quellen. Mit der Positionierung dieser Dissertation als anwendungsorientierter Beitrag zur Verbesserung von Interoperabilität werden zwei wesentliche Beiträge im Kontext Digitaler Bibliotheken geleistet: (1) Die Recherche nach Informationen aus unterschiedlichen Digitalen Bibliotheken kann über einen Zugang ermöglicht werden. (2) Vorhandene Informationen über Autor*innen werden aus unterschiedlichsten Quellen eingesammelt und zu einem Autorenprofil aggregiert

    Thesaurus alignment for Linked Data publishing

    Get PDF
    As part of the publication of the AGROVOC thesaurus as Linked Data (LD), AGROVOC is now mapped with six well-known thesauri in the agricultural domain, i.e., EUROVOC, NALT, GEMET, STW, TheSoz, RAMAEU. To find matching candidates, known matching algorithms discussed in the literature and available from public API were used. Results were evaluated by a domain expert, and almost total precision obtained. The candidate matches that were confirmed have already been added to the LD version of AGROVOC. Moreover, the owners of two of the thesauri mapped with AGROVOC have included in their data the mapping we identified. From this work, we conclude that we achieved our goal to enhance the Linked Data version of AGROVOC with reliable links to other thesauri, following a procedure that is fully replicable

    Liage de données RDF : évaluation d'approches interlingues

    Get PDF
    The Semantic Web extends the Web by publishing structured and interlinked data using RDF.An RDF data set is a graph where resources are nodes labelled in natural languages. One of the key challenges of linked data is to be able to discover links across RDF data sets. Given two data sets, equivalent resources should be identified and linked by owl:sameAs links. This problem is particularly difficult when resources are described in different natural languages.This thesis investigates the effectiveness of linguistic resources for interlinking RDF data sets. For this purpose, we introduce a general framework in which each RDF resource is represented as a virtual document containing text information of neighboring nodes. The context of a resource are the labels of the neighboring nodes. Once virtual documents are created, they are projected in the same space in order to be compared. This can be achieved by using machine translation or multilingual lexical resources. Once documents are in the same space, similarity measures to find identical resources are applied. Similarity between elements of this space is taken for similarity between RDF resources.We performed evaluation of cross-lingual techniques within the proposed framework. We experimentally evaluate different methods for linking RDF data. In particular, two strategies are explored: applying machine translation or using references to multilingual resources. Overall, evaluation shows the effectiveness of cross-lingual string-based approaches for linking RDF resources expressed in different languages. The methods have been evaluated on resources in English, Chinese, French and German. The best performance (over 0.90 F-measure) was obtained by the machine translation approach. This shows that the similarity-based method can be successfully applied on RDF resources independently of their type (named entities or thesauri concepts). The best experimental results involving just a pair of languages demonstrated the usefulness of such techniques for interlinking RDF resources cross-lingually.Le Web des données étend le Web en publiant des données structurées et liées en RDF. Un jeu de données RDF est un graphe orienté où les ressources peuvent être des sommets étiquetées dans des langues naturelles. Un des principaux défis est de découvrir les liens entre jeux de données RDF. Étant donnés deux jeux de données, cela consiste à trouver les ressources équivalentes et les lier avec des liens owl:sameAs. Ce problème est particulièrement difficile lorsque les ressources sont décrites dans différentes langues naturelles.Cette thèse étudie l'efficacité des ressources linguistiques pour le liage des données exprimées dans différentes langues. Chaque ressource RDF est représentée comme un document virtuel contenant les informations textuelles des sommets voisins. Les étiquettes des sommets voisins constituent le contexte d'une ressource. Une fois que les documents sont créés, ils sont projetés dans un même espace afin d'être comparés. Ceci peut être réalisé à l'aide de la traduction automatique ou de ressources lexicales multilingues. Une fois que les documents sont dans le même espace, des mesures de similarité sont appliquées afin de trouver les ressources identiques. La similarité entre les documents est prise pour la similarité entre les ressources RDF.Nous évaluons expérimentalement différentes méthodes pour lier les données RDF. En particulier, deux stratégies sont explorées: l'application de la traduction automatique et l'usage des banques de données terminologiques et lexicales multilingues. Dans l'ensemble, l'évaluation montre l'efficacité de ce type d'approches. Les méthodes ont été évaluées sur les ressources en anglais, chinois, français, et allemand. Les meilleurs résultats (F-mesure > 0.90) ont été obtenus par la traduction automatique. L'évaluation montre que la méthode basée sur la similarité peut être appliquée avec succès sur les ressources RDF indépendamment de leur type (entités nommées ou concepts de dictionnaires)

    Els sistemes d’informació de qualitat en ciències aquàtiques: la interoperabilitat semàntica

    Get PDF
    [cat] La missió principal d’aquesta tesi és desenvolupar les bases per a la creació d’un model de sistema d’informació de qualitat per a les ciències aquàtiques per mitjà de l’estudi dels sistemes d’informació de qualitat i dels sistemes d’informació de tipus distribuït. Per tal d’aconseguir-ho, els objectius d’aquesta recerca són estudiar i avaluar els sistemes d’informació distribuïts de qualitat i els seus estàndards per tal d’aplicar-lo a l’àmbit de les ciències aquàtiques. Concretament, l’estudi es centra en els factors claus dels sistemes distribuïts, l’intercanvi de la informació i la recuperació de la informació a través dels sistemes d’organització del coneixement, com a mecanismes per assegurar la interoperabilitat semàntica d’un sistema d’informació distribuït i de qualitat. Per tal de crear les bases d’un futur sistema d’informació de qualitat en l’àmbit de les ciències aquàtiques es persegueixen tres objectius específics que es van desenvolupant al llarg de la tesi a través dels diversos capítols que la formen: En els primers capítols (capítol 1 i 2) es cerca un primer objectiu específic com és assentar les bases per al desenvolupament d’un model futur de sistema d’informació de qualitat (SIQ) de tipus distribuït i en un entorn científic. Aquests capítols es basen en estudis bibliogràfics i estudis de casos (comparativa de sistemes d’informació de tipus semàntic i no semàntic) per tal d’analitzar els antecedents, les característiques, evolució i tendències dels sistemes d’informació de qualitat. En els capítols 3, 4, 5 i 6 s’estudia i es caracteritza els principals elements que fan possible el desenvolupament dels sistemes d’informació distribuïts i de qualitat en ciències aquàtiques: l’arquitectura de la informació basada en la indexació i navegació creuades (model tipus passarel·les temàtiques), els formats i estàndards de descripció bibliogràfica i objectes digitals aplicats en l’àmbit de les ciències aquàtiques i altres ciències afins, l’estudi de la interoperabilitat semàntica com a element clau per assegurar l’intercanvi d’informació i la compatibilitat entre diferents sistemes d’informació que puguin estar integrats en un sistema d’informació distribuït i de qualitat, i finalment, l’estudi de context de la “informació de qualitat” (capítol 6) com a característica principal dels sistemes d’informació de qualitat que és on s’estableix el protocol per a l’anàlisi i avaluació de sistemes d’informació distribuïts de qualitat que formarà part de la base principal del desenvolupament d’un SIQ en ciències aquàtiques. En els darrers capítols, 7 i 8, es desenvolupa un estudi experimental que demostra l’eficàcia dels mètodes d’interoperabilitat semàntica en sistemes d’informació de qualitat en ciències aquàtiques. Finalment en el capítol 9 es resumeixen les conclusions generals obtingudes dels diferents estudis realitzats i els resultats d’aquesta tesi així com el possible treball futur.[eng] The main purpose of this thesis is to develop the basis for creating a model of information quality system in water science domain through the study of information quality systems and distributed information systems. To achieve this goal, we are proposed specific research objectives to study and analyze distributed and quality information systems and their standards to apply them in the field of aquatic sciences. Specifically, this study focuses on the key factors of distributed systems, information sharing and information retrieval through knowledge organization systems (KOS) as mechanisms to ensure the semantic interoperability and information quality in a distributed system
    corecore