131 research outputs found

    A systematic literature review on Wikidata

    Get PDF
    To review the current status of research on Wikidata and, in particular, of articles that either describe applications of Wikidata or provide empirical evidence, in order to uncover the topics of interest, the fields that are benefiting from its applications and which researchers and institutions are leading the work

    Structured knowledge creation for Urdu language: A DBpedia approach

    Get PDF
    Wikipedia information is extracted by DBpedia and linked to other web resources as Linked Open Data, which is an important contribution to the field of semantics. As part of its internationalisation endeavour, DBpedia now has 20 language chapters that have been mapped to it; nonetheless, there have been very few attempts from Urdu. This article outlines the procedures and highlights the efforts put forward as the first contribution to the manual creation of Urdu mappings with DBpedia Ontology classes. Our approach led to an increase in the number of mapped infoboxes, thus enhancing the DBpedia. The mapping procedure is broken down into two parts. The infobox template is first mapped to the DBpedia ontology's relevant class, and then the attributes of the infobox are mapped to the properties of that class. In addition, alongside other mapped languages, Urdu labels are included to the description of Ontology classes. We have covered around a thousand properties and attributes of Urdu with English DBpedia Ontology on DBpedia mapping server

    Descartes: Generating Short Descriptions of Wikipedia Articles

    Full text link
    Wikipedia is one of the richest knowledge sources on the Web today. In order to facilitate navigating, searching, and maintaining its content, Wikipedia's guidelines state that all articles should be annotated with a so-called short description indicating the article's topic (e.g., the short description of beer is "Alcoholic drink made from fermented cereal grains"). Nonetheless, a large fraction of articles (ranging from 10.2% in Dutch to 99.7% in Kazakh) have no short description yet, with detrimental effects for millions of Wikipedia users. Motivated by this problem, we introduce the novel task of automatically generating short descriptions for Wikipedia articles and propose Descartes, a multilingual model for tackling it. Descartes integrates three sources of information to generate an article description in a target language: the text of the article in all its language versions, the already-existing descriptions (if any) of the article in other languages, and semantic type information obtained from a knowledge graph. We evaluate a Descartes model trained for handling 25 languages simultaneously, showing that it beats baselines (including a strong translation-based baseline) and performs on par with monolingual models tailored for specific languages. A human evaluation on three languages further shows that the quality of Descartes's descriptions is largely indistinguishable from that of human-written descriptions; e.g., 91.3% of our English descriptions (vs. 92.1% of human-written descriptions) pass the bar for inclusion in Wikipedia, suggesting that Descartes is ready for production, with the potential to support human editors in filling a major gap in today's Wikipedia across languages

    Estudio de Wikidata desde el punto de vista del enriquecimiento semántico

    Get PDF
    This study deals with one of the Wikimedia Foundation's newest projects: Wikidata. Wikidata is a collaborative database that has consultation tools that are used extensively as a mechanism to obtain data, to relate to other data, and to enrich information and knowledge. This study has focused on knowing the state of the question on general aspects of Wikidata (its functioning, its organization, how it is fed with data, etc.), as well as analyzing the semantic enrichment from and to Wikidata from libraries and archives. The relationship between Wikidata and DBpedia has also been analysed. Studies using these two tools are included in relation to their potential for semantic enrichment in libraries and educational environments. Recommendations are also included to improve Wikidata, from the point of view of the articles, their origin, the restrictions they can perform and the semantic enrichment itself

    Study of Wikidata from the point of view of semantic enrichment

    Get PDF
    Trabajo de Fin de Grado de Información y Documentación, curso 2019-2020.El presente estudio trata de uno de los proyectos más novedosos de la Fundación Wikimedia: la Wikidata. Wikidata es una base de datos colaborativa que dispone de herramientas de consulta que son usadas profusamente como mecanismo para la obtención de datos, de relación con otros datos, y de enriquecimiento de información y conocimiento. Este estudio se ha centrado en conocer el estado de la cuestión sobre aspectos generales de Wikidata (su funcionamiento, su organización, cómo se alimenta de datos, etc.), además de analizar el enriquecimiento semántico desde y hacia Wikidata desde bibliotecas y archivos. También se ha analizado la relación entre Wikidata y DBpedia. Se incluyen estudios que utilizan estas dos herramientas en relación con su potencial de enriquecimiento semántico en bibliotecas y entornos educativos. También se incluyen recomendaciones que permitan mejorar Wikidata, desde el punto de vista de los artículos, su procedencia, las restricciones que pueden realizar y el propio enriquecimiento semántico.This study deals with one of the Wikimedia Foundation's newest projects: Wikidata. Wikidata is a collaborative database that has consultation tools that are used extensively as a mechanism to obtain data, to relate to other data, and to enrich information and knowledge. This study has focused on knowing the state of the question on general aspects of Wikidata (its functioning, its organization, how it is fed with data, etc.), as well as analyzing the semantic enrichment from and to Wikidata from libraries and archives. The relationship between Wikidata and DBpedia has also been analysed. Studies using these two tools are included in relation to their potential for semantic enrichment in libraries and educational environments. Recommendations are also included to improve Wikidata, from the point of view of the articles, their origin, the restrictions they can perform and the semantic enrichment itself

    ARL White Paper on Wikidata: Opportunities and Recommendations

    Get PDF
    In this Association of Research Libraries white paper, a task force of expert Wikidata users recommend a variety of ways for librarians to use the open knowledge base in advancing global discovery of their collections, faculty, and institutions. Beyond the task force, many library professionals from within and outside the Wikimedia community contributed to the white paper in draft form, offering a productive mix of enthusiasm and skepticism that improved the final product. ARL convened the task force and wrote this white paper to inform its membership about GLAM (galleries, libraries, archives, and museums) activity in Wikidata and to highlight opportunities for research library involvement, particularly in community-based collections, community-owned infrastructure, and collective collections

    The Case of Wikidata

    Get PDF
    Since its launch in 2012, Wikidata has grown to become the largest open knowledge base (KB), containing more than 100 million data items and over 6 million registered users. Wikidata serves as the structured data backbone of Wikipedia, addressing data inconsistencies, and adhering to the motto of “serving anyone anywhere in the world,” a vision realized through the diversity of knowledge. Despite being a collaboratively contributed platform, the Wikidata community heavily relies on bots, automated accounts with batch, and speedy editing rights, for a majority of edits. As Wikidata approaches its first decade, the question arises: How close is Wikidata to achieving its vision of becoming a global KB and how diverse is it in serving the global population? This dissertation investigates the current status of Wikidata’s diversity, the role of bot interventions on diversity, and how bots can be leveraged to improve diversity within the context of Wikidata. The methodologies used in this study are mapping study and content analysis, which led to the development of three datasets: 1) Wikidata Research Articles Dataset, covering the literature on Wikidata from its first decade of existence sourced from online databases to inspect its current status; 2) Wikidata Requests-for-Permissions Dataset, based on the pages requesting bot rights on the Wikidata website to explore bots from a community perspective; and 3) Wikidata Revision History Dataset, compiled from the edit history of Wikidata to investigate bot editing behavior and its impact on diversity, all of which are freely available online. The insights gained from the mapping study reveal the growing popularity of Wikidata in the research community and its various application areas, indicative of its progress toward the ultimate goal of reaching the global community. However, there is currently no research addressing the topic of diversity in Wikidata, which could shed light on its capacity to serve a diverse global population. To address this gap, this dissertation proposes a diversity measurement concept that defines diversity in a KB context in terms of variety, balance, and disparity and is capable of assessing diversity in a KB from two main angles: user and data. The application of this concept on the domains and classes of the Wikidata Revision History Dataset exposes imbalanced content distribution across Wikidata domains, which indicates low data diversity in Wikidata domains. Further analysis discloses that bots have been active since the inception of Wikidata, and the community embraces their involvement in content editing tasks, often importing data from Wikipedia, which shows a low diversity of sources in bot edits. Bots and human users engage in similar editing tasks but exhibit distinct editing patterns. The findings of this thesis confirm that bots possess the potential to influence diversity within Wikidata by contributing substantial amounts of data to specific classes and domains, leading to an imbalance. However, this potential can also be harnessed to enhance coverage in classes with limited content and restore balance, thus improving diversity. Hence, this study proposes to enhance diversity through automation and demonstrate the practical implementation of the recommendations using a specific use case. In essence, this research enhances our understanding of diversity in relation to a KB, elucidates the influence of automation on data diversity, and sheds light on diversity improvement within a KB context through the usage of automation.Seit seiner Einführung im Jahr 2012 hat sich Wikidata zu der größten offenen Wissensdatenbank entwickelt, die mehr als 100 Millionen Datenelemente und über 6 Millionen registrierte Benutzer enthält. Wikidata dient als das strukturierte Rückgrat von Wikipedia, indem es Datenunstimmigkeiten angeht und sich dem Motto verschrieben hat, ’jedem überall auf der Welt zu dienen’, eine Vision, die durch die Diversität des Wissens verwirklicht wird. Trotz seiner kooperativen Natur ist die Wikidata-Community in hohem Maße auf Bots, automatisierte Konten mit Batch- Verarbeitung und schnelle Bearbeitungsrechte angewiesen, um die Mehrheit der Bearbeitungen durchzuführen. Da Wikidata seinem ersten Jahrzehnt entgegengeht, stellt sich die Frage: Wie nahe ist Wikidata daran, seine Vision, eine globale Wissensdatenbank zu werden, zu verwirklichen, und wie ausgeprägt ist seine Dienstleistung für die globale Bevölkerung? Diese Dissertation untersucht den aktuellen Status der Diversität von Wikidata, die Rolle von Bot-Eingriffen in Bezug auf Diversität und wie Bots im Kontext von Wikidata zur Verbesserung der Diversität genutzt werden können. Die in dieser Studie verwendeten Methoden sind Mapping-Studie und Inhaltsanalyse, die zur Entwicklung von drei Datensätzen geführt haben: 1) Wikidata Research Articles Dataset, die die Literatur zu Wikidata aus dem ersten Jahrzehnt aus Online-Datenbanken umfasst, um den aktuellen Stand zu untersuchen; 2) Requestfor- Permission Dataset, der auf den Seiten zur Beantragung von Bot-Rechten auf der Wikidata-Website basiert, um Bots aus der Perspektive der Gemeinschaft zu untersuchen; und 3)Wikidata Revision History Dataset, der aus der Bearbeitungshistorie von Wikidata zusammengestellt wurde, um das Bearbeitungsverhalten von Bots zu untersuchen und dessen Auswirkungen auf die Diversität, die alle online frei verfügbar sind. Die Erkenntnisse aus der Mapping-Studie zeigen die wachsende Beliebtheit von Wikidata in der Forschungsgemeinschaft und in verschiedenen Anwendungsbereichen, was auf seinen Fortschritt hin zur letztendlichen Zielsetzung hindeutet, die globale Gemeinschaft zu erreichen. Es gibt jedoch derzeit keine Forschung, die sich mit dem Thema der Diversität in Wikidata befasst und Licht auf seine Fähigkeit werfen könnte, eine vielfältige globale Bevölkerung zu bedienen. Um diese Lücke zu schließen, schlägt diese Dissertation ein Konzept zur Messung der Diversität vor, das die Diversität im Kontext einer Wissensbasis anhand von Vielfalt, Balance und Diskrepanz definiert und in der Lage ist, die Diversität aus zwei Hauptperspektiven zu bewerten: Benutzer und Daten. Die Anwendung dieses Konzepts auf die Bereiche und Klassen des Wikidata Revision History Dataset zeigt eine unausgewogene Verteilung des Inhalts über die Bereiche von Wikidata auf, was auf eine geringe Diversität der Daten in den Bereichen von Wikidata hinweist. Weitere Analysen zeigen, dass Bots seit der Gründung von Wikidata aktiv waren und von der Gemeinschaft inhaltliche Bearbeitungsaufgaben angenommen werden, oft mit Datenimporten aus Wikipedia, was auf eine geringe Diversität der Quellen bei Bot-Bearbeitungen hinweist. Bots und menschliche Benutzer führen ähnliche Bearbeitungsaufgaben aus, zeigen jedoch unterschiedliche Bearbeitungsmuster. Die Ergebnisse dieser Dissertation bestätigen, dass Bots das Potenzial haben, die Diversität in Wikidata zu beeinflussen, indem sie bedeutende Datenmengen zu bestimmten Klassen und Bereichen beitragen, was zu einer Ungleichgewichtung führt. Dieses Potenzial kann jedoch auch genutzt werden, um die Abdeckung in Klassen mit begrenztem Inhalt zu verbessern und das Gleichgewicht wiederherzustellen, um die Diversität zu verbessern. Daher schlägt diese Studie vor, die Diversität durch Automatisierung zu verbessern und die praktische Umsetzung der Empfehlungen anhand eines spezifischen Anwendungsfalls zu demonstrieren. Kurz gesagt trägt diese Forschung dazu bei, unser Verständnis der Diversität im Kontext einer Wissensbasis zu vertiefen, wirft Licht auf den Einfluss von Automatisierung auf die Diversität von Daten und zeigt die Verbesserung der Diversität im Kontext einer Wissensbasis durch die Verwendung von Automatisierung auf
    corecore