4 research outputs found

    On the synthesis of metadata tags for HTML files

    Get PDF
    RDFa, JSON-LD, Microdata, and Microformats allow to endow the data in HTML files with metadata tags that help software agents understand them. Unluckily, there are many HTML files that do not have any metadata tags, which has motivated many authors to work on proposals to synthesize them. But they have some problems: the authors either provide an overall picture of their designs without too many details on the techniques behind the scenes or focus on the techniques but do not describe the design of the software systems that support them; many of them cannot deal with data that are encoded using semistructured formats like forms, listings, or tables; and the few proposals that can work on tables can deal with horizontal listings only. In this article, we describe the design of a system that overcomes the previous limitations using a novel embedding approach that has proven to outperform four state-of-the-art techniques on a repository with randomly selected HTML files from 40 differ ent sites. According to our experimental analysis, our proposal can achieve an F1 score that outperforms the others by 10.14%; this difference was confirmed to be statistically significant at the standard confidence level.Junta de AndalucĂ­a P18-RT-1060Ministerio de EconomĂ­a y Competitividad TIN2013-40848-RMinisterio de EconomĂ­a y Competitividad TIN2016-75394-

    The Application of Semantic Web Technologies to Content Analysis in Sociology

    Get PDF
    In der Soziologie werden Texte als soziale Phänomene verstanden, die als Mittel zur Analyse von sozialer Wirklichkeit dienen können. Im Laufe der Jahre hat sich eine breite Palette von Techniken in der soziologischen Textanalyse entwickelt, du denen quantitative und qualitative Methoden, sowie vollständig manuelle und computergestützte Ansätze gehören. Die Entwicklung des World Wide Web und sozialer Medien, aber auch technische Entwicklungen wie maschinelle Schrift- und Spracherkennung tragen dazu bei, dass die Menge an verfügbaren und analysierbaren Texten enorm angestiegen ist. Dies führte in den letzten Jahren dazu, dass auch Soziologen auf mehr computergestützte Ansätze zur Textanalyse setzten, wie zum Beispiel statistische ’Natural Language Processing’ (NLP) Techniken. Doch obwohl vielseitige Methoden und Technologien für die soziologische Textanalyse entwickelt wurden, fehlt es an einheitlichen Standards zur Analyse und Veröffentlichung textueller Daten. Dieses Problem führt auch dazu, dass die Transparenz von Analyseprozessen und Wiederverwendbarkeit von Forschungsdaten leidet. Das ’Semantic Web’ und damit einhergehend ’Linked Data’ bieten eine Reihe von Standards zur Darstellung und Organisation von Informationen und Wissen. Diese Standards werden von zahlreichen Anwendungen genutzt, darunter befinden sich auch Methoden zur Veröffentlichung von Daten und ’Named Entity Linking’, eine spezielle Form von NLP. Diese Arbeit versucht die Frage zu diskutieren, in welchem Umfang diese Standards und Tools aus der SemanticWeb- und Linked Data- Community die computergestützte Textanalyse in der Soziologie unterstützen können. Die dafür notwendigen Technologien werden kurz vorgsetellt und danach auf einen Beispieldatensatz der aus Verfassungstexten der Niederlande von 1883 bis 2016 bestand angewendet. Dabei wird demonstriert wie aus den Dokumenten RDF Daten generiert und veröffentlicht werden können, und wie darauf zugegriffen werden kann. Es werden Abfragen erstellt die sich zunächst ausschließlich auf die lokalen Daten beziehen und daraufhin wird demonstriert wie dieses lokale Wissen durch Informationen aus externen Wissensbases angereichert werden kann. Die vorgestellten Ansätze werden im Detail diskutiert und es werden Schnittpunkte für ein mögliches Engagement der Soziologen im Semantic Web Bereich herausgearbeitet, die die vogestellten Analysen und Abfragemöglichkeiten in Zukunft erweitern können

    Applying systematic review methods in chemical risk assessment

    Get PDF
    Context : Chemical risk assessment has traditionally been dependent on “narrative” approaches for synthesising evidence about potential health harms from exposure to chemical substances. However, narrative reviews are recognised as being vulnerable to a range of methodological shortcomings which introduce bias and inconsistency into the summarisation of scientific evidence. This is likely to be a contributing factor in a number of controversies about the safety of chemical substances. The potential value of systematic review methods for improving the transparency and validity of chemical risk assessments was arguably first articulated in the mid-2000s. By 2015, the first major frameworks for conducting systematic reviews of environmental health evidence had been published. What was not well understood at the time was how systematic review, as a technically exacting methodology originally developed for evaluating the effectiveness of interventions in healthcare, might be adapted to the specific workflows and evidence streams of chemical risk assessment. Objectives : The aim of this Thesis is to investigate how systematic review methods can be applied to the conduct of chemical risk assessment. This overall aim is broken down into four specific objectives: to identify practical challenges and knowledge gaps which impede the implementation of systematic review methods in chemical risk assessment; to define a consensus view on key recommended practices for the planning and conduct of systematic reviews in the environmental health sciences; to examine how “biological plausibility” as a concept fundamental to risk assessment is accommodated in systematic review methodologies; and to describe the role of ontologies in making evidence accessible for use in systematic chemical assessments. Discussion : The use of systematic review methods should improve the validity, utility and transparency of chemical risk assessments. However, the successful implementation of systematic review methods hinges on addressing a number of challenges, including the development of guidance for their conduct in environmental health contexts, and the technical development of methods where systematic review approaches need to be adapted to the specific requirements of chemical risk assessment. In terms of developing guidance, a detailed set of recommendations for the conduct of systematic reviews in environmental health and toxicological research was developed. These “COSTER” recommendations identify 70 practices across eight performance domains that will help ensure consistent and high standards for the growing number systematic reviews on environmental health topics. In terms of technical development of methods, “biological plausibility” is a concept used by risk assessors to describe the extent to which an experimental surrogate or knowledge of relevant biological mechanisms are informative of a systematic review conclusion. Through examination of 12 case examples it is concluded that “biological plausibility” is in fact already accommodated in the systematic review process under the assessment of the indirectness or external validity of evidence; however, the considerations which risk assessors take into account when assessing biological plausibility should be absorbed into the assessment of external validity of studies. Finally, examination of the concept of biological plausibility demonstrates the extreme heterogeneity and volume of data which has to be accommodated in chemical risk assessments. The role of ontologies in Knowledge Organisation Systems is examined as a key enabler of scaling up of systematic review methods to handling the volume of evidence which needs to be analysed if tens of thousands of chemicals, covering potentially millions of studies, are to be reviewed systematically

    Linked Data Supported Information Retrieval

    Get PDF
    Um Inhalte im World Wide Web ausfindig zu machen, sind Suchmaschienen nicht mehr wegzudenken. Semantic Web und Linked Data Technologien ermöglichen ein detaillierteres und eindeutiges Strukturieren der Inhalte und erlauben vollkommen neue Herangehensweisen an die Lösung von Information Retrieval Problemen. Diese Arbeit befasst sich mit den Möglichkeiten, wie Information Retrieval Anwendungen von der Einbeziehung von Linked Data profitieren können. Neue Methoden der computer-gestützten semantischen Textanalyse, semantischen Suche, Informationspriorisierung und -visualisierung werden vorgestellt und umfassend evaluiert. Dabei werden Linked Data Ressourcen und ihre Beziehungen in die Verfahren integriert, um eine Steigerung der Effektivität der Verfahren bzw. ihrer Benutzerfreundlichkeit zu erzielen. Zunächst wird eine Einführung in die Grundlagen des Information Retrieval und Linked Data gegeben. Anschließend werden neue manuelle und automatisierte Verfahren zum semantischen Annotieren von Dokumenten durch deren Verknüpfung mit Linked Data Ressourcen vorgestellt (Entity Linking). Eine umfassende Evaluation der Verfahren wird durchgeführt und das zu Grunde liegende Evaluationssystem umfangreich verbessert. Aufbauend auf den Annotationsverfahren werden zwei neue Retrievalmodelle zur semantischen Suche vorgestellt und evaluiert. Die Verfahren basieren auf dem generalisierten Vektorraummodell und beziehen die semantische Ähnlichkeit anhand von taxonomie-basierten Beziehungen der Linked Data Ressourcen in Dokumenten und Suchanfragen in die Berechnung der Suchergebnisrangfolge ein. Mit dem Ziel die Berechnung von semantischer Ähnlichkeit weiter zu verfeinern, wird ein Verfahren zur Priorisierung von Linked Data Ressourcen vorgestellt und evaluiert. Darauf aufbauend werden Visualisierungstechniken aufgezeigt mit dem Ziel, die Explorierbarkeit und Navigierbarkeit innerhalb eines semantisch annotierten Dokumentenkorpus zu verbessern. Hierfür werden zwei Anwendungen präsentiert. Zum einen eine Linked Data basierte explorative Erweiterung als Ergänzung zu einer traditionellen schlüsselwort-basierten Suchmaschine, zum anderen ein Linked Data basiertes Empfehlungssystem
    corecore