4,041 research outputs found

    Reflexive pronouns in Spanish Universal Dependencies

    Get PDF
    In this paper, we argue that in current Universal Dependencies treebanks, the annotation of Spanish reflexives is an unsolved problem, which clearly affects the accuracy and consistency of current parsers. We evaluate different proposals for fine-tuning the various categories, and discuss remaining open issues. We believe that the solution for these issues could lie in a multi-layered way of annotating the characteristics, combining annotation of the dependency relation and of the so-called token features, rather than in expanding the number of categories on one layer. We apply this proposal to the v2.5 Spanish UD AnCora treebank and provide a categorized conversion table that can be run with a Python script

    An ontology to standardize research output of nutritional epidemiology : from paper-based standards to linked content

    Get PDF
    Background: The use of linked data in the Semantic Web is a promising approach to add value to nutrition research. An ontology, which defines the logical relationships between well-defined taxonomic terms, enables linking and harmonizing research output. To enable the description of domain-specific output in nutritional epidemiology, we propose the Ontology for Nutritional Epidemiology (ONE) according to authoritative guidance for nutritional epidemiology. Methods: Firstly, a scoping review was conducted to identify existing ontology terms for reuse in ONE. Secondly, existing data standards and reporting guidelines for nutritional epidemiology were converted into an ontology. The terms used in the standards were summarized and listed separately in a taxonomic hierarchy. Thirdly, the ontologies of the nutritional epidemiologic standards, reporting guidelines, and the core concepts were gathered in ONE. Three case studies were included to illustrate potential applications: (i) annotation of existing manuscripts and data, (ii) ontology-based inference, and (iii) estimation of reporting completeness in a sample of nine manuscripts. Results: Ontologies for food and nutrition (n = 37), disease and specific population (n = 100), data description (n = 21), research description (n = 35), and supplementary (meta) data description (n = 44) were reviewed and listed. ONE consists of 339 classes: 79 new classes to describe data and 24 new classes to describe the content of manuscripts. Conclusion: ONE is a resource to automate data integration, searching, and browsing, and can be used to assess reporting completeness in nutritional epidemiology

    Annotation Graphs and Servers and Multi-Modal Resources: Infrastructure for Interdisciplinary Education, Research and Development

    Full text link
    Annotation graphs and annotation servers offer infrastructure to support the analysis of human language resources in the form of time-series data such as text, audio and video. This paper outlines areas of common need among empirical linguists and computational linguists. After reviewing examples of data and tools used or under development for each of several areas, it proposes a common framework for future tool development, data annotation and resource sharing based upon annotation graphs and servers.Comment: 8 pages, 6 figure

    Quantitative text analysis in Geography: facilitating access and fostering collaboration

    Get PDF
    Quantitative text analysis can support researchers working with a large number of documents. Corpus linguistic methods are already employed by geographers in the context of discourse studies, and recent discussions about big data and digital geographies point to a potential broadening of their application. However, building a corpus and adapting to existing data analysis tools can be challenging. In this paper, we outline possible steps towards collaborative quantitative text analysis through the use of computational methods and corpora that can be incorporated into a variety of research settings. We summarise key steps for creating annotated corpora from text sources using state of the art methods and tools. Using the open source software Corpus Workbench (Evert and Hardie 2011) and CQPweb (Hardie 2012), we provide a platform to access corpora and corpus analysis functionality via a web interface. We invite researchers to use this existing infrastructure for corpus linguistic methods in their teaching and research, and to collaborate in making interesting material available to the geographic research community

    The Application of Semantic Web Technologies to Content Analysis in Sociology

    Get PDF
    In der Soziologie werden Texte als soziale Phänomene verstanden, die als Mittel zur Analyse von sozialer Wirklichkeit dienen können. Im Laufe der Jahre hat sich eine breite Palette von Techniken in der soziologischen Textanalyse entwickelt, du denen quantitative und qualitative Methoden, sowie vollständig manuelle und computergestützte Ansätze gehören. Die Entwicklung des World Wide Web und sozialer Medien, aber auch technische Entwicklungen wie maschinelle Schrift- und Spracherkennung tragen dazu bei, dass die Menge an verfügbaren und analysierbaren Texten enorm angestiegen ist. Dies führte in den letzten Jahren dazu, dass auch Soziologen auf mehr computergestützte Ansätze zur Textanalyse setzten, wie zum Beispiel statistische ’Natural Language Processing’ (NLP) Techniken. Doch obwohl vielseitige Methoden und Technologien für die soziologische Textanalyse entwickelt wurden, fehlt es an einheitlichen Standards zur Analyse und Veröffentlichung textueller Daten. Dieses Problem führt auch dazu, dass die Transparenz von Analyseprozessen und Wiederverwendbarkeit von Forschungsdaten leidet. Das ’Semantic Web’ und damit einhergehend ’Linked Data’ bieten eine Reihe von Standards zur Darstellung und Organisation von Informationen und Wissen. Diese Standards werden von zahlreichen Anwendungen genutzt, darunter befinden sich auch Methoden zur Veröffentlichung von Daten und ’Named Entity Linking’, eine spezielle Form von NLP. Diese Arbeit versucht die Frage zu diskutieren, in welchem Umfang diese Standards und Tools aus der SemanticWeb- und Linked Data- Community die computergestützte Textanalyse in der Soziologie unterstützen können. Die dafür notwendigen Technologien werden kurz vorgsetellt und danach auf einen Beispieldatensatz der aus Verfassungstexten der Niederlande von 1883 bis 2016 bestand angewendet. Dabei wird demonstriert wie aus den Dokumenten RDF Daten generiert und veröffentlicht werden können, und wie darauf zugegriffen werden kann. Es werden Abfragen erstellt die sich zunächst ausschließlich auf die lokalen Daten beziehen und daraufhin wird demonstriert wie dieses lokale Wissen durch Informationen aus externen Wissensbases angereichert werden kann. Die vorgestellten Ansätze werden im Detail diskutiert und es werden Schnittpunkte für ein mögliches Engagement der Soziologen im Semantic Web Bereich herausgearbeitet, die die vogestellten Analysen und Abfragemöglichkeiten in Zukunft erweitern können

    Finding Fidelity: Advancing Audiovisual Analysis Using Software

    Get PDF
    Seit den letzten 30 Jahren wurden sukzessive Programme zur Unterstützung qualitativer Datenanalysen entwickelt. Allerdings ist ihre Nutzung noch immer nicht sehr verbreitet. Zugleich hat sich qualitative Forschung selbst verändert: von Projekten, die kleine, textbasierte Datensets nutzten hin zu Projekten, in denen große Mengen an multimedialen Daten oder unterschiedlichste Datensorten erhoben, verwaltet und organisiert werden. Für die Softwareentwicklung gingen mit diesen Veränderungen einige Herausforderungen einher: 1. Die Bedürfnisse der Forschenden zu verstehen ist schwer, wenn aufseiten derer, die die Software nutzen, eine hinreichende Dokumentation und explizite Kritik fehlen. 2. Die Unterstützung audiovisueller Datenanalysen ist besonders anspruchsvoll angesichts der Multidimensionalität der Daten und der Unterschiedlichkeit der Ziele und Output-Anforderungen in den je konkreten Forschungsprojekten. In diesem Beitrag befassen wir uns mit der Geschichte computergestützter Software für die qualitative Datenanalyse, und zwar insbesondere im Feld audiovisueller Daten. Wir verwenden dabei den Begriff "fidelity" zur Konzeptualisierung der Übereinstimmung von Softwarefunktionalitäten und dem Bedarf der Forschenden. Verfügbare Programme werden kritisch geprüft und künftiger Entwicklungsbedarf wird identifiziert. URN: http://nbn-resolving.de/urn:nbn:de:0114-fqs1101372Durante los últimos treinta años se ha desarrollado software especializado para el análisis de datos cualitativos. Su adopción, sin embargo, está lejos de ser generalizada. Adicionalmente, la misma investigación cualitativa evoluciona, desde proyectos que utilizan conjuntos pequeños de datos basados en texto a otros que involucran la colección, gestión y análisis de enormes cantidades de datos multimedia o datos de múltiples tipos. El software se ha esforzado por mantener estos cambios por varias razones: 1. reunir las necesidades de investigadores es complicado por la falta de documentación y la crítica de quienes están implementando el uso del software, y 2. los datos audiovisuales son particularmente polémicos debido a su multidimensionalidad y variedad esencial en los propósitos de investigación y las necesidades del proyecto. Este artículo discute la historia del Análisis de Datos Cualitativos Asistido por Computadora (CAQDAS) relacionada a datos audiovisuales e introduce el término "fidelidad" como un mecanismo conceptual para examinar la correspondencia entre herramientas del software y las necesidades del investigador. Se examinan las herramientas actualmente disponibles y se subrayan áreas en las que ellas hacen falta. URN: http://nbn-resolving.de/urn:nbn:de:0114-fqs1101372Specialised software for the analysis of qualitative data has been in development for the last thirty years. However, its adoption is far from widespread. Additionally, qualitative research itself is evolving, from projects that utilised small, text-based data sets to those which involve the collection, management, and analysis of enormous quantities of multimedia data or data of multiple types. Software has struggled to keep up with these changes for several reasons: 1. meeting the needs of researchers is complicated by the lack of documentation and critique by those who are implementing software use and 2. audiovisual data is particularly challenging due to the multidimensionality of data and substantial variety in research project aims and output requirements. This article discusses the history of Computer Assisted Qualitative Data AnalysiS (CAQDAS) as it relates to audiovisual data, and introduces the term "fidelity" as a conceptual mechanism to match software tools and researcher needs. Currently available software tools are examined and areas found lacking are highlighted. URN: http://nbn-resolving.de/urn:nbn:de:0114-fqs110137
    • …
    corecore