107 research outputs found

    Corpus annotation as a scientific task

    Get PDF
    Annotation studies in CL are generally unscientific: they are mostly not reproducible, make use of too few (and often non-independent) annotators and use guidelines that are often something of a moving target. Additionally, the notion of ‘expert annotators’ invariably means only that the annotators have linguistic training. While this can be acceptable in some special contexts, it is often far from ideal. This is particularly the case when subtle judgements are required or when, as increasingly, one is making use of corpora originating from technical texts that have been produced by, and intended to be consumed by, an audience of technical experts in the field. We outline a more rigorous approach to collecting human annotations, using as our example a study designed to capture judgements on the meaning of hedge words in medical records

    Finding predominant word senses in untagged text

    Get PDF
    In word sense disambiguation (WSD), the heuristic of choosing the most common sense is extremely powerful because the distribution of the senses of a word is often skewed. The problem with using the predominant, or first sense heuristic, aside from the fact that it does not take surrounding context into account, is that it assumes some quantity of handtagged data. Whilst there are a few hand-tagged corpora available for some languages, one would expect the frequency distribution of the senses of words, particularly topical words, to depend on the genre and domain of the text under consideration. We present work on the use of a thesaurus acquired from raw textual corpora and the WordNet similarity package to find predominant noun senses automatically. The acquired predominant senses give a precision of 64% on the nouns of the SENSEVAL- 2 English all-words task. This is a very promising result given that our method does not require any hand-tagged text, such as SemCor. Furthermore, we demonstrate that our method discovers appropriate predominant senses for words from two domainspecific corpora

    What does validation of cases in electronic record databases mean? The potential contribution of free text

    Get PDF
    Electronic health records are increasingly used for research. The definition of cases or endpoints often relies on the use of coded diagnostic data, using a pre-selected group of codes. Validation of these cases, as ‘true’ cases of the disease, is crucial. There are, however, ambiguities in what is meant by validation in the context of electronic records. Validation usually implies comparison of a definition against a gold standard of diagnosis and the ability to identify false negatives (‘true’ cases which were not detected) as well as false positives (detected cases which did not have the condition). We argue that two separate concepts of validation are often conflated in existing studies. Firstly, whether the GP thought the patient was suffering from a particular condition (which we term confirmation or internal validation) and secondly, whether the patient really had the condition (external validation). Few studies have the ability to detect false negatives who have not received a diagnostic code. Natural language processing is likely to open up the use of free text within the electronic record which will facilitate both the validation of the coded diagnosis and searching for false negatives

    Robust Grammatical Analysis for Spoken Dialogue Systems

    Full text link
    We argue that grammatical analysis is a viable alternative to concept spotting for processing spoken input in a practical spoken dialogue system. We discuss the structure of the grammar, and a model for robust parsing which combines linguistic sources of information and statistical sources of information. We discuss test results suggesting that grammatical processing allows fast and accurate processing of spoken input.Comment: Accepted for JNL

    Annotating a corpus of clinical text records for learning to recognize symptoms automatically

    Get PDF
    We report on a research effort to create a corpus of clinical free text records enriched with annotation for symptoms of a particular disease (ovarian cancer). We describe the original data, the annotation procedure and the resulting corpus. The data (approximately 192K words) was annotated by three clinicians and a procedure was devised to resolve disagreements. We are using the corpus to investigate the amount of symptom-related information in clinical records that is not coded, and to develop techniques for recognizing these symptoms automatically in unseen text

    Zingeving en herstel. Een vergelijking tussen de zorg- en mensvisies van de geestelijk verzorger en ervaringsdeskundige met het oog op een interdisciplinaire samenwerking

    Get PDF
    Deze scriptie Zingeving en herstel is onderdeel van de master Geestelijke Begeleiding & de master Educatie van de Universiteit voor Humanistiek studiejaren 2011-2014. Ten eerste omvat de scriptie een literatuuronderzoek naar de begrippen zingeving en herstel vanuit de werkvelden geestelijke verzorging en ervaringsdeskundigheid binnen de geestelijke gezondheidszorg (hfdst. 2 t/m4). De begrippen zijn uiteengezet in termen van zorg- en mensvisie en vervolgens is gezocht naar overeenkomsten, verschillen en relaties tussen beide. Hiermee is de volgende vraag beantwoord: Wat zijn de overeenkomsten, verschillen en relaties tussen de zorg- en mensvisies gebaseerd op zingeving naast herstel, toegeschreven aan respectievelijk geestelijk verzorgers en ervaringsdeskundigen in de geestelijke gezondheidszorg? Ten tweede omvat de scriptie het ontwerp van een educatieve werkvorm (hfdst. 5 t/m 6). Naast de eerste voorwaarde tot het plaatsvinden van een interdisciplinaire samenwerking, relaties tussen de zorg- en mensvisie, is in het tweede gedeelte een ontwerp gemaakt om aan de tweede voorwaarde te voldoen: de beoogde samenwerkingspartners moeten op de hoogte zijn van elkaars uitgangspunten en werkwijzen voordat een interdisciplinaire samenwerking kan plaatsvinden. De tweede hoofdvraag is beantwoord: Wat is een geschikte educatieve werkvorm die uitwisseling van deze zorg- en mensvisies met het oog op interdisciplinaire samenwerking mogelijk maakt? De resultaten van dit onderzoek laten zien dat de zorg- en mensvisie van geestelijk verzorgers en ervaringsdeskundigen overeenkomsten én verschillen vertonen, maar zeker met elkaar in relatie staan. Dit heeft met name betrekking op de tien herstelelementen en de negen ervaringsaspecten van herstel. Voor het educatief ontwerp is op basis van afwegingen en educatieve normen een zestiendelige samenkomst ontworpen met het volgende leerdoel: De aanwezigen zullen na de bijeenkomst de werkwijzen en uitgangspunten van de geestelijk verzorgers en ervaringsdeskundigen die aanwezig zijn, herkennen én met eigen woorden uitleggen, aan de hand van de leerstrategie samenwerkend leren waarbij gekozen wordt voor de werkvorm experts. Trefwoorden: herstel, zingeving, ervaringsdeskundige, herstelondersteuner, geestelijke verzorger/begeleider, psychiatrie, geestelijke gezondheidszorg, interdisciplinaire samenwerking
    corecore