4 research outputs found

    Writer\u2019s uncertainty identification in scientific biomedical articles: a tool for automatic if-clause tagging

    Get PDF
    In a previous study, we manually identified seven categories (verbs, non- verbs, modal verbs in the simple present, modal verbs in the conditional mood, if, uncertain questions, and epistemic future) of Uncertainty Markers (UMs) in a corpus of 80 articles from the British Medical Journal randomly sampled from a 167-year period (1840\u20132007). The UMs detected on the base of an epistemic stance approach were those referring only to the authors of the articles and only in the present. We also performed preliminary experiments to assess the manual annotated corpus and to establish a baseline for the UMs automatic detection. The results of the experiments showed that most UMs could be recognized with good accuracy, except for the if-category, which includes four subcategories: if-clauses in a narrow sense; if-less clauses; as if/as though; if and whether introducing embedded questions. The unsatisfactory results concerning the if-category were probably due to both its complexity and the inadequacy of the detection rules, which were only lexical, not grammatical. In the current article, we describe a different approach, which combines grammatical and syntactic rules. The performed experiments show that the identification of uncertainty in the if-category has been largely double improved compared to our previous results. The complex overall process of uncertainty detection can greatly profit from a hybrid approach which should combine supervised Machine learning techniques with a knowledge-based approach constituted by a rule-based inference engine devoted to the if-clause case and designed on the basis of the above mentioned epistemic stance approach

    Self-mention and uncertain communication in the British Medical Journal (1840\u20132007): The decrease of subjectivity uncertainty markers

    Get PDF
    The communication of a scientific finding as certain or uncertain largely determines whether that information will be translated into practice. In this study, a corpus of 80 articles published in the British Medical Journal for over 167 years (1840\u20132007) is analysed by focusing on three categories of uncertainty markers, which explicitly reveal a writer\u2019s subjectivity: (1) I/we epistemic verbs; (2) I/we modal verbs; and (3) epistemic non-verbs conveying personal opinions. The quantitative analysis shows their progressive decrease over time, which can be due to several variables, including the evolution of medical knowledge and practice, changes in medical research and within the scientific community, and more stringent guidelines for the scientific writing (regarding types of articles, their structure and rhetorical style)

    A Corpus of Scientific Biomedical Texts Spanning over 168 Years Annotated for Uncertainty

    No full text
    8siUncertainty language permeates biomedical research and is fundamental for the computer interpretation of unstructured text. And yet, a coherent, cognitive-based theory to interpret Uncertainty language and guide Natural Language Processing is, to our knowledge, non-existing. The aim of our project was therefore to detect and annotate Uncertainty markers ― which play a significant role in building knowledge or beliefs in readers' minds ― in a biomedical research corpus. Our corpus includes 80 manually annotated articles from the British Medical Journal randomly sampled from a 168-year period. Uncertainty markers have been classified according to a theoretical framework based on a combined linguistic and cognitive theory. The corpus was manually annotated according to such principles. We performed preliminary experiments to assess the manually annotated corpus and establish a baseline for the automatic detection of Uncertainty markers. The results of the experiments show that most of the Uncertainty markers can be recognized with good accuracy.noneBongelli, Ramona; Canestrari, Carla; Riccioni, Ilaria; Zuczkowski, Andrzej; Buldorini, C.; Pietrobon, R.; Lavelli, A.; Magnini, B.Bongelli, Ramona; Canestrari, Carla; Riccioni, Ilaria; Zuczkowski, Andrzej; C., Buldorini; R., Pietrobon; A., Lavelli; B., Magnin

    Incertezza: marcatori linguistici in un corpus di articoli biomedici di lingua tedesca tratti dalla rivista divulgativa "Spektrum der Wissenschaft" (1993-2012)

    Get PDF
    Oggetto di studio e significance La presente tesi di dottorato ha per oggetto la comunicazione dell’incertezza in testi di medicina in lingua tedesca. Distinguere le informazioni certe da quelle incerte è di cruciale importanza, poiché il modo in cui viene comunicata una stessa informazione può determinare opposti esiti applicativi. Le politiche sanitarie nazionali sono costruite in base a come vengono comunicati i risultati della ricerca biomedica; la pratica clinica segue la stessa logica nell'adozione di nuove terapie, nella prevenzione e nella diagnosi. Anche la comunicazione scientifica a carattere divulgativo (riviste, tv, dvd,web etc.) svolge un importante ruolo nella diffusione della conoscenza scientifica, nella sensibilizzazione della popolazione e nella conseguente adozione di atteggiamenti e comportamenti. Il gap Esistono studi riguardanti i marcatori di incertezza nella lingua tedesca parlata e in corpora scritti riguardanti l’economia, ma per quanto io ne sappia, non sono ancora stati eseguiti studi riguardanti l’incertezza in corpora di testi medici tratti da riviste scientifiche. Gli obiettivi, il corpus e le procedure di analisi e background teorico La mia ricerca mira a colmare questo gap attraverso l’analisi di un corpus appositamente costruito per l’indagine composto da 60 articoli biomedici di circa 150.000 parole tratti dalla rivista scientifica divulgativa “Spektrum der Wissenschaft” disponibile on line dal 1993 all’indirizzo (http://www.spektrum.de). Ho deciso di effettuare la mia analisi su un corpus di articoli di medicina, scelti in maniera random da suddetta rivista mensile, in quanto è l’unica che ad oggi continua a pubblicare articoli bio-medici in lingua tedesca; mentre altre riviste sia a carattere scientifico, sia a carattere divulgativo, come Monatsschrift Kinderheilkunde, Langenbecks Archives of Surgery and Virchow’s Archiv hanno smesso di scrivere in lingua tedesca nel 1993 e oggi stanno pubblicando esclusivamente in lingua inglese. Il primo obiettivo è stato pertanto quello di effettuare una ricerca qualitativa e quantitativa volta ad individuare quali e quanti marcatori di incertezza utilizzati da chi scrive questo genere di contributi. Gli articoli sono stati analizzati da me e dalla Dott.ssa Christine Berthold, di madrelingua tedesca e docente di lingua tedesca presso l’Università di Lingue e Letterature straniere di Macerata. Le due analiste hanno analizzato i marcatori di incertezza separatamente (l‘indice di accordo – K di Cohen – è risultato pari a 0.80. h . Tale valore è indice di un accordo elevato e dunque di una buona attendibilità dei risultati). Successivamente all’analisi manuale è’stato eseguito un controllo automatico mediante il Software Wordsmith al fine di accertare che tutte le occorrenze fossero state individuate correttamente. Conclusa l’analisi qualitativa e quantitativa, è stato eseguito il test Chi-square (usando SPSS8.0) per verificare se fossero significative le differenze tra: 1) marcatori lessicali e morfosintattici, 2) i diversi marcatori all’interno di ogni categoria. Come ultima analisi sto effettuando il calcolo del dominio (der Skopus in tedesco, scope in inglese) di ciascun singolo marcatore di incertezza, cioè sto calcolando il numero di parole (stringhe) dominato dai marcatori sopra citati. Di ciascun articolo verrà calcolato il numero di parole comunicanti incertezza e certezza. Al momento della redazione del presente abstract, il calcolo non è ancora completo. Il background teorico della mia ricerca è costituito principalmente dalla Teoria del Testo del linguista ungherese J.S.Petöfi (1973, 2004), dal modello teorico del Noto/Certo, Ignoto e Creduto/Incerto (Bongelli, Zuczkowski 2008) e dalla bibliografia specifica sui marcatori di incertezza in lingua tedesca. Risultati Nel corpus sono stati identificati i marcatori di incertezza, sia lessicali [verbi; sostantivi; avverbi e aggettivi; verbi modali; semimodale sich lassen] che morfosintattici [congiuntivo e condizionale; if clauses], che si riferiscono all’autore nel qui e ora della comunicazione. Nei 60 articoli analizzati, la comunicazione di incertezza avviene maggiormente tramite l’uso di marcatori lessicali (55,75%) che morfosintattici (44,25%). Tra i marcatori lessicali di tipo verbale: il verbo più utilizzato è scheinen con 41 occorrenze su un totale di 51. il verbo modale: können all’indicativo presente con 274 occorrenze su un totale di 283 il verbo semi-modale sich lassen con 18 occorrenze. Tra i marcatori lessicali di tipo non verbale, i più utlizzati sono; per gli avverbi : vielleicht con 41 occorrenze su un totale di 142. per gli aggettivi möglich con 26 occorrenze totali. per i sostantivi: die Möglichkeit con 10 occorrenze su un totale di 13. Tra i marcatori di tipo morfosintattici, sono emersi : per la categoria Congiuntivo/Condizionale, il verbo könnten con 124 occorrenze su un totale di 392. per la categoria if clauses, wenn con 23 occorrenze su un totale di 31. Come mostrano i dati appena presentati, tra i marcatori lessicali, quelli più frequenti sono i verbi modali (283), seguiti dagli avverbi e dagli aggettivi (142+26 =168), dai verbi (51). Tra i verbi modali, il più frequente è können all’indicativo presente; questo dato risulta essere in accordo con quanto sostiene Hyland (1998b): i verbi modali rappresentano la categoria con maggiori occorrenze negli articoli scientifici e la frequenza del verbo modale è di uno su cento parole. Tra gli avverbi, il più frequente è vielleicht, tra gli aggettivi möglich. Il verbo semi-modale sich lassen appare con 18 occorrenze. Tra i verbi, il più utilizzato è scheinen. Questi risultati sembrano evidenziare che gli scrittori preferiscono comunicare la loro incertezza tramite l’uso di marcatori di possibilità piuttosto che con marcatori di soggettività, in quanto preferiscono usare il soggetto in terza persona seguito dal verbo modale come per esempio können rispetto all’utilizzo del soggetto in prima persona seguito dai verbi di pensiero come denken, glauben. Secondo Hyland (1998b, p. 364), questa strategia è utilizzata allo scopo di “minimizing writer presence” ed è dovuta alla “predominant view of science as an impersonal, inductive enterprise.” Per quanto riguarda l’uso dei marcatori morfosintattici, è stato notato un maggiore utilizzo di verbi modali nella forma del congiuntivo e del condizionale, rispetto alle if clauses. Questo dato lascia pensare che lo scrittore preferisca comunicare l’incertezza mitigando con verbi al condizionale piuttosto che utilizzare frasi con wenn, als ob, als wenn. Presa visione. Il prodotto 157020 non ha ISBN ma ISSN, in quanto numero monografico di una serie online (internazionale con referaggio). Perché non può essere valutato
    corecore