6 research outputs found

    Unsupervised Data Augmentation for Less-Resourced Languages with no Standardized Spelling

    Get PDF
    International audienceNon-standardized languages are a challenge to the construction of representative linguistic resources and to the development of efficient natural language processing tools: when spelling is not determined by a consensual norm, a multiplicity of alternative written forms can be encountered for a given word, inducing a large proportion of out-of-vocabulary words. To embrace this diversity, we propose a methodology based on crowdsourcing alternative spellings from which variation rules are automatically extracted. The rules are further used to match out-of-vocabulary words with one of their spelling variants. This virtuous process enables the unsupervised augmentation of multi-variant lexicons without requiring manual rule definition by experts. We apply this multilingual methodology on Al-satian, a French regional language and provide (i) an intrinsic evaluation of the correctness of the obtained variants pairs, (ii) an extrinsic evaluation on a downstream task: part-of-speech tagging. We show that in a low-resource scenario, collecting spelling variants for only 145 words can lead to (i) the generation of 876 additional variant pairs, (ii) a diminution of out-of-vocabulary words improving the tagging performance by 1 to 4%

    Text Normalisation of Dialectal Finnish

    Get PDF
    Tekstin normalisointi on prosessi, jossa epästandardia kirjoitettua kieltä muutetaan standardisoituun muotoon. Murteet ovat yksi esimerkki epästandardista kielestä, joka voi poiketa huomattavastikin standardisoidusta yleiskielestä. Lisäksi suomen kieli on ortografialtaan varsin pitkälti foneemista, minkä ansiosta myös puhutun kielen ominaispiirteet on mahdollista tuoda esille kirjoitetussa muodossa. Etenkin epävirallisilla alustoilla ja arkikielisessä kontekstissa, kuten sosiaalisessa mediassa, suomen kielen puhujat saattavat kirjoittaa sanat kuten ääntäisivät ne normaalisti puhuessaan. Tällaista epästandardista kielestä koostuvaa aineistoa voi löytää myös luonnollisen kielen käsittelyn tarpeisiin esimerkiksi Twitteristä. Perinteiselle yleiskieliselle tekstiaineistolle suunnatut luonnollisen kielen käsittelyn työkalut eivät kuitenkaan välttämättä saavuta toivottavia tuloksia puhekieliselle aineistolle sovellettuna, jolloin ratkaisuna voidaan käyttää välivaiheena tekstin normalisointia. Normalisointiprosessissa syötteenä käytettävä puhekielinen tai muutoin epästandardia kieltä sisältävä teksti muutetaan standardisoituun kirjoitusasuun, jota luonnollisen kielen käsittelyn työkalut paremmin ymmärtävät. Tämä työ pohjaa aiempaan tutkimukseen, jota on tehty suomen murteiden normalisoinnin parissa. Aiemmissa tutkimuksissa on todettu, että merkkipohjaiset BRNN-neuroverkkomallit (Bidirectional Recurrent Neural Nerwork) saavuttavat hyviä tuloksia suomen kielen murteiden normalisoinnissa, kun syötteenä käytetään sanoja kolmen kappaleen lohkoissa. Tämä tarkoittaa, että järjestelmä saa syötteenä kerrallaan kolmen sanan joukon, ja jokainen sana on edelleen pilkottu välilyönnein eroteltuihin kirjoitusmerkkeihin. Tässä työssä pyrittiin käyttämään samoja metodeja ja aineistoa kuin aiemmassa tutkimuksessa, jotta tulokset olisivat vertailukelpoisia. Aineistona on käytetty Kotimaisten kielten keskuksen ylläpitämää Suomen kielen näytteitä -korpusta, ja normalisointiin on käytetty OpenNMT-nimistä avoimen lähdekoodin kirjastoa. Työssä toteutetuista kokeiluista saadut tulokset näyttävät vahvistavan aiempien tutkimustulosten pohjalta tehdyt löydökset, mutta lisäksi on viitteitä siitä, että neuroverkkomallit saattaisivat pidemmistä lohkoista koostuvista syötteistä. BRNN-mallin lisäksi työssä kokeillaan myös muita neuroverkkoarkkitehtuureja, mutta vertailtaessa sanavirheiden suhdelukua mittaavaa WER-arvoa (Word Error Rate) voidaan todeta, että BRNN-malli suoriutuu normalisointitehtävästä muita neuroverkkoarkkitehtuureja paremmin

    Internet linguistics: a conversational analysis of online synchronous chat and face-to-face conversations of EFL undergraduate students in Jordan

    Get PDF
    This study aimed to shed light on Online Synchronous chat (OSC) on Facebook chatroom compared with Face-To-Face (FTF) conversations. The corpus was cumulated from the interaction of four groups consisted of (68) third-year English language and literature major students at Ajloun University College (AUC). The participants were selected purposively and distributed randomly into two OSCGs and two FTF groups. The interactions for FTF groups were video-recorded and the transcriptions were embedded line by line in each conversation. While the interaction on the two Facebook chatrooms were downloaded through a Facebook option called "download your information". Two instruments were used: a Speech Act Rubric Scale based on Grice's maxims, linguistics performance rubric checklist, and an open-end question had been just presented to the chatters. This study investigated whether interlocutors apply the four Gricean CPs and three linguistic aspects over seventeen turn-taking and repair acts. Thus, the comparison was a try to investigate the social and linguistic performance of OSC interlocutors. Results revealed the importance to improve chatrooms features regarding to speech acts theory and Grice's maxim. The analysis concluded that interaction on OSC still needs more investigation. More precisely, Facebook chatrooms neglects to some extent the two theories.Este estudio tuvo como objetivo arrojar luz sobre el Chatear Sincrónico en Línea (CSL) en el chat de Facebook en comparación con las conversaciones cara a cara (CAC). El corpus se recopiló a partir de la interacción de cuatro grupos, de 68 estudiantes de tercer curso del Grado de Lengua y Literatura inglesa en el Colegio Universitario de Ajloun (CUA). Los participantes fueron seleccionados deliberadamente y distribuidos aleatoriamente en dos grupos de chat sincrónico en línea y dos grupos cara a cara. Las interacciones de los grupos CAC se grabaron un video y sus transcripciones se incrustaron línea por línea en cada conversación. Mientras que la interacción en los dos chats de Facebook se descargó a través de una opción de Facebook llamada "descargar su información". Se utilizaron dos instrumentos: una lista de verificación de la rúbrica del acto de habla basada en las máximas de Grice, la lista de verificación de la rúbrica del rendimiento lingüístico y una pregunta abierta presentada a los interlocutores. Este estudio investigó si los interlocutores aplican los cuatro principios cooperativos de Grice y tres aspectos lingüísticos en diecisiete actos de reparación y toma de turnos. Por lo tanto, la comparación fue un intento de investigar el desempeño social y lingüístico de los interlocutores de CSL. Los resultados revelaron la importancia de mejorar las características de los chats según a la teoría de los actos de habla y la máxima de Grice. El análisis concluyó que la interacción en CSL aún necesita más investigación. Más precisamente, los chats de Facebook descuidan en cierta medida las dos teorías.Programa de Doctorado en Humanidades por la Universidad Carlos III de MadridPresidente: María Paloma Díaz Pérez.- Secretario: Linda Johanna Castañeda Quintero.- Vocal: Fernando Trujillo Sáe

    Automatic Population of Structured Reports from Narrative Pathology Reports

    Get PDF
    There are a number of advantages for the use of structured pathology reports: they can ensure the accuracy and completeness of pathology reporting; it is easier for the referring doctors to glean pertinent information from them. The goal of this thesis is to extract pertinent information from free-text pathology reports and automatically populate structured reports for cancer diseases and identify the commonalities and differences in processing principles to obtain maximum accuracy. Three pathology corpora were annotated with entities and relationships between the entities in this study, namely the melanoma corpus, the colorectal cancer corpus and the lymphoma corpus. A supervised machine-learning based-approach, utilising conditional random fields learners, was developed to recognise medical entities from the corpora. By feature engineering, the best feature configurations were attained, which boosted the F-scores significantly from 4.2% to 6.8% on the training sets. Without proper negation and uncertainty detection, the quality of the structured reports will be diminished. The negation and uncertainty detection modules were built to handle this problem. The modules obtained overall F-scores ranging from 76.6% to 91.0% on the test sets. A relation extraction system was presented to extract four relations from the lymphoma corpus. The system achieved very good performance on the training set, with 100% F-score obtained by the rule-based module and 97.2% F-score attained by the support vector machines classifier. Rule-based approaches were used to generate the structured outputs and populate them to predefined templates. The rule-based system attained over 97% F-scores on the training sets. A pipeline system was implemented with an assembly of all the components described above. It achieved promising results in the end-to-end evaluations, with 86.5%, 84.2% and 78.9% F-scores on the melanoma, colorectal cancer and lymphoma test sets respectively

    24th Nordic Conference on Computational Linguistics (NoDaLiDa)

    Get PDF
    corecore