108 research outputs found

    Towards SMT-Assisted Error Annotation of Learner Corpora

    Get PDF
    We present the results of prototypical experiments conducted with the goal of designing a machine translation (MT) based system that assists the annotators of learner corpora in performing orthographic error annotation. When an annotator marks a span of text as erroneous, the system suggests a correction for the marked error. The presented experiments rely on word-level and character-level Statistical Machine Translation (SMT) systems.Presentiamo i risultati degli esperimenti prototipici condotti con lo scopo di creare un sistema basato sulla traduzione automatica (MT) che assista gli annotatori dei corpora degli apprendenti di lingue durante il processo di annotazione degli errori ortografici. Quando un annotatore segna un segmento di testo come errato il sistema suggerisce una correzione dell’errore segnato. Gli esperimenti presentati utilizzano dei sistemi statistici di traduzione automatica (SMT) al livello di parole e di caratteri

    Analysing the Evolution of Students’ Writing Skills and the Impact of Neo-standard Italian with the help of Computational Linguistics

    Get PDF
    We present a project aimed at studying the evolution of students’ writing skills in a temporal span of 15 years (from 2001 to 2016), analysing in particular the impact of neo-standard Italian. More than 2,500 essays have been transcribed and annotated by teachers according to 28 different linguistic traits. We present here the annotation process together with the first data analysis supported by NLP tools

    Proceedings of the Fifth Italian Conference on Computational Linguistics CLiC-it 2018 : 10-12 December 2018, Torino

    Get PDF
    On behalf of the Program Committee, a very warm welcome to the Fifth Italian Conference on Computational Linguistics (CLiC-­‐it 2018). This edition of the conference is held in Torino. The conference is locally organised by the University of Torino and hosted into its prestigious main lecture hall “Cavallerizza Reale”. The CLiC-­‐it conference series is an initiative of the Italian Association for Computational Linguistics (AILC) which, after five years of activity, has clearly established itself as the premier national forum for research and development in the fields of Computational Linguistics and Natural Language Processing, where leading researchers and practitioners from academia and industry meet to share their research results, experiences, and challenges

    Analysing the Evolution of Students’ Writing Skills and the Impact of Neo-standard Italian with the help of Computational Linguistics

    Get PDF
    We present a project aimed at studying the evolution of students’ writing skills in a temporal span of 15 years (from 2001 to 2016), analysing in particular the impact of neo-standard Italian. More than 2,500 essays have been transcribed and annotated by teachers according to 28 different linguistic traits. We present here the annotation process together with the first data analysis supported by NLP tools.In questo contributo presentiamo un progetto finalizzato allo studio dell’evoluzione delle abilità di scrittura negli studenti in un arco temporale di 15 anni (dal 2001 al 2016), e in particolare all’analisi dell’impatto dell’italiano neostandard. In questo contesto, più di 2.500 temi sono stati trascritti e annotati da insegnanti, registrando la presenza di 28 diversi tratti linguistici. Il presente studio illustra il processo di annotazione e le prime analisi dei dati con il supporto di strumenti TAL

    Os problemas léxico-semánticos e a súa anotación no Corpus de textos galegos escritos por estudantes no ámbito académico (CORTEGAL)

    Get PDF
    Traballo de Fin de Máster en Lingüística Aplicada. Curso 2019-2020Hoxe en día a Lingüística de Corpus é unha peza fundamental da Lingüística Aplicada. É difícil concibir a lingüística actual sen os corpus. Neste senso, os corpus de aprendentes son ferramentas esenciais para comprendermos e mellorarmos a teoría da adquisición das linguas e as metodoloxías necesarias para o proceso de ensinoaprendizaxe. Neste traballo afondaremos no funcionamento dos corpus de aprendentes con anotación informatizada de erros e nas súas clasificacións dos problemas léxico-semánticos. Logo, aplicaremos as nosas pescudas sobre o Corpus de textos galegos escritos por estudantes no ámbito académico (CORTEGAL) analizando os problemas léxico-semánticos e ofrecendo unha proposta de clasificación e etiquetax

    “my wife says that you can be hooked on face powder or whatever you call it” A Corpus Based Study on Extender Tags from a Learner Language Perspective

    Get PDF
    This thesis studies how native speakers of Finnish use extender tags in spoken English. This linguistic phenomenon in English has been examined since the 1970’s. The learner corpus perspective, however, is a newly developing research area in the field. It has been made possible by the availability of learner corpora. This study utilizes the oral performances from the YKI-corpus which is comprised of the tests of The National Certificates of Language Proficiency in Finland. The data includes 360 recordings and the background information on the test participants from the YKI-corpus. The research employed a mixed-methods approach to examine the use of extender tags. The study was based on a quantitative research approach, but a qualitative approach was used to examine the environment of extender tags. In addition, the results are compared with two studies conducted abroad. The effect of social variables on the use of extender tags was studied by using the Orange toolkit. According to the quantitative analysis, the three most popular extender tags are and so on, or something like that and or something. The analysis of social variables suggest that a higher level of education and youth promote the usage of extender tags. In terms of pedagogical implications of the study, it can be stated that the use of extender tags should be taken into consideration in language teaching. Students should learn to recognize different variants of extender tags and gradually also learn how to use them. Future research could concentrate on the functional properties of extender tags by conducting a deeper qualitative analysis.Koska vakiintunutta käännöstä englannin extender tag -ilmaisulle ei ole suomeksi olemassa, olen suomentanut ilmaisun sanalla laajennusliite, jota käytän tässä tiivistelmässä. Tämä pro gradu -tutkielma kartoittaa, miten suomea äidinkielenään puhuvat englannin oppijat käyttävät englannin laajennusliitteitä (extender tag) puheessaan. Kyseessä oleva englannin kielen ilmiö on itse asiassa yhtä vanha kuin itse englanninkieli (Carroll 2008, 7). Vanhimpia mainintoja laajennusliitteen käytöstä löytyy Shakespearen teksteistä, joissa esiintyy and things -laajennusliite vuoden 1596 tietämillä (Tagliamonte & Denis 2010, 340). Oxfordin englannin sanakirjassa ensimmäinen maininta and things -laajennusliitteen käytöstä on vuodelta 1601. Varhaisimmat yritykset analysoida tätä kielellistä ilmiötä juontavat juurensa 1970-luvulle (Cristal & Davy 1975 ja Ball & Ariel 1978). Sittemmin laajennusliitteen käytön tutkimus on yleistynyt ja 2000-luvulla mukaan on tullut vieraankielen oppijan näkökulma. Tutkimus on myös laajentunut käsittämään englannin lisäksi muita kieliä, kuten esim. ruotsi (Winter & Norrby 2000), saksa (Overstreet 2005), espanja (Cortés Rodríguez 2006), japani (Watanabe 2014) ja persiankieli (Parvaresh et al. 2012). Tutkielman tarkoitus on myös selvittää, mitkä sosiaaliset tekijät mahdollisesti vaikuttavat laajennusliitteiden käyttöön. Suomessa aiheeseen liittyvää vastaavanlaista tutkimusta ei ole tehty. Mari Metsä-Ketelän (2016) tutkimus poikkeaa tästä tutkielmasta siinä, että hän tutki and so on, et cetera ja or something (like that) -laajennusliitteiden käyttöä kansainvälisen kommunikoinnin yhteydessä akateemisessa ympäristössä. Tämä tutkielma hyödyntää YKI-korpusta, jonka Soveltavan kielentutkimuksen keskus on koostanut Yleisten kielitutkintojen testiaineistosta. Tutkielma pyrkii vastaamaan kolmeen tutkimuskysymykseen, jotka ovat: 1. Mikä on laajennusliitteiden esiintymistiheys YKI-korpuksen englanninkielen suullisessa testiosuudessa? 2. Millaisia laajennusliitteitä rakenteeltaan suomalaiset englannin kielen oppijat käyttävät? 3. Mikä on erilaisten sosiaalisten muuttujien kuten esim. iän, koulutustaustan ja testitason vaikutus laajennusliitteiden käyttöön? Tässä tiivistelmässä käydään läpi teoreettista taustaa sekä itse laajennusliitteitä havainnollistaen, että aiempiin tutkimuksiin viitaten, jonka jälkeen tutkimuksen materiaali ja menetelmät selostetaan. Lopuksi keskeisimmät tutkimustulokset esitellään johtopäätöksiä samanaikaisesti pohtien. Teoria ja aikaisemmat tutkimukset Laajennusliitteitä luonnehtii monimuotoisuus. Toisaalta niiden rakenne ja pituus vaihtelevat suuresti ja toisaalta ne voivat esiintyä kiinteinä kokonaisuuksina kuten esim. and so on tai et cetera. Tämän johdosta seuraava kuvaus pyrkii esittämään yleisimmin esiintyvät muodot. Perusmuodoltaan laajennusliitteet rakentuvat and/or -konjunktioista, määreistä ja pääsubstantiivista (head noun) (Overstreet 1999, Carroll 2008, Wagner et al. 2015). Pääsubstantiiveina voivat things ja stuff -substantiivien lisäksi toimia seuraavat substantiivit: one, people, shit ja crap (Tagliamonte & Denis 2010, 337). Laajennusliitteet jaetaan kahteen ryhmään sen mukaan, mikä konjunktio aloittaa liitteen (adjunctives/disjunctives). Yksi tärkeimmistä laajennusliitteisiin liittyvistä ominaisuuksista on anaforinen viittaus (anaphoric reference). Kielitieteellinen tutkimus on lähestynyt laajennusliitteiden käyttöä monesta eri näkökulmasta, mikä heijastuu terminologian moninaisuutena. Kielen oppijan näkökulman myötä esiin on noussut sanarypäs-käsite (multi word units/ MWU). Kielenoppija omaksuu kieltä sanaryhmittäin eikä pelkästään sana kerrallaan (Vetschinnikova 2019, 1). On kuitenkin huomattava, että laajennusliitteet ovat vain yksi sanarypäs-käsitteen alle kuuluva kielen sanaston osa-alue. Kuten edellä on mainittu, aiheeseen liittyvää tutkimustietoa löytyy melko runsaasti. Tähän pro-gradu-tutkielmaan otettiin mukaan kahden tutkijan tutkimustulokset, joihin tämän tutkielman tuloksia verrattiin. Vertailun avulla selvitettiin, miten suomalaiset englanninkielen oppijat sijoittuvat kansainvälisesti. Buysse (2014) tutki hollantia äidinkielenään puhuvien englanninkielen oppijoiden korpusta ja Aijmer (2015) puolestaan käytti tutkimuksessaan ruotsalaisten englannin oppijoiden korpusta. Tutkimuksen aineisto ja menetelmät YKI-korpus koostuu aikuisille tarkoitetusta kielitaitotestistä, joka voidaan suorittaa kolmella eri testitasolla (basic, intermediate, advanced). YKI-korpuksen aineisto on jaettu vanhempaan ja uudempaan osaan vuoden 2010 ollessa jakolinjana. Tutkimuksen aineistoksi valittiin 360 äänitettä Yleisen kielitutkinnon englannin testin suullisen osion neljännen tehtävän suorituksista. Kyseisen suullisen testiosuuden pituus on 2 minuuttia. Kaiken kaikkiaan aineiston kesto on 12 tuntia. YKI-korpus ei sisällä äänitteiden transkriptioita, joten kuuntelun jälkeen laajennusliitteitä sisältävät lauseet sekä niitä edeltävä konteksti transkriboitiin. Löydetyt laajennusliitteet jaettiin kolmeen ryhmään testitasoittain sekä vanhan että uuden aineiston osalta. Ensimmäinen ryhmä alkaa and-konjuntiolla, toinen or-konjuntiolla. Kolmannessa ryhmässä ovat ne laajennusliitteet, jotka eivät sisällä konjunktiota. Laajennusliitteiden ryhmittely, transkribointi ja esiintymistiheyksien laskeminen on suoritettu Orange-ohjelmaa - käyttäen. Tarkempaan analyysiin valittiin and stuff/thing (like that) ja and so on, joista ensimmäisten kohdalla tutkittiin anaforista viittausta sekä jälkimmäisen kohdalla laajennusliitteen käyttöä listan muodostuksen osatekijänä. Lisäksi or-laajennusliitteiden konteksti kartoitettiin Aijmerin (2015) luetteloimien kollokaatioiden avulla. YKI-korpus sisältää myös testiin osallistuneiden antamia taustatieoja, joita hyödynnettiin sosiaalisten muuttujien tutkimuksessa. Tämän aineiston analysointiin käytettiin datan louhintaan kehitettyä Orange-ohjelmistoa. Lisäksi Mathematica-ohjelmistoa on käytetty lähinnä tutkimustuloksia esittävien kaavioiden kuvaamiseen. Keskeisimmät tutkimustulokset Analyysin tulosten mukaan suomalaiset englanninkielen oppijat käyttivät eniten and-konjunktiolla alkavia laajennusliitteitä. And-konjunktioiden alkavien osuus selittyy suurella and so on -laajennusliitteen käytöllä. Kolme suosituinta laajennusliitettä olivat: and so on, or something like that ja or something. Aivan poikkeuksellista and so on -käyttö ei ole kielenoppijoiden keskuudessa sillä Buyssen (2014) hollantia äidinkielenään puhuvien oppijoiden korpuksessa and so on -käyttö löytyy kolmannelta sijalta. Tutkimusten mukaan natiivit englanninkielen puhujat käyttävät and so on -laajennusliitettä yleensä joko kirjoitetussa tai virallisessa puheessa (Overstreet 1999, 7). Suomalaisten kielenoppijoiden suosima and so on -laajennusliitteen käyttö on osaltaan selitettävissä äidinkielen siirtovaikutuksella. Suomen kielen vastine ja niin edelleen on käännökseltään englantilaista versiota vastaava sekä rakenteeltaan että käytöltään. Koska and so on -laajennusliitettä esiintyi eniten korpuksessa, sitä tutkittiin listan muodostuksen osatekijänä. Analyysin tulokset vahvistavat Jeffersonin (1990) teorian listan muodostamisesta. Teorian mukaan puhujat pyrkivät muodostamaan listan, joka koostuu kolmesta osasta. Kun and stuff/things (like that) -laajennusliitteen käyttöä analysoitiin tarkemmin, osoittautui, että suomalaiset englannin kielen oppijat suosivat laajennusliitteen pidempää muotoa puheessaan. Buysse (2014) raportoi samasta ilmiöstä, mutta Aijmer (2015) ei nähnyt vastaavaa tutkimuksessaan. Yllättävä löydös oli se, että suomalaiset eivät käyttäneet puheessaan suuremmassa määrin and stuff (like that) -laajennusliitettä, mikä taas oli Buyssenin (2014) tutkimuksessa ominaista hollantia äidinkielenään puhuvien englannin kielen oppijoille. Buyssen mukaan runsas käyttö juontaa juurensa suuresta amerikkalaisten sarjojen tarjonnasta, jolloin and stuff (like that) -laajennusliitettä kuullaan paljon. Siitä huolimatta, että Suomessa on myös laaja amerikkalaisten sarjojen ja elokuvien tarjonta, eivät suomalaiset näyttäneen käyttävän and stuff (like that) niin paljon kuin hollantia tai ruotsia äidinkielenään puhuvat englanninkielen oppijat. And stuff/thing (like that) -laajennusliitteen kontekstin tutkiminen paljasti ristiriitaisuuksia stuff/things -pääsubstantiiviin ja sen anaforisen viittauksen kohteena olevan substantiivin välillä. Esimerkiksi pääsubstantiivia stuff oli käytetty viittamaan laskettavissa olevaan substantiiviin. Edellä mainitun tyyppistä laajennusliitteen käyttöä on todettu aikaisemmissa tutkimuksissa (Tagliamonte & Denis 2010). Sosiaalisten muuttujien analyysi osoitti, että mitään yksittäistä sosiaalista tekijä, joka vaikuttaa laajennusliitteiden käyttöön, ei voitu nimetä. Tutkimus kuitenkin antoi viitteitä siitä, että korkeampi koulutuksen taso sekä nuoruus edistivät laajennusliitteiden käyttöä. Aineiston analyysissä käytetty Orange-ohjelmiston käyttö osoittautui tämän tutkimuksen tekemiseen hyvin käyttökelpoiseksi lähinnä siksi, että sen käyttö ei vaadi ohjelmointitaitoja. Laskutoimituksen tuloksia on mahdollista tarkastella erilaisen graafisten kaavioiden avulla, jotka visualisoivat tuloksia. Tällöin aineistosta saattaa nousta esiin asioita, joiden tarkempi tarkastelu avaa uusia näkökulmia aineiston tulkitsemiseen. Tutkimusten perusteella voidaan todeta, että laajennusliitteiden käyttö tulisi ottaa huomioon opetuksessa. Opettajien tulee lisätä oppilaidensa tietoisuutta tämän kielellisen ilmiön suhteen. Oppilaiden tulisi oppia tunnistamaan erilaiset laajennusliitteiden erilaiset muunnelmat ja oppia käyttämään niitä oikeassa rekisterissä. Lopuksi voidaan todeta, että tämä tutkielma voi toimia lähtökohtana laajemmalle laajennusliitteiden tutkimukselle suomalaisten englanninkielen oppijoiden kielenkäytössä. Erityisesti syvällinen kvalitatiivinen laajennusliitteiden funktionaalisten ominaisuuksien tutkimus luonnollisissa keskustelutilanteissa olisi erinomainen tutkimuskohde. Tutkimukseen olisi syytä sisällyttää kyselylomake tai haastattelu, jotta yksityiskohtaisemmat taustatiedot saataisiin kartoitettua. Toinen tutkimus olisi hyvä kohdistaa oppimismateriaalien kartoittamiseen peruskouluissa ja lukioissa. Mielenkiintoista olisi selvittää, kuinka paljon laajennusliitteitä esiintyy opetusmateriaaleissa ja kuinka paljon opettajat itse kiinnittivät ilmiöön huomiota opettaessaan. Kielen oppijoille hyvä laajennusliitteiden hallinta tarjoaa vielä yhden työkalun sujuvaan kielen tuottamiseen

    L2 learners’ perceptions of grammar: The case of JFL learners in the UK

    Get PDF
    This study reports on the findings of a questionnaire administered to 93 students studying Japanese as a foreign language (JFL) at British universities, focusing on their views of the role of grammar in their learning of Japanese. Learners’ views are important because mismatches with their teachers’ views can affect their learning negatively. Following previous studies, the learners in this study, who were at upper-beginner to lower-intermediate levels, valued formal instruction and wanted teachers to give detailed explanations on grammar. In particular, their views suggested that they seek greater understanding of the semantic and pragmatic features of new grammatical structures. We suggest that particularly in the case of a ‘less familiar’ language such as Japanese, anglophone learners can benefit from a ‘focus on forms’ approach that incorporates different learning processes such as pattern recognition and making associations, alongside a ‘focus on form’ approach that assists their understanding of how the target grammatical structures are used in context

    Using data mining to repurpose German language corpora. An evaluation of data-driven analysis methods for corpus linguistics

    Get PDF
    A growing number of studies report interesting insights gained from existing data resources. Among those, there are analyses on textual data, giving reason to consider such methods for linguistics as well. However, the field of corpus linguistics usually works with purposefully collected, representative language samples that aim to answer only a limited set of research questions. This thesis aims to shed some light on the potentials of data-driven analysis based on machine learning and predictive modelling for corpus linguistic studies, investigating the possibility to repurpose existing German language corpora for linguistic inquiry by using methodologies developed for data science and computational linguistics. The study focuses on predictive modelling and machine-learning-based data mining and gives a detailed overview and evaluation of currently popular strategies and methods for analysing corpora with computational methods. After the thesis introduces strategies and methods that have already been used on language data, discusses how they can assist corpus linguistic analysis and refers to available toolkits and software as well as to state-of-the-art research and further references, the introduced methodological toolset is applied in two differently shaped corpus studies that utilize readily available corpora for German. The first study explores linguistic correlates of holistic text quality ratings on student essays, while the second deals with age-related language features in computer-mediated communication and interprets age prediction models to answer a set of research questions that are based on previous research in the field. While both studies give linguistic insights that integrate into the current understanding of the investigated phenomena in German language, they systematically test the methodological toolset introduced beforehand, allowing a detailed discussion of added values and remaining challenges of machine-learning-based data mining methods in corpus at the end of the thesis

    Increasing information accessibility on the Web: a rating system for specialized dictionaries

    Get PDF
    The paper illustrates the features of the WLR (Web Linguistic Resources) portal, which collects specialized online dictionaries and asses their suitability for different functions using a specifically designed rating system. The contribution aims to demonstrate how the existing tool has improved the usefulness of lexico-graphical portals and how its effectiveness can be further increased by transforming the portal into a collaborative resource.Questo contributo descrive le caratteristiche del portale WLR (Web Linguistic Resources) che raccoglie dizionari specialistici della Rete e ne stima l’utilizzabilità per diverse funzioni, avvalendosi di uno specifico sistema di valutazione. Viene quindi mostrato come questo strumento incrementi l’utilizzabilità dei portali lessicografici finora sviluppati e come la sua efficacia possa essere ulteriormente migliorata trasformandolo in risorsa collaborativa

    "Is There Choice in Non-Native Voice?" Linguistic Feature Engineering and a Variationist Perspective in Automatic Native Language Identification

    Get PDF
    Is it possible to infer the native language of an author from a non-native text? Can we perform this task fully automatically? The interest in answers to these questions led to the emergence of a research field called Native Language Identification (NLI) in the first decade of this century. The requirement to automatically identify a particular property based on some language data situates the task in the intersection between computer science and linguistics, or in the context of computational linguistics, which combines both disciplines. This thesis targets several relevant research questions in the context of NLI. In particular, what is the role of surface features and more abstract linguistic cues? How to combine different sets of features, and how to optimize the resulting large models? Do the findings generalize across different data sets? Can we benefit from considering the task in the light of the language variation theory? In order to approach these questions, we conduct a range of quantitative and qualitative explorations, employing different machine learning techniques. We show how linguistic insight can advance technology, and how technology can advance linguistic insight, constituting a fruitful and promising interplay
    corecore