42 research outputs found

    Crowdsourcing for Language Resource Development: Criticisms About Amazon Mechanical Turk Overpowering Use

    Get PDF
    International audienceThis article is a position paper about Amazon Mechanical Turk, the use of which has been steadily growing in language processing in the past few years. According to the mainstream opinion expressed in articles of the domain, this type of on-line working platforms allows to develop quickly all sorts of quality language resources, at a very low price, by people doing that as a hobby. We shall demonstrate here that the situation is far from being that ideal. Our goal here is manifold: 1- to inform researchers, so that they can make their own choices, 2- to develop alternatives with the help of funding agencies and scientific associations, 3- to propose practical and organizational solutions in order to improve language resources development, while limiting the risks of ethical and legal issues without letting go price or quality, 4- to introduce an Ethics and Big Data Charter for the documentation of language resourc

    FuzzyPR:an Effective Passage Retrieval System for QAS

    Get PDF

    Describing São Tomense Using a Tree-Adjoining Meta-Grammar

    Get PDF
    Poster sessionInternational audienceIn this paper, we show how the interactions between the tense, aspect and mood preverbal markers in São Tomense can be formally and concisely described at an abstract level, using the concept of projection. More precisely, we show how to encode the different valid orders of preverbal markers in an abstract description of a Tree-Adjoining Grammar of São Tomense. This description is written using the XMG meta-grammar language (Crabbé and Duchier, 2004)

    A frázisstrukturált Szeged Treebank átalakítása függőségi fa formátumra

    Get PDF
    A CoNLL (Conference on Computational Natural Language Learning) nemzetközi konferencia szervezői évről évre különböző versenyeket írnak ki a résztvevők számára. Az elmúlt években került sor, például a tagmondatokra bontás (2001), tulajdonnév felismerés (2003), szemantikus szerep annotáció (2005) témakörében feladatok kiírására. A 2007. nyarán Prágában megrendezésre került konferencia versenyfeladványa a függőségi struktúrák gépi tanulása volt. A kitűzött feladatok között a magyar Szeged Treebank 2.0-ból kialakított tréning adatbázis is szerepelt. A versenyben egymástól nyelvészetileg rendkívül eltérő nyelvekre készített adatbázisok vettek részt (arab, baszk, katalán, kínai, cseh, angol, görög, magyar, olasz, török), amelyek 9 nyelvcsaládból származtak (sémi, elszigetelt, újlatin, kínai-tibeti, szláv, germán, hellén, finn-ugor, török). A szerző a függőségi fa formára történő automatikus gépi átalakítást mutatja be, valamint a verseny eredményeként kapott néhány megállapítást a nyelvcsaládokra vonatkozóan

    HunLearner : a magyar nyelv nyelvtanulói korpusza

    Get PDF
    Cikkünkben bemutatjuk a HunLearner korpuszt, mely a magyart mint idegen nyelvet tanulók által létrehozott szövegeket tartalmaz. A korpusz tartalmazza a morfológiailag hibás főnevek javított alakjait és a hiba kódját is. A javított alakok kézi annotációja lehetővé tette azt is, hogy megvizsgáljuk a hibák automatikus javításának lehetőségeit. Az eredmények azt mutatják, hogy már egyszerű módszerekkel is jelentősen lehet csökkenteni a hibás szóalakok számát egy nem sztenderd szövegben, ami ígéretesnek mutatkozik a nem sztenderd szövegek automatikus feldolgozására nézve

    Building a morphological and syntactic lexicon by merging various linguistic resources

    Get PDF
    Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009. Editors: Kristiina Jokinen and Eckhard Bick. NEALT Proceedings Series, Vol. 4 (2009), 126-133. © 2009 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/9206

    magyarlanc 2.0 : szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

    Get PDF
    Ebben a cikkben bemutatjuk a magyarlanc nyelvi elemző újabb változatát, amely a hatékonyabb implementációnak köszönhetően a korábban publikált verzióhoz képest jóval gyorsabban képes magyar szövegek mondatra és szövegszavakra bontására, a szavak morfológiai elemzésére, majd szófaji egyértelműsítésére a pontosság javulása mellett. A magyarlanc 2.0 továbbá tartalmaz a mondatok függőségi nyelvtan szerinti szintaktikai elemzéséért felelős modult is. A rendszer teljes egésze JAVA-ban implementált, így platformfüggetlenül használható. Az elemző kutatási célokra bárki számára szabadon hozzáférhető

    DeLex, a freely-avaible, large-scale and linguistically grounded morphological lexicon for German

    Get PDF
    International audienceWe introduce DeLex, a freely-avaible, large-scale and linguistically grounded morphological lexicon for German developed within the Alexina framework. We extracted lexical information from the German wiktionary and developed a morphological inflection grammar for German, based on a linguistically sound model of inflectional morphology. Although the developement of DeLex involved some manual work, we show that is represents a good tradeoff between development cost, lexical coverage and resource accuracy
    corecore