47 research outputs found

    NP alignment in bilingual corpora

    Get PDF
    We created a simple gold standard for English-Hungarian NP-level alignment, Orwell’s 1984, (since this already exists in manually verified POS-tagged format in many languages thanks to the Multex and MultexEast project) by manually verifying the automaticaly generated NP chunking (we used the yamcha, mallet and hunchunk taggers) and manually aligning the maximal NPs and PPs. The maximum NP chunking problem is much harder than base NP chunking, with F-measure in the.7 range (as opposed to over.94 for base NPs). Since the results are highly impacted by the quality of the NP chunking, we tested our alignment algorithms both with real world (machine obtained) chunkings, where results are in the.35 range for the baseline algorithm which propagates GIZA++ word alignments to the NP level, and on idealized (manually obtained) chunkings, where the baseline reaches.4 and our current system reaches.64. 1

    Szóhasonlóság mérése analógiás megközelítésben

    Get PDF
    A magyar szavak, elssorban a fnevek hasonlóságát meghatározó tényezk leírására törekszem. Ebben a szabályalapú nyelvtanok helyett a mentálisan reálisabbnak és rugalmasabbnak tn analógiás keretrendszert tekintem kiindulási alapnak. Munkámban a számítógépes nyelvészet eredményeire és módszereire támaszkodom. Számításaim, megállapításaim kizárólagosan korpuszból vett adatokon alapszanak. Kutatásomnak közvetlen hozadéka is lehet a nyelvtechnológia számára a szótárbvítés és –karbantartás területén, mivel a hasonlóságot mér algoritmusom 95%-os pontossággal ismeri fel fnévi tövek hangkivet voltát, amely már lehetvé teszi az ilyen szavaknak akár automatikus besorolását is

    Hangkivető főnevek analógiás keretben

    Get PDF

    Edit wars in Wikipedia

    Get PDF
    We present a new, efficient method for automatically detecting severe conflicts `edit wars' in Wikipedia and evaluate this method on six different language WPs. We discuss how the number of edits, reverts, the length of discussions, the burstiness of edits and reverts deviate in such pages from those following the general workflow, and argue that earlier work has significantly over-estimated the contentiousness of the Wikipedia editing process.Comment: 4 pages, 2 figures, 3 tables. The current version is shortened to be published in SocialCom 201

    Klaszterek helyett prototĂ­pusok

    Get PDF
    Írásunkban bemutatjuk, hogy nyelvi elemek viselkedésének jellemzése és modellezése lehetséges klaszterekre való hivatkozás nélkül prototípusok segítségével is. Vizsgálatunkban gépileg kiválasztott prototípusok segítségével a hangkivet fnevek ingadozását modelleztük eredményesen. 282 hangkivet fnévbl választottunk ki 8 prototípusnak tekinthet szót. Az egyes szavak és a hozzájuk alakjában leghasonlóbb prototípus közt mérhet távolság szignifikáns pozitív együttjárásban (r(280) = 0,419, p < 0,001) van a viszonyított szavak hangkivetési mértékével a Szószablya Gyakorisági Szótár [3] adatai alapján. Ebbl láthatjuk, hogy azok a szavak, amelyek a prototípusokra jobban hasonlítanak hangalakjukban, azokhoz közelít módon is viselkednek, azaz az egyes szavak viselkedését klaszterekre és szabályokra való hivatkozás nélkül is modellezni tudtuk

    Hunglish : nyílt statisztikai magyar-angol gépi nyersfordító

    Get PDF
    A Budapesti Műszaki Egyetem Média Oktató és Kutató Központjának vezetésével 2004 júliusában indult Hunglish projekt1 egy szabadon felhasználható, statisztikai gépi nyersforditót, illetve fordít ást ámogató rendszert hoz létre, magyar nyelvű szövegek angolra való átültetéséhez. A gépi fordító tanításához egy kétnyelvű illesztett párhuzar mos korpuszt hozunk létre. A projekt lezárása után nemcsak a kifejlesztett szoftvereket, hanem a korpuszt és az ez alapján épített/javltott kétnyelvű magyar-angol szótárat is szabadon hozzáférhetővé tesszük bárki számára
    corecore