Search CORE

47 research outputs found

NP alignment in bilingual corpora

Author: Kornai András
Recski Gábor
Rung András
Zséder Attila
Publication venue
Publication date: 01/01/2010
Field of study

We created a simple gold standard for English-Hungarian NP-level alignment, Orwell’s 1984, (since this already exists in manually verified POS-tagged format in many languages thanks to the Multex and MultexEast project) by manually verifying the automaticaly generated NP chunking (we used the yamcha, mallet and hunchunk taggers) and manually aligning the maximal NPs and PPs. The maximum NP chunking problem is much harder than base NP chunking, with F-measure in the.7 range (as opposed to over.94 for base NPs). Since the results are highly impacted by the quality of the NP chunking, we tested our alignment algorithms both with real world (machine obtained) chunkings, where results are in the.35 range for the baseline algorithm which propagates GIZA++ word alignments to the NP level, and on idealized (manually obtained) chunkings, where the baseline reaches.4 and our current system reaches.64. 1

CiteSeerX

SZTAKI Publication Repository

Szóhasonlóság mérése analógiás megközelítésben

Author: Rung András
Publication venue
Publication date: 01/01/2009
Field of study

A magyar szavak, elssorban a fnevek hasonlóságát meghatározó tényezk leírására törekszem. Ebben a szabályalapú nyelvtanok helyett a mentálisan reálisabbnak és rugalmasabbnak tn analógiás keretrendszert tekintem kiindulási alapnak. Munkámban a számítógépes nyelvészet eredményeire és módszereire támaszkodom. Számításaim, megállapításaim kizárólagosan korpuszból vett adatokon alapszanak. Kutatásomnak közvetlen hozadéka is lehet a nyelvtechnológia számára a szótárbvítés és –karbantartás területén, mivel a hasonlóságot mér algoritmusom 95%-os pontossággal ismeri fel fnévi tövek hangkivet voltát, amely már lehetvé teszi az ilyen szavaknak akár automatikus besorolását is

University of Szeged

Hangkivető főnevek analógiás keretben

Author: Rung András
Publication venue
Publication date: 01/01/2011
Field of study

University of Szeged

Hangkivető főnevek hasonlósági csoportjai

Author: Rung András
Publication venue
Publication date: 01/01/2012
Field of study

University of Szeged

Magyar főnévi alaktani jelenségek analógiás megközelítésben

Author: Rung András
Publication venue
Publication date: 01/01/2011
Field of study

ELTE Digital Institutional Repository (EDIT)

Szógyakoriság és helyesírás-ellenőrzés [Word frequency and spell-checker accuracy]

Author: Halácsy Péter
Kornai András
Németh László
Rung András
Szakadát István
Publication venue
Publication date: 01/01/2003
Field of study

Repository of the Academy's Library

Edit wars in Wikipedia

Author: Kertész János
Kornai András
Rung András
Sumi Róbert
Yasseri Taha
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 01/01/2011
Field of study

We present a new, efficient method for automatically detecting severe conflicts `edit wars' in Wikipedia and evaluate this method on six different language WPs. We discuss how the number of edits, reverts, the length of discussions, the burstiness of edits and reverts deviate in such pages from those following the general workflow, and argue that earlier work has significantly over-estimated the contentiousness of the Wikipedia editing process.Comment: 4 pages, 2 figures, 3 tables. The current version is shortened to be published in SocialCom 201

arXiv.org e-Print Archive

CiteSeerX

Crossref

SZTAKI Publication Repository

Klaszterek helyett prototípusok

Author: Kálmán László
Rung András
Publication venue
Publication date: 01/01/2010
Field of study

Írásunkban bemutatjuk, hogy nyelvi elemek viselkedésének jellemzése és modellezése lehetséges klaszterekre való hivatkozás nélkül prototípusok segítségével is. Vizsgálatunkban gépileg kiválasztott prototípusok segítségével a hangkivet fnevek ingadozását modelleztük eredményesen. 282 hangkivet fnévbl választottunk ki 8 prototípusnak tekinthet szót. Az egyes szavak és a hozzájuk alakjában leghasonlóbb prototípus közt mérhet távolság szignifikáns pozitív együttjárásban (r(280) = 0,419, p < 0,001) van a viszonyított szavak hangkivetési mértékével a Szószablya Gyakorisági Szótár [3] adatai alapján. Ebbl láthatjuk, hogy azok a szavak, amelyek a prototípusokra jobban hasonlítanak hangalakjukban, azokhoz közelít módon is viselkednek, azaz az egyes szavak viselkedését klaszterekre és szabályokra való hivatkozás nélkül is modellezni tudtuk

University of Szeged

Hunglish : nyílt statisztikai magyar-angol gépi nyersfordító

Author: Halácsy Péter
Kornai András
Németh László
Rung András
Publication venue
Publication date: 01/01/2004
Field of study

A Budapesti Műszaki Egyetem Média Oktató és Kutató Központjának vezetésével 2004 júliusában indult Hunglish projekt1 egy szabadon felhasználható, statisztikai gépi nyersforditót, illetve fordít ást ámogató rendszert hoz létre, magyar nyelvű szövegek angolra való átültetéséhez. A gépi fordító tanításához egy kétnyelvű illesztett párhuzar mos korpuszt hozunk létre. A projekt lezárása után nemcsak a kifejlesztett szoftvereket, hanem a korpuszt és az ez alapján épített/javltott kétnyelvű magyar-angol szótárat is szabadon hozzáférhetővé tesszük bárki számára

University of Szeged

Leveraging the open source ispell codebase for minority language analysis

Author: Andras Rung
Halácsy Péter
Kornai András
Laszlo Nemeth
Szakadát István
Viktor Tron
Publication venue
Publication date: 01/01/2004
Field of study

SZTAKI Publication Repository