47 research outputs found
NP alignment in bilingual corpora
We created a simple gold standard for English-Hungarian NP-level alignment, Orwell’s 1984, (since this already exists in manually verified POS-tagged format in many languages thanks to the Multex and MultexEast project) by manually verifying the automaticaly generated NP chunking (we used the yamcha, mallet and hunchunk taggers) and manually aligning the maximal NPs and PPs. The maximum NP chunking problem is much harder than base NP chunking, with F-measure in the.7 range (as opposed to over.94 for base NPs). Since the results are highly impacted by the quality of the NP chunking, we tested our alignment algorithms both with real world (machine obtained) chunkings, where results are in the.35 range for the baseline algorithm which propagates GIZA++ word alignments to the NP level, and on idealized (manually obtained) chunkings, where the baseline reaches.4 and our current system reaches.64. 1
SzĂłhasonlĂłság mĂ©rĂ©se analĂłgiás megközelĂtĂ©sben
A magyar szavak, elssorban a fnevek hasonlĂłságát meghatározĂł tĂ©nyezk leĂrására törekszem. Ebben a szabályalapĂş nyelvtanok helyett a mentálisan reálisabbnak Ă©s rugalmasabbnak tn analĂłgiás keretrendszert tekintem kiindulási alapnak. Munkámban a számĂtĂłgĂ©pes nyelvĂ©szet eredmĂ©nyeire Ă©s mĂłdszereire támaszkodom. SzámĂtásaim, megállapĂtásaim kizárĂłlagosan korpuszbĂłl vett adatokon alapszanak. Kutatásomnak közvetlen hozadĂ©ka is lehet a nyelvtechnolĂłgia számára a szĂłtárbvĂtĂ©s Ă©s –karbantartás terĂĽletĂ©n, mivel a hasonlĂłságot mĂ©r algoritmusom 95%-os pontossággal ismeri fel fnĂ©vi tövek hangkivet voltát, amely már lehetvĂ© teszi az ilyen szavaknak akár automatikus besorolását is
Edit wars in Wikipedia
We present a new, efficient method for automatically detecting severe
conflicts `edit wars' in Wikipedia and evaluate this method on six different
language WPs. We discuss how the number of edits, reverts, the length of
discussions, the burstiness of edits and reverts deviate in such pages from
those following the general workflow, and argue that earlier work has
significantly over-estimated the contentiousness of the Wikipedia editing
process.Comment: 4 pages, 2 figures, 3 tables. The current version is shortened to be
published in SocialCom 201
Klaszterek helyett prototĂpusok
ĂŤrásunkban bemutatjuk, hogy nyelvi elemek viselkedĂ©sĂ©nek jellemzĂ©se Ă©s modellezĂ©se lehetsĂ©ges klaszterekre valĂł hivatkozás nĂ©lkĂĽl prototĂpusok segĂtsĂ©gĂ©vel is. Vizsgálatunkban gĂ©pileg kiválasztott prototĂpusok segĂtsĂ©gĂ©vel a hangkivet fnevek ingadozását modelleztĂĽk eredmĂ©nyesen. 282 hangkivet fnĂ©vbl választottunk ki 8 prototĂpusnak tekinthet szĂłt. Az egyes szavak Ă©s a hozzájuk alakjában leghasonlĂłbb prototĂpus közt mĂ©rhet távolság szignifikáns pozitĂv egyĂĽttjárásban (r(280) = 0,419, p < 0,001) van a viszonyĂtott szavak hangkivetĂ©si mĂ©rtĂ©kĂ©vel a SzĂłszablya Gyakorisági SzĂłtár [3] adatai alapján. Ebbl láthatjuk, hogy azok a szavak, amelyek a prototĂpusokra jobban hasonlĂtanak hangalakjukban, azokhoz közelĂt mĂłdon is viselkednek, azaz az egyes szavak viselkedĂ©sĂ©t klaszterekre Ă©s szabályokra valĂł hivatkozás nĂ©lkĂĽl is modellezni tudtuk
Hunglish : nyĂlt statisztikai magyar-angol gĂ©pi nyersfordĂtĂł
A Budapesti Műszaki Egyetem MĂ©dia OktatĂł Ă©s KutatĂł Központjának vezetĂ©sĂ©vel 2004 jĂşliusában indult Hunglish projekt1 egy szabadon felhasználhatĂł, statisztikai gĂ©pi nyersforditĂłt, illetve fordĂt ást ámogatĂł rendszert hoz lĂ©tre, magyar nyelvű szövegek angolra valĂł átĂĽltetĂ©sĂ©hez. A gĂ©pi fordĂtĂł tanĂtásához egy kĂ©tnyelvű illesztett párhuzar mos korpuszt hozunk lĂ©tre. A projekt lezárása után nemcsak a kifejlesztett szoftvereket, hanem a korpuszt Ă©s az ez alapján Ă©pĂtett/javltott kĂ©tnyelvű magyar-angol szĂłtárat is szabadon hozzáfĂ©rhetĹ‘vĂ© tesszĂĽk bárki számára