Search CORE

1 research outputs found

Multi-alignment templates induction

Author: Laukaitis Algirdas
Publication venue: Matematikos ir informatikos institutas
Publication date: 01/01/2008
Field of study

Didesnė dalis pasaulio kalbų kol kas nenaudojamos automatinio vertimo sistemose. Siekiant paspartinti nauj u kalb u panaudojim a automatinėse vertimo sistemose pastaruosius dešimt metų daug tyrimų buvo atlikta tam, kad būtų galima automatizuoti vertimo sistemų kūrimą panaudojant turimus išverstus tekstinius informacijos resursus. Tačiau tokie tyrimai buvo atlikti tik su taip vadinamomis aukšto dažnumo kalbomis, kuriose imanoma gauti didelius kiekius išverstos informacijos. Lietuvių kalboje kaip ir daugelyje kitų kalbų kol kas nėra sukaupta pakankami kiekiai išverstos informacijos tam, kad būtų galima apmokyti egzistuojančias vertimo sistemas arba panaudoti sukurtas metodikas. Šiame darbe pasiūlytas ir realizuotas hibridinis metodas, kuris leidžia apmokinti vertimo sistemas iš mažesnio kiekio turimos vertimo medžiagos. Tačiau metodas reikalauja, kad sistema turėtų vertimo žodyną, pilną anglų kalbos ontologiją ir kad galėtų atlikti anglų kalbos pilną gramatinę analizę. Gauti rezultatai parodė, kad šio metodo pagalba galima sukurti vertimo sistemas, kurios pagal savo kokybę nenusileidžia pasaulyje esantiems analogams, kurie buvo sukurti statistinio modeliavimo pagalba. Esamas metodas ir sukurta programinė įranga gali būti pritaikyti ne tik lietuvių bet ir kitoms kalboms, kuriose sunku surasti didelius kiekius išverstos informacijos ir kuriose nėra resursų rankiniam vertimo sistemos kalibravimui suvedant vertimo gramatines taisykles.This paper examins approaches for translation between English and morphology-rich languages. Experiment with English-Russian and English-Lithuanian revels that ``pure'' statistical approaches on 10 million word corpus gives unsatisfactory translation. Then, several Web-available linguistic resources are suggested for translation. Syntax parsers, bilingual and semantic dictionaries, bilingual parallel corpus and monolingualWeb-based corpus are integrated in one comprehensive statistical model. Multi-abstraction language representation is used for statistical induction of syntactic and semantic transformation rules called multi-alignment templates. The decodingmodel is described using the feature functions, a log-linear modeling approach and A * search algorithm. An evaluation of this approach is performed on the English-Lithuanian language pair. Presented experimental results demonstrates that the multi-abstraction approach and hybridization of learning methods can improve quality of translation

Vilniaus Gedimino Technikos Universitetas: VGTU Talpykla / Vilnius Gediminas Technical University: VGTU Repository