6 research outputs found
Ékezetek automatikus helyreállítása magyar nyelvű szövegekben
Cikkünkben egy olyan rendszert mutatunk be, ami a statisztikai gépi fordítás módszereit használva megbízhatóan pótolja a hiányzó ékezeteket ékezetek nélkül írt magyar nyelvű szövegekben. Mivel magyar nyelv esetén elkerülhetetlen, hogy igen nagyméretű szöveges tanítókorpusz alkalmazása esetén is hiányozzanak bizonyos szóalakok a tanítóanyagból, morfológiai elemzőt integráltunk a rendszerbe, ami ékezetesített szóalakjelölteket generál ezekhez a szavakhoz. Az így létrejött rendszert kiértékelve a rendszer az esetek több mint 99%-ában helyes ékezetes alakot állított elő
Letter Level Learning for Language Independent Diacritics Restoration
This paper presents a method for diacritics restoration based on learning mechanisms that act at letter level. The method requires no additional tagging tools or resources other than raw text, which makes it independent of the language, and particularly appealing for languages for which there are few resources available. The algorithm was evaluated on four dierent languages, namely Czech, Hungarian, Polish and Romanian, and an average accuracy of over 98% was observed