31 research outputs found
Neural morphological generators for Hungarian
Here we present a set of morphological generators for Hungarian that generate surface forms from emMorph and Universal Dependencies (UD) morphological tags with high accuracy. We experimented with two approaches: first, neural machine translation models were trained based on the morphological analysis as the source format and the corresponding surface form as the target format. Second, we tackled the problem as a text generation task, where the morphological analysis is followed by the correct word form. The corpus we used is a normalised version of Webcorpus 2.0 (Nemeskey, 2020). Marian MT proved to produce the best results, thus we evaluated its output manually on NerKor (Simon and Vadász, 2021). Our analysis shows that the generator achieves a high accuracy of 96.27% in the case of emMorph and 94.94% in the case of UD. After manual evaluation, we counted a more concise accuracy, which is 99.43% (emMorph) and 98.69% (UD). This model may be used for several NLP tasks, such as anonymisation and terminology translation
Magyar melléknevek poliszém jelentéseinek automatikus kinyerése gráfokkal
A cikk egy kutatás elsĹ‘ fázisát mutatja be, amelynek cĂ©lja interpretálhatĂł poliszĂ©m mellĂ©knĂ©vi jelentĂ©sek automatikus kinyerĂ©se egynyelvű korpuszbĂłl egy felĂĽgyelet nĂ©lkĂĽli tanulási keretben. KiinduláskĂ©nt 4 kritĂ©riumot határoztunk meg a jelentĂ©sek elkĂĽlönĂtĂ©sĂ©re. A mellĂ©kneveket statikus szĂłbeágyazásokkal reprezentáltuk, majd ezekbĹ‘l egy szemantikai hasonlĂłsági gráfot állĂtottunk elĹ‘. A jelentĂ©sek elkĂĽlönĂtĂ©sĂ©re szolgálĂł kritĂ©riumokat ezen gráf rĂ©szgráfjaival modelleztĂĽk. VĂ©gĂĽl egy rĂ©szletes kvalitatĂv kiĂ©rtĂ©kelĂ©s következett. Kutatásaink hosszabb távon hozzájárulnak a lexikográfusok Ă©s a nyelvĂ©szek munkájához, de a lexikális szemantikai informáciĂłt tartalmazĂł NLP-cĂ©lĂş benchmark adatbázisok lĂ©trehozását is segĂtik
Hol ugat a kutya? Örömében : helyhatározói esetragos névszók pontosabb annotációja
Tanulmányunkban ismertetjük a helyhatározói esetragos névszók pontosabb annotációját célzó kutatásunkat, melyet egy szövegekkel kapcsolatban releváns kérdéseket megfogalmazni képes elemzőrendszer igényei motiválnak. A Hol?, Honnan? és Hová? kérdésekre felelő háromhárom-három esetrag egyikét magán viselő névszók kategorizációja, a mondatban betöltött határozói szerepének pontosabb definiálása elkerülhetetlen a határozókra irányuló megfelelő kérdések megfogalmazásához. Cikkünkben a magyar UD-korpusz alapján 30 kategóriát mutatunk be, melyek megfelelőek ahhoz, hogy a velük annotált névszók határozói szerepe felismerhető és kérdezhető legyen