12 research outputs found

    FĂłkusz vagy igemĂłdosĂ­tĂł?

    Get PDF

    Gondolatok a gondola-tokról : morfológiai annotåciót javító módszerek tesztelése gold standard korpuszon

    Get PDF
    KutatĂĄsunk cĂ©lja az volt, hogy csökkentsĂŒk az emberi annotĂĄciĂłs munka mennyisĂ©gĂ©t a gold standard korpusz projektĂŒnkben. A cikkben (egy baseline mellett) hĂĄrom egyszerƱen kivitelezhetƑ mĂłdszert vizsgĂĄltunk meg, amely alkalmas lehet az annotĂĄlĂĄsi hibĂĄk megtalĂĄlĂĄsĂĄra. A cĂ©l elsƑsorban a magas fedĂ©s: olyan mĂłdszert keresĂŒnk, amely Ășgy szƱkĂ­ti le a mĂĄsodik annotĂĄtor ĂĄltal ĂĄttekintendƑ tokenek körĂ©t, hogy a lehetƑ legtöbb hibĂĄt lefedje. A hĂĄrom mĂłdszer eredmĂ©nyeit összegezve azt az eredmĂ©nyt kaptuk, hogy a tokenek 31,65%-ĂĄt ĂșjraannotĂĄlva a szövegben elƑfordulĂł annotĂĄlĂĄsi hibĂĄk arĂĄnyĂĄt 2%-ra csökkenthetjĂŒk, melynek közel fele csak a rĂ©szletes (HuMor) elemzĂ©st Ă©rinti. Ez a munkaterhelĂ©sben lĂ©nyeges csökkentĂ©st jelent, miközben magas minƑsĂ©get is biztosĂ­t

    Tagmondatokra bontĂĄs Ă©s NP-chunking fĂŒggƑsĂ©gi alapon

    Get PDF
    Ebben a cikkben a tagmondatokat Ă©s a köztĂŒk lĂ©vƑ kapcsolat tĂ­pusĂĄt a fĂŒggƑsĂ©gi elemzĂ©s mintĂĄzataibĂłl kĂ­sĂ©reljĂŒk meg meghatĂĄrozni. Mivel ennek a feladatnak a tesztelĂ©sĂ©hez mĂ©g nincs gold sztenderd adatunk, a mĂłdszerĂŒnket kiprĂłbĂĄltuk egy mĂĄsik feladaton, az NPchunkingon is. Ez utĂłbbi kiĂ©rtĂ©kelĂ©sĂ©nĂ©l nehĂ©zsĂ©get okozott, hogy az elvben gold sztenderd korpuszok több hibĂĄt is tartalmaztak, mind a fĂŒggƑsĂ©gi elemzĂ©sben, mind az NP-chunkingban. Mindezekkel egyĂŒtt 89%-os f-score-t Ă©rtĂŒnk el, ami ugyan elmarad a state-ot-the-arttĂłl, de abbĂłl a szempontbĂłl mĂ©gis Ă­gĂ©retes, hogy ezt az eredmĂ©nyt egy egyszerƱ szabĂĄlyrendszerrel Ă©rtĂŒk el. Ez alapjĂĄn a fĂŒggƑsĂ©gi elemzĂ©s mintaillesztĂ©se tovĂĄbbi kutatĂĄsra Ă©rdemes mĂłdszer lehet a hasonlĂł feladatokban

    Nesze semmi, fogd meg jól! : zéró kopulåk automatikus felismerése neurålis gépi fordítåssal

    Get PDF
    KutatĂĄsunkban a nominĂĄlis mondatok zĂ©rĂłkopula-jelensĂ©gĂ©vel foglalkozunk, miszerint bizonyos default esetekben a predikatĂ­v nĂ©vszĂłk önmagukban, testes segĂ©dige jelenlĂ©te nĂ©lkĂŒl is betölthetik az ĂĄllĂ­tmĂĄnyi funkciĂłt. Ennek gĂ©pi kezelĂ©sĂ©re lĂ©trehoztunk egy eszközt, amely a zĂ©rĂł kopulĂĄs mondatok automatikus felismerĂ©sĂ©re alkalmas, mi több kĂ©pes a zĂ©rĂł kopulĂĄt a mondatok megfelelƑ helyĂ©re beilleszteni. Az ĂĄltalunk lĂ©trehozott eszköz in-domain, azaz a tanĂ­tĂłanyaggal megegyezƑ forrĂĄsbĂłl szĂĄrmazĂł tesztanyagban közel 90%-os pontossĂĄggal kĂ©pes a zĂ©rĂł kopulĂĄk helyes beillesztĂ©sĂ©re

    Automatikus hibajavítås statikus szövegeken

    Get PDF
    KutatĂĄsunk cĂ©lja egy olyan neurĂĄlis hĂĄlĂłzat alapĂș automatikus hibajavĂ­tĂł eszköz lĂ©trehozĂĄsa, amely kĂ©pes a korpuszok sztenderdizĂĄlĂĄsĂĄra. A kĂŒlönbözƑ nyelvtechnolĂłgiai feladatok modelljeinek betanĂ­tĂĄsĂĄhoz fontos, hogy a tanĂ­tĂłkorpuszok minĂ©l kevesebb zajt illetve hibĂĄt tartalmazzanak, hiszen a gyenge minƑsĂ©gƱ tanĂ­tĂłkorpuszok rendszerint rosszabb eredmĂ©nyekhez vezethetnek. Az interneten elĂ©rhetƑ szövegek nagy rĂ©sze informĂĄlis, nem ellenƑrzött forrĂĄsbĂłl (pl. közössĂ©gi mĂ©dia, fĂłrumok) szĂĄrmazik. TanulmĂĄnyunkban a közössĂ©gi mĂ©diĂĄban gyakran elƑfordulĂł gyakori hibĂĄkra fĂłkuszĂĄlunk. CĂ©lunk feltĂĄrni Ă©s elemezni a hibatĂ­pusokat, majd az elƑfordulĂĄsuk alapjĂĄn statisztikĂĄt kĂ©szĂ­teni. A kiszĂĄmolt hiba-elƑfordulĂĄsok arĂĄnyĂĄt felhasznĂĄljuk egy hibajavĂ­tĂł modell tanĂ­tĂĄsĂĄra. KutatĂĄsunkban egy transzformer modellen alapulĂł neurĂĄlis gĂ©pi fordĂ­tĂł rendszert hasznĂĄltunk fel a hibajavĂ­tĂł modell tanĂ­tĂĄsĂĄra. EredmĂ©nyeink azt mutatjĂĄk, hogy a neurĂĄlis gĂ©pi fordĂ­tĂĄs mĂłdszere alkalmas a feladatra, azonban több olyan hibatĂ­pus is lĂ©tezik, amelyek tovĂĄbbi kutatĂĄst igĂ©nyelnek
    corecore