12 research outputs found
Gondolatok a gondola-tokrĂłl : morfolĂłgiai annotĂĄciĂłt javĂtĂł mĂłdszerek tesztelĂ©se gold standard korpuszon
KutatĂĄsunk cĂ©lja az volt, hogy csökkentsĂŒk az emberi annotĂĄciĂłs munka mennyisĂ©gĂ©t a gold standard korpusz projektĂŒnkben. A cikkben (egy baseline mellett) hĂĄrom egyszerƱen kivitelezhetĆ mĂłdszert vizsgĂĄltunk meg, amely alkalmas lehet az annotĂĄlĂĄsi hibĂĄk megtalĂĄlĂĄsĂĄra. A cĂ©l elsĆsorban a magas fedĂ©s: olyan mĂłdszert keresĂŒnk, amely Ășgy szƱkĂti le a mĂĄsodik annotĂĄtor ĂĄltal ĂĄttekintendĆ tokenek körĂ©t, hogy a lehetĆ legtöbb hibĂĄt lefedje. A hĂĄrom mĂłdszer eredmĂ©nyeit összegezve azt az eredmĂ©nyt kaptuk, hogy a tokenek 31,65%-ĂĄt ĂșjraannotĂĄlva a szövegben elĆfordulĂł annotĂĄlĂĄsi hibĂĄk arĂĄnyĂĄt 2%-ra csökkenthetjĂŒk, melynek közel fele csak a rĂ©szletes (HuMor) elemzĂ©st Ă©rinti. Ez a munkaterhelĂ©sben lĂ©nyeges csökkentĂ©st jelent, miközben magas minĆsĂ©get is biztosĂt
Tagmondatokra bontĂĄs Ă©s NP-chunking fĂŒggĆsĂ©gi alapon
Ebben a cikkben a tagmondatokat Ă©s a köztĂŒk lĂ©vĆ kapcsolat tĂpusĂĄt a fĂŒggĆsĂ©gi elemzĂ©s mintĂĄzataibĂłl kĂsĂ©reljĂŒk meg meghatĂĄrozni. Mivel ennek a feladatnak a tesztelĂ©sĂ©hez mĂ©g nincs gold sztenderd adatunk, a mĂłdszerĂŒnket kiprĂłbĂĄltuk egy mĂĄsik feladaton, az NPchunkingon is. Ez utĂłbbi kiĂ©rtĂ©kelĂ©sĂ©nĂ©l nehĂ©zsĂ©get okozott, hogy az elvben gold sztenderd korpuszok több hibĂĄt is tartalmaztak, mind a fĂŒggĆsĂ©gi elemzĂ©sben, mind az NP-chunkingban. Mindezekkel egyĂŒtt 89%-os f-score-t Ă©rtĂŒnk el, ami ugyan elmarad a state-ot-the-arttĂłl, de abbĂłl a szempontbĂłl mĂ©gis ĂgĂ©retes, hogy ezt az eredmĂ©nyt egy egyszerƱ szabĂĄlyrendszerrel Ă©rtĂŒk el. Ez alapjĂĄn a fĂŒggĆsĂ©gi elemzĂ©s mintaillesztĂ©se tovĂĄbbi kutatĂĄsra Ă©rdemes mĂłdszer lehet a hasonlĂł feladatokban
Nesze semmi, fogd meg jĂłl! : zĂ©rĂł kopulĂĄk automatikus felismerĂ©se neurĂĄlis gĂ©pi fordĂtĂĄssal
KutatĂĄsunkban a nominĂĄlis mondatok zĂ©rĂłkopula-jelensĂ©gĂ©vel foglalkozunk, miszerint bizonyos default esetekben a predikatĂv nĂ©vszĂłk önmagukban, testes segĂ©dige jelenlĂ©te nĂ©lkĂŒl is betölthetik az ĂĄllĂtmĂĄnyi funkciĂłt. Ennek gĂ©pi kezelĂ©sĂ©re lĂ©trehoztunk egy eszközt, amely a zĂ©rĂł kopulĂĄs mondatok automatikus felismerĂ©sĂ©re alkalmas, mi több kĂ©pes a zĂ©rĂł kopulĂĄt a mondatok megfelelĆ helyĂ©re beilleszteni. Az ĂĄltalunk lĂ©trehozott eszköz in-domain, azaz a tanĂtĂłanyaggal megegyezĆ forrĂĄsbĂłl szĂĄrmazĂł tesztanyagban közel 90%-os pontossĂĄggal kĂ©pes a zĂ©rĂł kopulĂĄk helyes beillesztĂ©sĂ©re
Automatikus hibajavĂtĂĄs statikus szövegeken
KutatĂĄsunk cĂ©lja egy olyan neurĂĄlis hĂĄlĂłzat alapĂș automatikus hibajavĂtĂł eszköz lĂ©trehozĂĄsa, amely kĂ©pes a korpuszok sztenderdizĂĄlĂĄsĂĄra. A kĂŒlönbözĆ nyelvtechnolĂłgiai feladatok modelljeinek betanĂtĂĄsĂĄhoz fontos, hogy a tanĂtĂłkorpuszok minĂ©l kevesebb zajt illetve hibĂĄt tartalmazzanak, hiszen a gyenge minĆsĂ©gƱ tanĂtĂłkorpuszok rendszerint rosszabb eredmĂ©nyekhez vezethetnek. Az interneten elĂ©rhetĆ szövegek nagy rĂ©sze informĂĄlis, nem ellenĆrzött forrĂĄsbĂłl (pl. közössĂ©gi mĂ©dia, fĂłrumok) szĂĄrmazik. TanulmĂĄnyunkban a közössĂ©gi mĂ©diĂĄban gyakran elĆfordulĂł gyakori hibĂĄkra fĂłkuszĂĄlunk. CĂ©lunk feltĂĄrni Ă©s elemezni a hibatĂpusokat, majd az elĆfordulĂĄsuk alapjĂĄn statisztikĂĄt kĂ©szĂteni. A kiszĂĄmolt hiba-elĆfordulĂĄsok arĂĄnyĂĄt felhasznĂĄljuk egy hibajavĂtĂł modell tanĂtĂĄsĂĄra. KutatĂĄsunkban egy transzformer modellen alapulĂł neurĂĄlis gĂ©pi fordĂtĂł rendszert hasznĂĄltunk fel a hibajavĂtĂł modell tanĂtĂĄsĂĄra. EredmĂ©nyeink azt mutatjĂĄk, hogy a neurĂĄlis gĂ©pi fordĂtĂĄs mĂłdszere alkalmas a feladatra, azonban több olyan hibatĂpus is lĂ©tezik, amelyek tovĂĄbbi kutatĂĄst igĂ©nyelnek