45 research outputs found
Statisztikai gĂ©pi fordĂtĂĄsi mĂłdszereken alapulĂł egynyelvƱ szövegelemzĆ rendszer Ă©s szĂłtövesĂtĆ
Jelen munkĂĄban az SMT mĂłdszer alkalmazhatĂłsĂĄgĂĄt vizsgĂĄltam szĂłfaji egyĂ©rtelmƱsĂtĆ Ă©s szĂłtövesĂtĆ feladat megoldĂĄsĂĄra. LĂ©trehoztam egy alaprendszert, illetve tovĂĄbbi lehetĆsĂ©geket prĂłbĂĄltam ki a rendszer eredmĂ©nyeinek javĂtĂĄsĂĄra. MegvizsgĂĄltam, milyen hatĂĄst gyakorol a cĂ©lnyelvi szĂłtĂĄr mĂ©retĂ©nek vĂĄltoztatĂĄsa a rendszer minĆsĂ©gĂ©re, tovĂĄbbĂĄ megoldĂĄst kerestem a tanĂtĂł halmazban nem szereplĆ szavak elemzĂ©sĂ©nek megoldĂĄsĂĄra
TĂ©maspecifikus gĂ©pi fordĂtĂłrendszer minĆsĂ©gĂ©nek javĂtĂĄsa domain adaptĂĄciĂł segĂtsĂ©gĂ©vel
A mĂ©ly tanulĂĄsos mĂłdszerek elterjedĂ©se napjainkban nagymĂ©rtĂ©kben megvĂĄltoztatta a gĂ©pi fordĂtĂĄsok emberi megĂtĂ©lĂ©sĂ©t. A statisztikai gĂ©pi fordĂtĂłrendszerekkel (SMT) szemben a neurĂĄlishĂĄlĂłzat-alapon mƱködĆ architektĂșrĂĄk (NMT) sokkal olvashatĂłbb fordĂtĂĄsokat generĂĄlnak, melyek a hivatĂĄsos fordĂtĂłk szĂĄmĂĄra könnyebben Ă©s hatĂ©konyabban javĂthatĂłk az utĂłfeldolgozĂĄs sorĂĄn. Az Ășj mĂłdszer nehĂ©zsĂ©ge azonban, hogy a stabilan jĂł fodĂtĂĄsi minĆsĂ©get adĂł rendszerek tanĂtĂĄsĂĄhoz nagy mĂ©retƱ tanĂtĂłanyagra van szĂŒksĂ©g. Ez azonban a legtöbb fordĂtĂłcĂ©g vagy nyelvpĂĄr esetĂ©n nem ĂĄll rendelkezĂ©sre. MunkĂĄm sorĂĄn a kicsi Ă©s jĂł minĆsĂ©gƱ in-domain tanĂtĂłanyagokat adatszelekciĂł segĂtsĂ©gĂ©vel feldĂșsĂtottam egy nagy mĂ©retƱ out-of-domain korpusz leginkĂĄbb hasonlĂł szegmenseivel. Az Ăgy lĂ©trehozott architektĂșrĂĄval sikerĂŒlt statisztikailag szignifikĂĄns mĂ©rtĂ©kben javĂtanom a fordĂtĂłrendszer minĆsĂ©gĂ©t az összes vizsgĂĄlt esetben. KutatĂĄsom sorĂĄn igyekeztem megtalĂĄlni a feladathoz leginkĂĄbb alkalmas szelekciĂłs mĂłdszert, illetve megvizsgĂĄltam a rendszer mƱködĂ©sĂ©t több kĂŒlönbözĆ nyelv- Ă©s domainpĂĄr kombinĂĄciĂłval
Statisztikai Ă©s hibrid mĂłdszerek pĂĄrhuzamos korpuszok feldolgozĂĄsĂĄra
EladĂĄsunkban foglalkozunk a statisztikai gĂ©pi fordĂtĂĄs minsĂ©gĂ©nek javĂtĂĄsĂĄval, az egyre mĂ©lyebb hibridizĂĄciĂł alkalmazĂĄsĂĄval, majd az angolâ magyar kĂsĂ©rletek mellett olyan, morfolĂłgiailag közelebb ĂĄllĂł nyelvpĂĄrok bevonĂĄsĂĄval, mint a lovĂĄri cigĂĄny nyelv Ă©s a magyar. Az eladĂĄs mĂĄsodik felĂ©ben egy tisztĂĄn statisztikai alapon mköd szövegannotĂĄlĂł rendszer lĂ©trehozĂĄsĂĄval Ă©s kiĂ©rtĂ©kelĂ©sĂ©vel foglalkozunk
MinĆsĂ©gbecslĆ rendszer egynyelvƱ termĂ©szetes nyelvi elemzĆhöz
A pszicholingvisztikai indĂttatĂĄsĂș termĂ©szetes nyelvi elemzĂ©s egy Ășj, emberi nyelvelemzĂ©st modellezĆ nyelvtechnolĂłgiai mĂłdszer. Ez a modell egy valĂłs idejƱ elemzĆ, amelynek pĂĄrhuzamosan több szĂĄla elemzi egyszerre a bemeneten sorban Ă©rkezĆ szavakat, kifejezĂ©seket vagy mondatokat. A pĂĄrhuzamosan futĂł szĂĄlak közĂŒl az egyik a minĆsĂ©gbecslĆ modul, amely menedzseli, szƱri a hibĂĄs Ă©s zajos bemenetet, valamint tĂĄjĂ©koztatja a többi szĂĄlat a bemenet aktuĂĄlis minĆsĂ©gĂ©rĆl. A minĆsĂ©gbecslĆ modul felĂ©pĂtĂ©sĂ©hez a gĂ©pi fordĂtĂĄs kiĂ©rtĂ©kelĂ©sĂ©hez hasznĂĄlt minĆsĂ©gbecslĂ©s mĂłdszerĂ©t hasznĂĄltuk. Ahhoz, hogy a minĆsĂ©gbecslĆ modellĂŒnk a termĂ©szetes nyelvi elemzĆ egyik pĂĄrhuzamosan futĂł szĂĄlĂĄt kĂ©pezze, ötvöztĂŒk az eredeti minĆsĂ©gbecslĆ rendszert a feladatorientĂĄlt architektĂșrĂĄval. A kutatĂĄsunk sorĂĄn felĂ©pĂtettĂŒnk egy feladatorientĂĄlt minĆsĂ©gbecslĆ rendszert, amely az egynyelvƱ szöveg valĂłs idejƱ minĆsĂ©gĂ©nek becslĂ©sĂ©re alkalmas. Az ĂĄltalunk lĂ©trehozott rendszer segĂtsĂ©gĂ©vel âŒ70%-os pontossĂĄggal tudjuk megbecsĂŒlni a bemeneti szöveg minĆsĂ©gĂ©t. A rendszer az AnaGramma magyar nyelvƱ elemzĆhöz kĂ©szĂŒlt, de mĂĄs nyelvekre is hasznĂĄlhatĂł