42 research outputs found

    Statisztikai gĂ©pi fordĂ­tĂĄsi mĂłdszereken alapulĂł egynyelvƱ szövegelemzƑ rendszer Ă©s szĂłtövesĂ­tƑ

    Get PDF
    Jelen munkĂĄban az SMT mĂłdszer alkalmazhatĂłsĂĄgĂĄt vizsgĂĄltam szĂłfaji egyĂ©rtelmƱsĂ­tƑ Ă©s szĂłtövesĂ­tƑ feladat megoldĂĄsĂĄra. LĂ©trehoztam egy alaprendszert, illetve tovĂĄbbi lehetƑsĂ©geket prĂłbĂĄltam ki a rendszer eredmĂ©nyeinek javĂ­tĂĄsĂĄra. MegvizsgĂĄltam, milyen hatĂĄst gyakorol a cĂ©lnyelvi szĂłtĂĄr mĂ©retĂ©nek vĂĄltoztatĂĄsa a rendszer minƑsĂ©gĂ©re, tovĂĄbbĂĄ megoldĂĄst kerestem a tanĂ­tĂł halmazban nem szereplƑ szavak elemzĂ©sĂ©nek megoldĂĄsĂĄra

    TĂ©maspecifikus gĂ©pi fordĂ­tĂłrendszer minƑsĂ©gĂ©nek javĂ­tĂĄsa domain adaptĂĄciĂł segĂ­tsĂ©gĂ©vel

    Get PDF
    A mĂ©ly tanulĂĄsos mĂłdszerek elterjedĂ©se napjainkban nagymĂ©rtĂ©kben megvĂĄltoztatta a gĂ©pi fordĂ­tĂĄsok emberi megĂ­tĂ©lĂ©sĂ©t. A statisztikai gĂ©pi fordĂ­tĂłrendszerekkel (SMT) szemben a neurĂĄlishĂĄlĂłzat-alapon mƱködƑ architektĂșrĂĄk (NMT) sokkal olvashatĂłbb fordĂ­tĂĄsokat generĂĄlnak, melyek a hivatĂĄsos fordĂ­tĂłk szĂĄmĂĄra könnyebben Ă©s hatĂ©konyabban javĂ­thatĂłk az utĂłfeldolgozĂĄs sorĂĄn. Az Ășj mĂłdszer nehĂ©zsĂ©ge azonban, hogy a stabilan jĂł fodĂ­tĂĄsi minƑsĂ©get adĂł rendszerek tanĂ­tĂĄsĂĄhoz nagy mĂ©retƱ tanĂ­tĂłanyagra van szĂŒksĂ©g. Ez azonban a legtöbb fordĂ­tĂłcĂ©g vagy nyelvpĂĄr esetĂ©n nem ĂĄll rendelkezĂ©sre. MunkĂĄm sorĂĄn a kicsi Ă©s jĂł minƑsĂ©gƱ in-domain tanĂ­tĂłanyagokat adatszelekciĂł segĂ­tsĂ©gĂ©vel feldĂșsĂ­tottam egy nagy mĂ©retƱ out-of-domain korpusz leginkĂĄbb hasonlĂł szegmenseivel. Az Ă­gy lĂ©trehozott architektĂșrĂĄval sikerĂŒlt statisztikailag szignifikĂĄns mĂ©rtĂ©kben javĂ­tanom a fordĂ­tĂłrendszer minƑsĂ©gĂ©t az összes vizsgĂĄlt esetben. KutatĂĄsom sorĂĄn igyekeztem megtalĂĄlni a feladathoz leginkĂĄbb alkalmas szelekciĂłs mĂłdszert, illetve megvizsgĂĄltam a rendszer mƱködĂ©sĂ©t több kĂŒlönbözƑ nyelv- Ă©s domainpĂĄr kombinĂĄciĂłval

    Statisztikai Ă©s hibrid mĂłdszerek pĂĄrhuzamos korpuszok feldolgozĂĄsĂĄra

    Get PDF
    EladĂĄsunkban foglalkozunk a statisztikai gĂ©pi fordĂ­tĂĄs minsĂ©gĂ©nek javĂ­tĂĄsĂĄval, az egyre mĂ©lyebb hibridizĂĄciĂł alkalmazĂĄsĂĄval, majd az angol– magyar kĂ­sĂ©rletek mellett olyan, morfolĂłgiailag közelebb ĂĄllĂł nyelvpĂĄrok bevonĂĄsĂĄval, mint a lovĂĄri cigĂĄny nyelv Ă©s a magyar. Az eladĂĄs mĂĄsodik felĂ©ben egy tisztĂĄn statisztikai alapon mköd szövegannotĂĄlĂł rendszer lĂ©trehozĂĄsĂĄval Ă©s kiĂ©rtĂ©kelĂ©sĂ©vel foglalkozunk

    MinƑsĂ©gbecslƑ rendszer egynyelvƱ termĂ©szetes nyelvi elemzƑhöz

    Get PDF
    A pszicholingvisztikai indĂ­ttatĂĄsĂș termĂ©szetes nyelvi elemzĂ©s egy Ășj, emberi nyelvelemzĂ©st modellezƑ nyelvtechnolĂłgiai mĂłdszer. Ez a modell egy valĂłs idejƱ elemzƑ, amelynek pĂĄrhuzamosan több szĂĄla elemzi egyszerre a bemeneten sorban Ă©rkezƑ szavakat, kifejezĂ©seket vagy mondatokat. A pĂĄrhuzamosan futĂł szĂĄlak közĂŒl az egyik a minƑsĂ©gbecslƑ modul, amely menedzseli, szƱri a hibĂĄs Ă©s zajos bemenetet, valamint tĂĄjĂ©koztatja a többi szĂĄlat a bemenet aktuĂĄlis minƑsĂ©gĂ©rƑl. A minƑsĂ©gbecslƑ modul felĂ©pĂ­tĂ©sĂ©hez a gĂ©pi fordĂ­tĂĄs kiĂ©rtĂ©kelĂ©sĂ©hez hasznĂĄlt minƑsĂ©gbecslĂ©s mĂłdszerĂ©t hasznĂĄltuk. Ahhoz, hogy a minƑsĂ©gbecslƑ modellĂŒnk a termĂ©szetes nyelvi elemzƑ egyik pĂĄrhuzamosan futĂł szĂĄlĂĄt kĂ©pezze, ötvöztĂŒk az eredeti minƑsĂ©gbecslƑ rendszert a feladatorientĂĄlt architektĂșrĂĄval. A kutatĂĄsunk sorĂĄn felĂ©pĂ­tettĂŒnk egy feladatorientĂĄlt minƑsĂ©gbecslƑ rendszert, amely az egynyelvƱ szöveg valĂłs idejƱ minƑsĂ©gĂ©nek becslĂ©sĂ©re alkalmas. Az ĂĄltalunk lĂ©trehozott rendszer segĂ­tsĂ©gĂ©vel ∌70%-os pontossĂĄggal tudjuk megbecsĂŒlni a bemeneti szöveg minƑsĂ©gĂ©t. A rendszer az AnaGramma magyar nyelvƱ elemzƑhöz kĂ©szĂŒlt, de mĂĄs nyelvekre is hasznĂĄlhatĂł
    corecore