58 research outputs found
Automatikus ĂrĂĄsjel-visszaĂĄllĂtĂĄs Ă©s NagybetƱsĂtĂ©s statikus korpuszon transzformer modellen alapulĂł neurĂĄlis gĂ©pi fordĂtĂĄssal
Cikkemben egy ĂrĂĄsjelvisszaĂĄllĂtĂł Ă©s nagybetƱsĂtĆ programot mutatok be, amelyet a jelenkori âstate-of-the-artâ transzformer modellen alapulĂł neurĂĄlis gĂ©pi fordĂtĂł rendszerrel tanĂtottam be. A mobil eszközökön törtĂ©nĆ ĂŒzenetĂrĂĄs elterjedĂ©sĂ©vel Ă©s a minĂ©l gyorsabb szövegbevitelre valĂł törekvĂ©ssel tömeges jelensĂ©ggĂ© vĂĄlt a hibĂĄs szövegek ĂrĂĄsa. Ennek egyik következmĂ©nye, hogy a interneten elĂ©rhetĆ â fĆleg a szociĂĄlis mĂ©diĂĄbĂłl szĂĄrmazĂł â korpuszok egy rĂ©sze hibĂĄs. Többek között ĂrĂĄsjelek hiĂĄnyoznak, vagy vĂ©gig kisbetƱvel Ărnak. Az Ăgy lĂ©trejött korpuszok nem alkalmasak kĂŒlönbözĆ kutatĂĄsokhoz, csak tisztĂtĂĄs utĂĄn. A tisztĂtĂĄs folyamata idĆigĂ©nyes, ezĂ©rt igĂ©ny van kĂŒlönbözĆ korpusztisztĂtĂł mĂłdszerekre. Az ĂĄltalam lĂ©trehozott rendszer, annak ellenĂ©re, hogy semmilyen morfolĂłgiai Ă©s szintaktikai elemzĆt nem hasznĂĄl, közel 81%-os f-mĂ©rtĂ©kkel tudja helyesen visszaĂĄllĂtani az alapĂrĂĄsjeleket Ă©s elvĂ©gezni a nagybetƱsĂtĂ©st magyar nyelv esetĂ©ben
Inzulinrezisztencia betegség jelenségének felismerése és osztålyozåsa orvosi dokumentumokban
A jelen cikkben egy kutatĂĄs-fejlesztĂ©s projekt elsĆ fĂĄzisĂĄnak rĂ©szleteit mutatjuk be, amelynek keretĂ©ben az inzulinrezisztencia betegsĂ©g kialakulĂĄsĂĄnak veszĂ©lyĂ©t szeretnĂ©nk elĆre jelezni a nyelvtechnolĂłgia eszközeivel. A kutatĂĄsunk kĂ©tmilliĂł magyar nyelvƱ kĂłrhĂĄzi kĂłrlap feldolgozĂĄsĂĄval törtĂ©nt a modern neurĂĄlis nyelvtechnolĂłgia segĂtsĂ©gĂ©vel. A feladatot osztĂĄlyozĂĄsi feladatkĂ©nt Ă©rtelmeztĂŒk, amelyben hĂĄrom kĂŒlönbözĆ esetet kĂŒlönböztettĂŒnk meg: inzulinrezisztenciĂĄs betegek, nem inzulinrezisztenciĂĄs pĂĄciensek Ă©s gyanĂșs esetek. A gyanĂșs esetek közĂ© azokat a pĂĄcienseket soroltuk, akik a kĂłrlapjuk alapjĂĄn nem inzulinrezisztenciĂĄsok, de közben tudjuk, hogy azok. A feladat nehĂ©zsĂ©ge, hogy a programunknak fel kell ismernie a gyanĂșs eseteket Ășgy, hogy a kĂłrlapon nem szerepel az inzulinrezisztencia betegsĂ©g. A problĂ©ma ily mĂłdon egy hĂĄromosztĂĄlyos klasszifikĂĄciĂł feladatkĂ©nt oldhatĂł meg. A kĂłrlapok zajossĂĄga Ă©s fĂ©lig strukturĂĄltsĂĄga miatt, rendkĂvĂŒl nehĂ©z belĆle egysĂ©ges relevĂĄns tulajdonsĂĄg jegyeket kinyerni, ezĂ©rt a problĂ©ma megoldĂĄsĂĄra egyedĂŒl a modern nyelvi modellek jöhettek csak szĂĄmĂtĂĄsba, amelyek automatikusan nyerik ki a szĂĄmukra relevĂĄnsnak szĂĄmĂtĂł nyelvi jegyeket. A kutatĂĄsunkban felhasznĂĄltunk egy statikus Ă©s egy környezetfĂŒggĆ neurĂĄlis nyelvi modellt. Az eredmĂ©nyeink alapjĂĄn, a modelljeink közel 80%-os pontossĂĄggal tudta megbecsĂŒlni, hogy az adott kĂłrlap a fent emlĂtett hĂĄrom kategĂłriĂĄbĂłl melyikbe tartozott. Az ĂĄltalunk lĂ©trehozott osztĂĄlyozĂĄsi modellekkel orvosi tĂĄmogatĂĄst tudunk nyĂșjtani, amelynek sorĂĄn a gĂ©p jelezni tudja azon eseteket, ahol, bĂĄr a beteg mĂĄsfĂ©le kivizsgĂĄlĂĄson vesz rĂ©szt, a kĂłrlap alapjĂĄn az adott pĂĄciensnĂ©l felmerĂŒlhet az inzulinrezisztencia betegsĂ©gĂ©nek veszĂ©lye
TöbbnyelvƱ modellek Ă©s PEGASUS finomhangolĂĄsa magyar nyelvƱ absztraktĂv összefoglalĂĄs feladatĂĄra
Napjaink egyik legfontosabb Ă©s legkutatottabb nyelvtechnolĂłgiai terĂŒlete az absztraktĂv szövegösszefoglalĂł kĂ©szĂtĂ©se. Mind a kutatĂĄsban, mind az iparban egyre nagyobb igĂ©ny keletkezik a feladat megoldĂĄsĂĄra. Az elmĂșlt Ă©vekben magyar nyelven is elindultak a kutatĂĄsok ezen a terĂŒleten, voltak kĂŒlönbözĆ kĂsĂ©rletek magyar Ă©s többnyelvƱ elĆtanĂtott neurĂĄlis nyelvmodellek finomhangolĂĄsĂĄval. Jelen kutatĂĄsomban elsĆsorban a többnyelvƱ modellek finomhangolĂĄsĂĄra tettem a hangsĂșlyt. Arra kerestem a vĂĄlaszt, hogy a mĂĄs nyelvekre, akĂĄr feladatokra elĆtanĂtott modellek hogyan teljesĂtenek magyar nyelvre, illetve azok a többnyelvƱ modellek, amelyek angol vagy mĂĄs nyelven a legjobb eredmĂ©nyt Ă©rtĂ©k el absztraktĂv összefoglalĂĄs terĂŒletĂ©n, adaptĂĄlhatĂłak-e magyar nyelvre. A kĂsĂ©rletem kiterjedt a manapsĂĄg rendkĂvĂŒl nĂ©pszerƱ mT5-re, a magyar nyelvi elĆtudĂĄssal nem rendelkezĆ mBART modellre Ă©s az M2M100 gĂ©pi fordĂtĂĄs feladatĂĄra elĆtanĂtott 100 nyelvƱ neurĂĄlis modellre. Az utĂłbbi kĂ©t modell esetĂ©n a kĂ©rdĂ©s, hogy egy modell, amely nem rendelkezik magyar tudĂĄssal a finomhangolĂĄs sorĂĄn meg tud-e tanulni magyarul megoldani egy feladatot, illetve, bĂĄr rendelkezik magyar tudĂĄssal, de gĂ©pi fordĂtĂĄsra tanĂtott modell mĂłdosĂthatĂł-e absztraktĂv összefoglalĂł generĂĄlĂĄs feladatĂĄra. VĂ©gĂŒl, de nem utolsĂł sorban, az angol nyelvre egyik legjobban teljesĂtĆ PEGASUS modellt finomhangoltam magyar absztraktĂv összefoglalĂł feladatra. Ezzel a kutatĂĄssal kĂsĂ©rletet tettem egy angol nyelvƱ modellt magyar nyelvre adaptĂĄlni Ă©s arra kerestem a vĂĄlaszt, hogy vajon ez lehetsĂ©ges-e Ă©s van-e Ă©rtelme. EredmĂ©nyeim azt mutatjĂĄk, hogy mindegyik modell finomhangolhatĂł Ă©s adaptĂĄlhatĂł magyar nyelvre, sĆt az mT5 Ă©s az mBART esetĂ©ben sikerĂŒlt felĂŒlmĂșlni az eddigi legjobban teljesĂtĆ magyar BART modellt
BARTerezzĂŒnk! : messze, messze, messze a vilĂĄgtĂłl, BART kĂsĂ©rleti modellek magyar nyelvre
A BART autoregresszĂv tĂpusĂș modell, amely elsĆsorban szöveggenerĂĄlĂĄsi feladatokra alkalmas. A kutatĂĄsomban kĂŒlönbözĆ BART modelleket tanĂtottam magyar nyelvre Ă©s azokat finomhangoltam kĂŒlönbözĆ szöveggenerĂĄlĂĄsi feladatokra. A kĂsĂ©rleteimben BART base Ă©s large modelleket tanĂtottam magyar Ă©s angol-magyar nyelvekre. Az elĆtanĂtott BART modelleket szövegosztĂĄlyozĂĄs, absztraktĂv szövegösszefoglalĂł generĂĄlĂĄs, gĂ©pi fordĂtĂĄs Ă©s versgenerĂĄlĂĄs feladatokra finomhangoltam. Az eredmĂ©nyek alapjĂĄn a BART kevĂ©sbĂ© teljesĂt jĂłl szövegosztĂĄlyozĂĄs feladatĂĄra, de absztraktĂv szövegösszegzĂ©s feladatĂĄban âstate of the artâ eredmĂ©nyeket Ă©rtem el. ĂrdekessĂ©gkĂ©nt a kutatĂĄsom vĂ©gĂ©n egy PetĆfi versgenerĂĄtort mutatok be
"Az invazĂv medvĂ©k nem tolerĂĄljĂĄk a suzukis agressziĂłt" : magyar GPT-2 kĂsĂ©rleti modell
A GPT-2 egy kizĂĄrĂłlag dekĂłderrel rendelkezĆ autoregresszĂv transzformer modell, amely elsĆsorban szöveggenerĂĄlĂł feladatokra alkalmas. A kutatĂĄsomban betanĂtottam egy kĂsĂ©rleti GPT-2 modellt magyar nyelvre, majd azt tovĂĄbb finomhangoltam kĂŒlönbözĆ nyelvtechnolĂłgiai feladatokra. A kĂsĂ©rleteimben az elĆtanĂtott GPT-2 modellemet mondatszintƱ Ă©s tokenszintƱ szövegosztĂĄlyozĂĄs, absztraktĂv szövegösszefoglalĂł generĂĄlĂĄs, hĂrgenerĂĄlĂĄs Ă©s versgenerĂĄlĂĄs feladatokra finomhangoltam. Az eredmĂ©nyek alapjĂĄn a GPT-2 kevĂ©sbĂ© teljesĂt jĂłl szövegosztĂĄlyozĂĄs feladatokra. AbsztraktĂv szövegösszegzĂ©s feladatĂĄban versenykĂ©pes eredmĂ©nyeket Ă©rt el, azonban a szöveggenerĂĄlĂĄs eredmĂ©nyei mĂ©g Ă©rdekesebbek. A GPT-2 modellemmel lĂ©trehoztam egy hĂr- Ă©s egy versgenerĂĄtort
AbsztraktĂv összefoglalĂĄs arab nyelvre
KutatĂĄsunkban arab nyelvre tanĂtunk kĂŒlönbözĆ absztraktĂv összefoglalĂł modelleket. A jelen tanulmĂĄny a kutatĂĄsunk jelenlegi fĂĄzisĂĄt mutatja be. Arab nyelvre az absztraktĂv összefoglalĂĄs terĂŒletĂ©n kevĂ©s kutatĂĄs törtĂ©nt, ezĂ©rt korĂĄbbi kutatĂĄsunk sorĂĄn elsĆ feladatkĂ©nt sajĂĄt adatot kellett gyƱjteni. AdatgyƱjtĂ©s utĂĄn sikeresen finomhangoltunk kĂŒlönbözĆ enkĂłder-dekĂłder architektĂșrĂĄjĂș transzformer modelleket. KĂsĂ©rleteinkben kiprĂłbĂĄltuk a PreSumm Ă©s a többnyelvƱ mBART mĂłdszereket. A PreSumm mĂłdszerrel ezen a terĂŒleten âstate of the artâ eredmĂ©nyt Ă©rtĂŒnk el. Jelen tanulmĂĄny ezt a kutatĂĄsi sorozatot folytatja. KutatĂĄsunk sorĂĄn sajĂĄt egynyelvƱ Ă©s többnyelvƱ BART modell tanĂtĂĄsĂĄval kĂsĂ©rleteztĂŒnk, valamint az mT5 modellt prĂłbĂĄltuk arab összefoglalĂł generĂĄlĂĄsra finomhangolni. KĂsĂ©rletĂŒnk sorĂĄn korlĂĄtozott mennyisĂ©gƱ adattal kĂsĂ©rleteztĂŒnk, cĂ©lunk az volt, hogy megvizsgĂĄljuk ezen mĂłdszerek alkalmazhatĂłsĂĄgĂĄt. KutatĂĄsunkkal ezĂ©rt vĂĄrakozĂĄsunknak megfelelĆen nem tudtuk felĂŒlmĂșlni a korĂĄbban elĂ©rt legjobb eredmĂ©nyĂŒnket. Azonban Ăgy is versenykĂ©pes eredmĂ©nyeket tudtunk elĂ©rni, amelyek tovĂĄbbi kutatĂĄsoknak adnak teret, ez azonban nagyobb mennyisĂ©gƱ adat Ă©s infrastruktĂșra elĆfeltĂ©telt is megkövetel
AbsztraktĂv összefoglalĂł PreSumm mĂłdszerrel
KutatĂĄsunk sorĂĄn egy szöveges összefoglalĂł szoftvert kĂ©szĂtettĂŒnk magyar nyelvre, többnyelvƱ Ă©s magyar BERT alapĂș modellek felhasznĂĄlĂĄsĂĄval. AlapvetĆen kĂ©tfajta szöveg összefoglalĂĄsi mĂłdszert kĂŒlönböztetĂŒnk meg egymĂĄstĂłl, extraktĂv Ă©s absztraktĂv. Az extraktĂv összefoglalĂłk csak olyan szavakat, kifejezĂ©seket tartalmaznak, melyek megtalĂĄlhatĂłak az eredeti, összegezni kĂvĂĄnt szövegben is. Ez a mĂłdszer az eredeti szövegben talĂĄlhatĂł, a legfontosabb szavak kiemelĂ©sĂ©vel kĂ©szĂti az összefoglalĂłt. Az absztraktĂv összefoglalĂĄs sokkal inkĂĄbb hasonlĂt egy ember ĂĄltal összefoglalt szövegre, megjelenhetnek benne olyan szavak is, melyeket az eredeti szöveg nem tartalmaz. KutatĂĄsunk sorĂĄn absztraktĂv modelleket tanĂtottunk magyar nyelvre. A modellekhez többnyelvƱ Ă©s magyar egynyelvƱ BERT modelleket hasznĂĄltunk. LĂ©trehoztunk egy demĂł alkalmazĂĄst is, amelynek segĂtsĂ©gĂ©vel, valĂłs idĆben is hasznĂĄlhatjuk az összefoglalĂł rendszerĂŒnket. Jelen kutatĂĄsunkban a PreSumm kĂłdot alapul vĂ©ve kĂ©szĂtettĂŒk el az absztraktĂv összefoglalĂł demĂłnkat
- âŠ