43 research outputs found

    Közérthetőség és jog : [absztrakt]

    Get PDF

    Közérthetőség mint osztályozási probléma (?) - gépi tanulási kísérlet kézzel címkézett korpuszon

    Get PDF
    Cikkünkben bemutatjuk a laikusoknak címzett hivatalos szövegek osztályozási kísérletét felügyelt gépi tanuló algoritmusok segítségével. Vizsgálatunkhoz szakértők által, kézzel készített korpuszt használunk, amely közérthetőre fogalmazott és még átfogalmazás előtt álló mondatokat tartalmazott. Célunk ezzel egy olyan gépi tanult modell készítése, amely alkalmas lehet a szakértők figyelmét felhívni azon mondatokra egy-egy hivatalos szövegben, amelyek további megfontolást érdemelnek a szöveg közérthetőbbre alakítása során, ezzel gyorsítva a szakértői munkát. A kísérletet pilot jelleggel végezzük, az eredmények függvényében korszerűbb módszerek (pl. LSTM, BERT) esetleges kipróbálása előtt, a tapasztalatokat pedig a fentiek szerinti bináris klasszifikációs problémára jellemzően értékeljük

    Névelem-felismerés magyar nyelvű jogi szövegeken

    Get PDF
    A jelen tanulmányban a névelem-felismerés hatékonyságának elemzésére teszek kísérletet jogi szövegek területén. A vizsgálat során részletesebb elemzésnek vetem alá a két elemzőt: a magyarlanc nyelvi elemzőt és a szintén az MTA-SzTE Mesterséges Intelligencia Kutatócsoport fejlesztette korábbi tulajdonnév-felismerő kimenetét. Elsőként röviden ismertetem a jelen elemzés szempontjából lényeges szakirodalmi hátteret. Ezt követően a vizsgálat tárgyát képező adatok kvantitatív elemzésére térek ki bővebben. A tanulmány következő részében néhány reprezentatív, problémás esetet és ezekre vonatkozó megoldási javaslatot ismertetek, amelyeket végül a további kutatási irányok meghatározása követ

    A CLARIN ParlaMint magyar korpusza

    Get PDF

    A MÉM NAK genetikus talajtérkép bemutatása és talajosztályozási kategóriáinak elemzése

    Get PDF
    Tanulmányunkban a Nemzeti Élelmiszerlánc-biztonsági Hivatal (NÉBIH) egyik jogelődje, a Mezőgazdasági és Élelmezésügyi Minisztérium Növényvédelmi és Agrokémiai Központ (MÉM NAK) által készített genetikus talajtérkép digitális állományát mutatjuk be. Az 1983-ban elkészült MÉM NAK talajtérkép az egyetlen olyan országos (1:200.000 méretarányú) kartográfiai munka, amely a jelenleg érvényes talajosztályozási rendszerünkből mind a 9 talaj főtípust, a 40 talajtípusból 36-ot, és a 86 altípusból 70-et jelenít meg, továbbá információval szolgál 28 különféle talajképző kőzetről és 9 fizikai féleségéről is. A vektoros térinformatikai állomány első verziója a 2000-es évek végén, a Növény- és Talajvédelmi Központi Szolgálat koordinálásával készült el. A Genetikus talajtérkép javításával jött létre a dolgozatban bemutatott állomány, amelyet kiválasztott területeken a földrajzi tájbeosztás középtájai és az SRTM modell magasság adatai segítségével értékeltünk és az Agrotopográfiai (AGROTOPO) Adatbázis vektoros állományának talajinformációival hasonlítottuk össze. A genetikus talajtérkép az országos talajtérképek evolúciójának fontos állomása. STEFANOVITS és SZŰCS térképét tekinthetjük a jelenkori talajosztályozás szerinti talajtérképezés első kartográfiai összegzésének, az AGROTOPO ezt adat tartalmában és a rajzolat részletességében továbbfejlesztette, majd a MÉM NAK talajtérkép a talajosztályozási egységek ábrázolása tekintetében jelentett előrelépést. A MÉM NAK genetikus talajtérkép alapot nyújthat koncepcionális talajtérképek elkészítéséhez és minden olyan munkához, amelyben a talajosztályozási kategóriákat érintő tematikus részletessége előnyt jelent

    HunEmPoli : magyar nyelvű, részletesen annotált emóciókorpusz

    Get PDF
    Cikkünkben egy részletesen annotált, emócióelemzésre használható korpuszt mutatunk be, amely a projekthez kidolgozott emóciókategóriarendszer szerint, tagmondat szinten került annotálásra, alapját pedig 1008 db az Országgyűlés ülésein 2014 és 2018 között elhangzott napirend előtti felszólalás szabadon elérhető szövege jelentette, összesen 764008 token terjedelemben. Munkánkban részletesen ismertetjük az alkalmazott kategóriákat, az annotás menetét, közöljük az alapvető korpuszstatisztikai és minőségbiztosítási adatokat, valamint példát mutatunk arra, hogyan használható a léterehozott korpusz gépi érzelem- vagy szentimentazonosításra

    Szövegaugmentálási módszerek összehasonlítása politikai szövegek szentimentanalízise során

    Get PDF
    Cikkünkben bemutatjuk a gépi tanítási feladatokban gyakran előforduló kiegyensúlyozatlan tanítóhalmaz probléma egy lehetséges megoldását az alacsony elemszámú kategóriák szöveg-augmentálásával. Az összevethetőség érdekében egyszerű szövegaugmentálási technikákkal (EDA) és egy szóvektor alapú módszerrel is kísérletet teszünk. A módszerek hatékonyságát politikai doménbe tartozó szövegek szentimentelemzési feladatán teszteljük, amihez a TK-MILAB szentiment korpusz egy kisebb szeletét használjuk. Az alulreprezentált kategória bővítésével elért eredményeket a kiváltott F-érték változás függvényében értékeljük

    Can Triplet Loss Be Used for Multi-Label Few-Shot Classification? A Case Study

    Get PDF
    Few-shot learning is a deep learning subfield that is the focus of research nowadays. This paper addresses the research question of whether a triplet-trained Siamese network, initially designed for multi-class classification, can effectively handle multi-label classification. We conducted a case study to identify any limitations in its application. The experiments were conducted on a dataset containing Hungarian legal decisions of administrative agencies in tax matters belonging to a major legal content provider. We also tested how different Siamese embeddings compare on classifying a previously non-existing label on a binary and a multi-label setting. We found that triplet-trained Siamese networks can be applied to perform classification but with a sampling restriction during training. We also found that the overlap between labels affects the results negatively. The few-shot model, seeing only ten examples for each label, provided competitive results compared to models trained on tens of thousands of court decisions using tf-idf vectorization and logistic regression
    corecore