24 research outputs found

    emToken : Unicode-képes tokenizáló magyar nyelvre

    Get PDF
    Cikkünkben az emToken tokenizáló programot mutatjuk be. Ennek főbb tulajdonságai között említhető, a széleskörű UTF-8 támogatás, a konfigurálhatóság, az automatikus tesztkörnyezet és a programkönytár által nyújtott API. Az előállított - XML vagy JSON formátumú - kimenet detokenizálható. A program forráskódja szabadon elérhető GPLv3 licenc alatt. Az emToken az e-magyar eszközlánc tokenizálásért felelős modulja

    The xtsv Framework and the Twelve Virtues of Pipelines

    Get PDF

    Tudásalapú ajánlórendszer adatszegény környezetben

    Get PDF
    Az ajánlórendszerek általában a felhasználói tranzakciókból és a termékekről rendelkezésre álló adatokból kinyert információkra támaszkodnak. Adatszegény környezetben azonban más információforrások felhasználására van szükség. A tanulmány olyan megoldás prototípusát mutatja be, ahol a felhasználó tevékenységét jellemző szöveges adatok automatikus feldolgozása és egy részletes ontológiában tárolt tudásbázis felhasználása segítségével válik lehetővé a releváns termékek (szolgáltatások) kiválasztása
    corecore