48 research outputs found

    Preface

    Get PDF

    Preface

    Get PDF

    Topic and language specific internet search engine

    Get PDF
    In this paper we present the result of our project that aims to build a categorization-based topic-oriented Internet search engine. Particularly, we focus on the economic related electronic materials available on the Internet in Hungarian. We present our search service that harvests, stores and makes searchable the publicly available contents of the subject domain. The paper describes the search facilities and the structure of the implemented system with special emphasis on intelligent search algorithms and document processing methods

    Preface

    Get PDF

    A frázisstrukturált Szeged Treebank átalakítása függőségi fa formátumra

    Get PDF
    A CoNLL (Conference on Computational Natural Language Learning) nemzetközi konferencia szervezői évről évre különböző versenyeket írnak ki a résztvevők számára. Az elmúlt években került sor, például a tagmondatokra bontás (2001), tulajdonnév felismerés (2003), szemantikus szerep annotáció (2005) témakörében feladatok kiírására. A 2007. nyarán Prágában megrendezésre került konferencia versenyfeladványa a függőségi struktúrák gépi tanulása volt. A kitűzött feladatok között a magyar Szeged Treebank 2.0-ból kialakított tréning adatbázis is szerepelt. A versenyben egymástól nyelvészetileg rendkívül eltérő nyelvekre készített adatbázisok vettek részt (arab, baszk, katalán, kínai, cseh, angol, görög, magyar, olasz, török), amelyek 9 nyelvcsaládból származtak (sémi, elszigetelt, újlatin, kínai-tibeti, szláv, germán, hellén, finn-ugor, török). A szerző a függőségi fa formára történő automatikus gépi átalakítást mutatja be, valamint a verseny eredményeként kapott néhány megállapítást a nyelvcsaládokra vonatkozóan

    Weöres Sándor költői nyelvének számítógépes feldolgozása

    Get PDF
    A cikkben bem utatásra kerül egy Weöres Sándor költői nyelvének számítógépes feldolgozásával foglalkozó projekt. A kutatás 1999 és 2002 között folyt, eredményeképpen kb. háromezer számítógépes oldalnyi korpusz jö tt létre, elemezve a HuMor magyar szóalaktani elemző programmal. Eredmény az adatbázis-formátum, amely lehetővé teszi a korpusz eltárolsát és a gépi feldolgozás megalapozását. Rendelkezésre áll Weöres szövegeihez a metrikai-ritmikai struktúra leírása. A kutatás távlataiban meghatározható a magyar nyelvű lírai textusok eltárolására alkalmas adatbázis-formátum; leírható a hangzás formalizálható adatainak digitális metakommunikációja; megadható a szükséges szoftverek száma és munkaerő szükséglete, - és megrajzolhatók a számítógépes elemzés korlátái

    Jelentések gyakoriságának vizsgálata a Magyar WordNet-ben

    Get PDF
    A WordNet strukturális felépítését és a Google keresprogram szolgáltatásait felhasználva olyan kísérletet hajtottunk végre, amely vizsgálja a WordNetben elforduló szavak jelentéseinek gyakoriságát. A vizsgált szó jelentéseit a hiponímia – hipernímia relációkban lév synsetek felhasználásával különbözteti meg (kiegészíti ezekkel a szavakkal a kereskifejezést) és tárolja a Google által visszaadott becsült elfordulási számot. A megkülönböztetés eredményeképpen megállapítható, hogy egy adott jelentés relatív gyakorisága az összes jelentés elfordulására nézve. A kísérlet eredményeit összehasonlítottuk a SZTE Informatikai Tanszékcsoport által épített WSD korpuszban található jelentésgyakoriságokkal. E munkálatok fontos szerepet töltenek be egy magyar nyelv jelentés-egyértelmsít szoftver készítésében

    Programcsomag információkinyerési kutatások támogatására

    Get PDF
    A publikációban bem utatásra kerül egy információkinyerési kutatásokat támogató programcsomag, amelynek moduljai a nyers szöveg beolvasásától kezdve a végeredmény webes megjelenítéséig minden szükséges funkciót megvalósítanak. A modulok egymással szabványos TEI XML állományok segítségével kommunikálnak, amelyek a feldolgozás tetszőleges szakaszában elemezhetők. A technológia ezen a módon támogatást nyújt az egyes modulok önálló fejlesztéséhez és teszteléséhez. A fontosabb modulok: a szegmentáló, morfológiai elemző, szófaji egyértelműsítő, felszíni szintaktikai elemző, szemantikai bővítménykezelő, eseménymintákat felismerő mintaillesztő és webes megjelenítő modul. A szerzők a programcsomag működését egy kísérleti rendszeren m utatják be, amely üzleti rövidhírekből gyűjt különböző információkat
    corecore