48 research outputs found
Topic and language specific internet search engine
In this paper we present the result of our project that aims to build a categorization-based topic-oriented Internet search engine. Particularly, we focus on the economic related electronic materials available on the Internet in Hungarian. We present our search service that harvests, stores and makes searchable the publicly available contents of the subject domain. The paper describes the search facilities and the structure of the implemented system with special emphasis on intelligent search algorithms and document processing methods
A frázisstrukturált Szeged Treebank átalakĂtása fĂĽggĹ‘sĂ©gi fa formátumra
A CoNLL (Conference on Computational Natural Language Learning) nemzetközi konferencia szervezĹ‘i Ă©vrĹ‘l Ă©vre kĂĽlönbözĹ‘ versenyeket Ărnak ki a rĂ©sztvevĹ‘k számára. Az elmĂşlt Ă©vekben kerĂĽlt sor, pĂ©ldául a tagmondatokra bontás (2001), tulajdonnĂ©v felismerĂ©s (2003), szemantikus szerep annotáciĂł (2005) tĂ©makörĂ©ben feladatok kiĂrására. A 2007. nyarán Prágában megrendezĂ©sre kerĂĽlt konferencia versenyfeladványa a fĂĽggĹ‘sĂ©gi struktĂşrák gĂ©pi tanulása volt. A kitűzött feladatok között a magyar Szeged Treebank 2.0-bĂłl kialakĂtott trĂ©ning adatbázis is szerepelt. A versenyben egymástĂłl nyelvĂ©szetileg rendkĂvĂĽl eltĂ©rĹ‘ nyelvekre kĂ©szĂtett adatbázisok vettek rĂ©szt (arab, baszk, katalán, kĂnai, cseh, angol, görög, magyar, olasz, török), amelyek 9 nyelvcsaládbĂłl származtak (sĂ©mi, elszigetelt, Ăşjlatin, kĂnai-tibeti, szláv, germán, hellĂ©n, finn-ugor, török). A szerzĹ‘ a fĂĽggĹ‘sĂ©gi fa formára törtĂ©nĹ‘ automatikus gĂ©pi átalakĂtást mutatja be, valamint a verseny eredmĂ©nyekĂ©nt kapott nĂ©hány megállapĂtást a nyelvcsaládokra vonatkozĂłan
Weöres Sándor költĹ‘i nyelvĂ©nek számĂtĂłgĂ©pes feldolgozása
A cikkben bem utatásra kerĂĽl egy Weöres Sándor költĹ‘i nyelvĂ©nek számĂtĂłgĂ©pes feldolgozásával foglalkozĂł projekt. A kutatás 1999 Ă©s 2002 között folyt, eredmĂ©nyekĂ©ppen kb. háromezer számĂtĂłgĂ©pes oldalnyi korpusz jö tt lĂ©tre, elemezve a HuMor magyar szĂłalaktani elemzĹ‘ programmal. EredmĂ©ny az adatbázis-formátum, amely lehetĹ‘vĂ© teszi a korpusz eltárolsát Ă©s a gĂ©pi feldolgozás megalapozását. RendelkezĂ©sre áll Weöres szövegeihez a metrikai-ritmikai struktĂşra leĂrása. A kutatás távlataiban meghatározhatĂł a magyar nyelvű lĂrai textusok eltárolására alkalmas adatbázis-formátum; leĂrhatĂł a hangzás formalizálhatĂł adatainak digitális metakommunikáciĂłja; megadhatĂł a szĂĽksĂ©ges szoftverek száma Ă©s munkaerĹ‘ szĂĽksĂ©glete, - Ă©s megrajzolhatĂłk a számĂtĂłgĂ©pes elemzĂ©s korlátái
Jelentések gyakoriságának vizsgálata a Magyar WordNet-ben
A WordNet strukturális felĂ©pĂtĂ©sĂ©t Ă©s a Google keresprogram szolgáltatásait felhasználva olyan kĂsĂ©rletet hajtottunk vĂ©gre, amely vizsgálja a WordNetben elfordulĂł szavak jelentĂ©seinek gyakoriságát. A vizsgált szĂł jelentĂ©seit a hiponĂmia – hipernĂmia reláciĂłkban lĂ©v synsetek felhasználásával kĂĽlönbözteti meg (kiegĂ©szĂti ezekkel a szavakkal a kereskifejezĂ©st) Ă©s tárolja a Google által visszaadott becsĂĽlt elfordulási számot. A megkĂĽlönböztetĂ©s eredmĂ©nyekĂ©ppen megállapĂthatĂł, hogy egy adott jelentĂ©s relatĂv gyakorisága az összes jelentĂ©s elfordulására nĂ©zve. A kĂsĂ©rlet eredmĂ©nyeit összehasonlĂtottuk a SZTE Informatikai TanszĂ©kcsoport által Ă©pĂtett WSD korpuszban találhatĂł jelentĂ©sgyakoriságokkal. E munkálatok fontos szerepet töltenek be egy magyar nyelv jelentĂ©s-egyĂ©rtelmsĂt szoftver kĂ©szĂtĂ©sĂ©ben
Programcsomag információkinyerési kutatások támogatására
A publikáciĂłban bem utatásra kerĂĽl egy informáciĂłkinyerĂ©si kutatásokat támogatĂł programcsomag, amelynek moduljai a nyers szöveg beolvasásátĂłl kezdve a vĂ©geredmĂ©ny webes megjelenĂtĂ©sĂ©ig minden szĂĽksĂ©ges funkciĂłt megvalĂłsĂtanak. A modulok egymással szabványos TEI XML állományok segĂtsĂ©gĂ©vel kommunikálnak, amelyek a feldolgozás tetszĹ‘leges szakaszában elemezhetĹ‘k. A technolĂłgia ezen a mĂłdon támogatást nyĂşjt az egyes modulok önállĂł fejlesztĂ©sĂ©hez Ă©s tesztelĂ©sĂ©hez. A fontosabb modulok: a szegmentálĂł, morfolĂłgiai elemzĹ‘, szĂłfaji egyĂ©rtelműsĂtĹ‘, felszĂni szintaktikai elemzĹ‘, szemantikai bĹ‘vĂtmĂ©nykezelĹ‘, esemĂ©nymintákat felismerĹ‘ mintaillesztĹ‘ Ă©s webes megjelenĂtĹ‘ modul. A szerzĹ‘k a programcsomag működĂ©sĂ©t egy kĂsĂ©rleti rendszeren m utatják be, amely ĂĽzleti rövidhĂrekbĹ‘l gyűjt kĂĽlönbözĹ‘ informáciĂłkat