48 research outputs found
Information extraction from Wikipedia using pattern learning
In this paper we present solutions for the crucial task of extracting structured information from massive free-text resources, such as Wikipedia, for the sake of semantic databases serving upcoming Semantic Web technologies. We demonstrate both a verb frame-based approach using deep natural language processing techniques with extraction patterns developed by human knowledge experts and machine learning methods using shallow linguistic processing. We also propose a method for learning verb frame-based extraction patterns automatically from labeled data. We show that labeled training data can be produced with only minimal human effort by utilizing existing semantic resources and the special characteristics of Wikipedia. Custom solutions for named entity recognition are also possible in this scenario. We present evaluation and comparison of the different approaches for several different relations
Magyar EuroWordNet projekt : bemutatás és helyzetjelentés
A tanulmányban bemutatjuk azt a projektet, melynek cĂ©lja a magyar nyelv, a EuroWordNet többnyelv architektĂşrájába illeszkedĹ‘ nyelvi ontolĂłgia lĂ©trehozása. Az ontolĂłgia általános rĂ©sze a EuroWordNet-et továbbfejlesztĹ‘ BalkaNet projekt erĹ‘forrásaira Ă©pĂt. Az ontolĂłgia kiindulĂł fogalmi kĂ©szlete fĹ‘- neveknĂ©l Ă©s mellĂ©kneveknĂ©l a BalkaNet Base Concept Set angol nyelv, Princeton WordNet-bĹ‘l származĂł synsetjeinek lefordĂtásával kĂ©szĂĽlt, igĂ©knĂ©l ezekkel párhuzamosan—a kĂ©t nyelv igei rendszerĂ©nek szemantikai kĂĽlönbsĂ©gei miatt—saját erĹ‘forrásokbĂłl kiindulva törtĂ©nt. A synsetek lefordĂtása gĂ©pi heurisztikák alkalmazásával, valamint ezek eredmĂ©nyeinek kĂ©zi ellenĹ‘rzĂ©sĂ©vel törtĂ©nt. A cikkben bemutatjuk az eddigi eredmĂ©nyeket, illetve az ontolĂłgia továbbfejlesztĂ©sĂ©nek a projekt során tervezett következĹ‘ lĂ©pĂ©seit
Magyár főnévi WordNet-ontológia létrehozása automatikus módszerekkel
A cikk bemutatja a folyamatban lĂ©vĹ‘, magyar fĹ‘nĂ©vi WordNet adatbázis lĂ©trehozását cĂ©lul kitűzĹ‘ munkálatok mĂłdszereit Ă©s legfrissebb eredmĂ©nyeit. Bemutatjuk azt a 9 kĂĽlönbözĹ‘ számĂtĂłgĂ©pes mĂłdszert, melyek cĂ©lja magyar fĹ‘nevek automatizált hozzárendelĂ©se az angol nyelvű, 1.6-os verziĂłjĂş WordNet synsetjeihez. A felhasznált magyar fĹ‘nevek egy elektronikus magyarangol kĂ©tnyelvű szĂłtár szĂłanyagábĂłl származnak. A heurisztikus hozzárendelĂ©sek támogatásához a kĂ©tnyelvű mellett az egynyelvű magyar ÉrtelmezĹ‘ KĂ©ziszĂłtár számĂtĂłgĂ©ppel feldolgozhatĂł anyagábĂłl nyertĂĽnk ki strukturális Ă©s szemantikai informáciĂłkat. A kĂĽlönbözĹ‘ folyamatok eredmĂ©nyeinek pontosságát egy kĂ©zzel egyĂ©rtelműsitett etalon halmaz segĂtsĂ©gĂ©vel becsĂĽltĂĽk meg, majd a fĹ‘nĂ©vi adatbázist a validált eredmĂ©nyhalmazok kĂĽlönbözĹ‘ szintű pontosságot meghaladĂł kombináciĂłival állĂtottuk elĹ‘
Angol-magyar gĂ©pi fordĂtĂłrendszer támogatása jelentĂ©s-egyĂ©rtelműsĂtĹ‘ modullal
A számĂtĂłgĂ©pes jelentĂ©s-egyĂ©rtelműsĂtĂ©s során egy adott nyelven többĂ©rtelmű lexikai elemekrĹ‘l kell eldönteni, hogy adott elĹ‘fordulásuk kontextusában az ismert jelentĂ©seik közĂĽl melyekkel szerepelnek. Ennek a feladatnak speciális esete, amikor a megkĂĽlönböztetendĹ‘ jelentĂ©seket nem egy egynyelvű szĂłtár meghatározásai, hanem egy másik nyelven lehetsĂ©ges kĂĽlönbözĹ‘ fordĂtásaik alapján határozzuk meg. A cikkben bemutatott, Naiv Bayes osztályozĂł algoritmussal működĹ‘ supervised egyĂ©rtelműsĂtĹ‘ rendszer egy angol-magyar fordĂtĂłprogram támogatásához kĂ©szĂĽlt. A jelenleg prototĂpus implementáciĂłban működĹ‘, 38 kĂĽlönbözĹ‘ többĂ©rtelmű angol fĹ‘nevet kezelĹ‘ rendszer 84%-os átlagos pontossággal egyĂ©rtelműsĂt
OpinHu : online szövegek többnyelvű véleményelemzése
Az OpinHu rendszer cĂ©lja internetes hĂrportálokon, blogokon, közössĂ©gi oldalakon megjelent szövegek tartalomelemzĂ©se. A begyjtött szövegek automatikus vĂ©lemĂ©nyelemzĂ©sĂ©t, tĂ©maosztályozását, nĂ©velem-felismerĂ©sĂ©t Ă©s az ehhez kapcsolĂłdĂł statisztikákat több nyelven (ezek jelenleg: angol, magyar, nĂ©met, arab, kĂnai) is kĂ©pes elvĂ©gezni. A cikkben rĂ©szletesen bemutatjuk a vĂ©lemĂ©nyelemzĂ©s általunk alkalmazott modelljĂ©t, valamint a felhasznált, mĂ©ly nyelvi elemzĂ©sre támaszkodĂł, szabályalapĂş algoritmust. IsmertetjĂĽk a rendszer teljesĂtmĂ©nyĂ©nek kiĂ©rtĂ©kelĂ©sĂ©vel kapcsolatos kĂsĂ©rleteinket is, melyeket humán annotátorokkal lĂ©trehozott szabványos adathalmazokon vĂ©geztĂĽnk el (SemEval2007, JRC korpusz)