Search CORE

48 research outputs found

OpinHuBank

Author: Miháltz Márton
Publication venue: Szegedi Tudományegyetem Informatikai Tanszékcsoport
Publication date: 01/01/2013
Field of study

Information extraction from Wikipedia using pattern learning

Author: Miháltz Márton
Publication venue
Publication date: 01/01/2010
Field of study

In this paper we present solutions for the crucial task of extracting structured information from massive free-text resources, such as Wikipedia, for the sake of semantic databases serving upcoming Semantic Web technologies. We demonstrate both a verb frame-based approach using deep natural language processing techniques with extraction patterns developed by human knowledge experts and machine learning methods using shallow linguistic processing. We also propose a method for learning verb frame-based extraction patterns automatically from labeled data. We show that labeled training data can be produced with only minimal human effort by utilizing existing semantic resources and the special characteristics of Wikipedia. Custom solutions for named entity recognition are also possible in this scenario. We present evaluation and comparison of the different approaches for several different relations

University of Szeged

TrendMiner : large-scale analysis of political attitudes in public facebook messages

Author: Miháltz Márton
Váradi Tamás
Publication venue: IEEE Hungary Section
Publication date: 01/01/2015
Field of study

Repository of the Academy's Library

Constructing a nominal Hungarian WordNet ontology with automatic methods

Author: Miháltz Márton
Publication venue
Publication date: 01/01/2003
Field of study

University of Szeged

Magyar EuroWordNet projekt : bemutatás és helyzetjelentés

Author: Miháltz Márton
Publication venue
Publication date: 01/01/2005
Field of study

A tanulmányban bemutatjuk azt a projektet, melynek célja a magyar nyelv, a EuroWordNet többnyelv architektúrájába illeszkedő nyelvi ontológia létrehozása. Az ontológia általános része a EuroWordNet-et továbbfejlesztő BalkaNet projekt erőforrásaira épít. Az ontológia kiinduló fogalmi készlete fő- neveknél és mellékneveknél a BalkaNet Base Concept Set angol nyelv, Princeton WordNet-ből származó synsetjeinek lefordításával készült, igéknél ezekkel párhuzamosan—a két nyelv igei rendszerének szemantikai különbségei miatt—saját erőforrásokból kiindulva történt. A synsetek lefordítása gépi heurisztikák alkalmazásával, valamint ezek eredményeinek kézi ellenőrzésével történt. A cikkben bemutatjuk az eddigi eredményeket, illetve az ontológia továbbfejlesztésének a projekt során tervezett következő lépéseit

University of Szeged

Magyár főnévi WordNet-ontológia létrehozása automatikus módszerekkel

Author: Miháltz Márton
Publication venue
Publication date: 01/01/2003
Field of study

A cikk bemutatja a folyamatban lévő, magyar főnévi WordNet adatbázis létrehozását célul kitűző munkálatok módszereit és legfrissebb eredményeit. Bemutatjuk azt a 9 különböző számítógépes módszert, melyek célja magyar főnevek automatizált hozzárendelése az angol nyelvű, 1.6-os verziójú WordNet synsetjeihez. A felhasznált magyar főnevek egy elektronikus magyarangol kétnyelvű szótár szóanyagából származnak. A heurisztikus hozzárendelések támogatásához a kétnyelvű mellett az egynyelvű magyar Értelmező Kéziszótár számítógéppel feldolgozható anyagából nyertünk ki strukturális és szemantikai információkat. A különböző folyamatok eredményeinek pontosságát egy kézzel egyértelműsitett etalon halmaz segítségével becsültük meg, majd a főnévi adatbázist a validált eredményhalmazok különböző szintű pontosságot meghaladó kombinációival állítottuk elő

University of Szeged

Semantic Resources and their Applications in Hungarian Natural Language Processing

Author: Miháltz Márton
Publication venue
Publication date: 26/08/2010
Field of study

REAL-PhD

Angol-magyar gépi fordítórendszer támogatása jelentés-egyértelműsítő modullal

Author: Miháltz Márton
Publication venue
Publication date: 01/01/2004
Field of study

A számítógépes jelentés-egyértelműsítés során egy adott nyelven többértelmű lexikai elemekről kell eldönteni, hogy adott előfordulásuk kontextusában az ismert jelentéseik közül melyekkel szerepelnek. Ennek a feladatnak speciális esete, amikor a megkülönböztetendő jelentéseket nem egy egynyelvű szótár meghatározásai, hanem egy másik nyelven lehetséges különböző fordításaik alapján határozzuk meg. A cikkben bemutatott, Naiv Bayes osztályozó algoritmussal működő supervised egyértelműsítő rendszer egy angol-magyar fordítóprogram támogatásához készült. A jelenleg prototípus implementációban működő, 38 különböző többértelmű angol főnevet kezelő rendszer 84%-os átlagos pontossággal egyértelműsít

University of Szeged

OpinHu : online szövegek többnyelvű véleményelemzése

Author: Miháltz Márton
Publication venue
Publication date: 01/01/2010
Field of study

Az OpinHu rendszer célja internetes hírportálokon, blogokon, közösségi oldalakon megjelent szövegek tartalomelemzése. A begyjtött szövegek automatikus véleményelemzését, témaosztályozását, névelem-felismerését és az ehhez kapcsolódó statisztikákat több nyelven (ezek jelenleg: angol, magyar, német, arab, kínai) is képes elvégezni. A cikkben részletesen bemutatjuk a véleményelemzés általunk alkalmazott modelljét, valamint a felhasznált, mély nyelvi elemzésre támaszkodó, szabályalapú algoritmust. Ismertetjük a rendszer teljesítményének kiértékelésével kapcsolatos kísérleteinket is, melyeket humán annotátorokkal létrehozott szabványos adathalmazokon végeztünk el (SemEval2007, JRC korpusz)

University of Szeged

Magyar NP-felismerők összehasonlítása

Author: Miháltz Márton
Publication venue
Publication date: 01/01/2011
Field of study

University of Szeged