    A methodology for the semiautomatic annotation of EPEC-RolSem, a basque corpus labeled at predicative level following the PropBank-Verb Net model

    In this article we describe the methodology developed for the semiautomatic annotation of EPEC-RolSem, a Basque corpus labeled at predicate level following the PropBank-VerbNet model. The methodology presented is the product of detailed theoretical study of the semantic nature of verbs in Basque and of their similarities and differences with verbs in other languages. As part of the proposed methodology, we are creating a Basque lexicon on the PropBank-VerbNet model that we have named the Basque Verb Index (BVI). Our work thus dovetails the general trend toward building lexicons from tagged corpora that is clear in work conducted for other languages. EPEC-RolSem and BVI are two important resources for the computational semantic processing of Basque; as far as the authors are aware, they are also the first resources of their kind developed for Basque. In addition, each entry in BVI is linked to the corresponding verb-entry in well-known resources like PropBank, VerbNet, WordNet, Levin’s Classification and FrameNet. We have also implemented several automatic processes to aid in creating and annotating the BVI, including processes designed to facilitate the task of manual annotation.Lan honetan, EPEC-RolSem corpusa etiketatzeko jarraitu dugun metodologia deskribatuko dugu. EPEC-RolSem corpusa PropBank-VerbNet ereduari jarraiki predikatu-mailan etiketatutako euskarazko corpusa da. Etiketatze-lana aurrera eramateko euskal aditzen izaera semantikoa aztertu eta ingeleseko aditzekin konparatu dugu, azterketa horren emaitza da lan honetan proposatzen dugun metodologia. Metodologiaren atal bat PropBank-VerbNet eredura sortutako euskal aditzen lexikoiaren osaketa izan da, lexikoi hau Basque Verb Index (BVI) deitu dugu. Gure lanak alor honetan beste hizkuntzetan dagoen joera nagusia jarraitzen du, hau da, etiketatutako corpusetatik lexikoiak sortzea. EPEC-RolSem eta BVI oso baliabide garrantzitsuak dira euskararen semantika konputazionalaren alorrean, izan ere, euskararako sortutako mota honetako lehen baliabideak dira. Honetaz guztiaz gain, BVIko sarrera bakoitza PropBank, VerbNet, WordNet, Levinen sailkapena eta FrameNet bezalako baliabide ezagunekin lotua dago. Hainbat prozesu automatiko inplementatu ditugu EPEC-RolSem corpusaren eskuzko etiketatzea laguntzeko eta baita BVI sortzeko eta osatzeko ere

    Rol semantikoen etiketatze automatikoa

    The main task of semantic role labeling (SRL), sometimes also called shallow semantic parsing , is to detect the semantic relations hold among the predicate of a sentence and its associated participants and properties and the classification into their spec ific roles . Perforrrung sentence-level semantic analysis can help determine who did whar to whom, where, when, and how within an event . The predicate of a clause (typically a verb) establishes what took place , and other sentence constituents express the participants in the event (such as who and where), as well as further event properties (such as when and how). The information provided by semantic roles is crucial in order to process texts automatically, and in addition to the applications in Natural Language Processing (NLP), semantic roles can help improve Internet search engines, question answering and translation systems. Nowadays , roles are on the edge regarding information extraction and social network research tasks.; Rol semantikoen etiketatze automatikoa (SRL), azaleko anali si semantikoa ere deitua , hi zkuntzalaritza konputazionalaren ikerlerro garrantzitsua da eta bertan, zehatz finkatu nahj dira testu bateko gertakarietan, ekjntza eta honetan parte hartzen dutenen arteko erlazio semantikoak edo rolak; berez, nork, nori, zer egin zion, non eta noiz gertatu den jakin nahi da. Rolek eskaintzen duten informazioak berebiziko garrantzia dauka testuak automatikoki prozesatu eta ulertzeko bidean. Ataza hau zeresan handia ematen ari da hizkuntzaren prozesamenduan ez ezik, besteak beste, Interneteko bilatzaileetan , itzulpen automatikoko eta galdera-erantzun sistemetan, sare sozialen azterketa automatikoan, eta dokumentuen informazio erauzketan

    Rol semantikoen etiketatzeak testuetako espazio-denbora informazioaren prozesamenduan daukan ereaginaz

    222 p.Tesi honen xede nagusia euskarazko rol semantikoen etiketatze automatikoa da ( Semantic RoleLabeling , SRL). Besteak beste, euskaraz idatzitako testuen analisi-kateanSRL edo azaleko analisi semantikoa egitea ahalbidetu dugu. Gainera, SRL atazarekin lotura daukateneuskarazko denbora eta espazio informazioaren etiketatze automatikorakoere aurrerapenak egin ditugu. Izan ere, gaur egungo estandarretara egokitutako denboraren etaespazioaren etiketatzeko tresnak garatu ditugu tesian. Orobat, diseinatu etainplementatutako sistema guztien emaitzak beste hizkuntza batzuk prozesatzen dituztentresnen emaitzekin alderatu ditugu.Gure lanaren beste helburua, euskararen analisi-katea hedatzeaz eta osatzeaz gainera,ondorengo bi hipotesiak baieztatzea izan da:Euskaraz denboraren adierazpen linguistikoa etiketatzeko orduan rol semantikoekdaukaten eragina positiboa dela, ingelesez eta gaztelaniaz bezala.Espazioaren adierazpen linguistikoa, denborarena bezala, fenomeno semantikoa dela,eta horregatik semantika eta, zehazkiago, rol semantikoek duten garrantzia nabarmenadela, informazio espazialaren etiketatze eraginkorra egin ahal izateko

    Predicate Matrix: an interoperable lexical knowledge base for predicates

    183 p.La Matriz de Predicados (Predicate Matrix en inglés) es un nuevo recurso léxico-semántico resultado de la integración de múltiples fuentes de conocimiento, entre las cuales se encuentran FrameNet, VerbNet, PropBank y WordNet. La Matriz de Predicados proporciona un léxico extenso y robusto que permite mejorar la interoperabilidad entre los recursos semánticos mencionados anteriormente. La creación de la Matriz de Predicados se basa en la integración de Semlink y nuevos mappings obtenidos utilizando métodos automáticos que enlazan el conocimiento semántico a nivel léxico y de roles. Asimismo, hemos ampliado la Predicate Matrix para cubrir los predicados nominales (inglés, español) y predicados en otros idiomas (castellano, catalán y vasco). Como resultado, la Matriz de predicados proporciona un léxico multilingüe que permite el análisis semántico interoperable en múltiples idiomas

    Tune your brown clustering, please

    Brown clustering, an unsupervised hierarchical clustering technique based on ngram mutual information, has proven useful in many NLP applications. However, most uses of Brown clustering employ the same default configuration; the appropriateness of this configuration has gone predominantly unexplored. Accordingly, we present information for practitioners on the behaviour of Brown clustering in order to assist hyper-parametre tuning, in the form of a theoretical model of Brown clustering utility. This model is then evaluated empirically in two sequence labelling tasks over two text types. We explore the dynamic between the input corpus size, chosen number of classes, and quality of the resulting clusters, which has an impact for any approach using Brown clustering. In every scenario that we examine, our results reveal that the values most commonly used for the clustering are sub-optimal