1 research outputs found

    The data-driven Bulgarian WordNet: BTBWN

    Get PDF
    The data-driven Bulgarian WordNet: BTBWNThe paper presents our work towards the simultaneous creation of a data-driven WordNet for Bulgarian and a manually annotated treebank with semantic information. Such an approach requires synchronization of the word senses in both - syntactic and lexical resources, without limiting the WordNet senses to the corpus or vice versa. Our strategy focuses on the identification of senses used in BulTreeBank, but the missing senses of a lemma also have been covered through exploration of bigger corpora. The identified senses have been organized in synsets for the Bulgarian WordNet. Then they have been aligned to the Princeton WordNet synsets. Various types of mappings are considered between both resources in a cross-lingual aspect and with respect to ensuring maximum connectivity and potential for incorporating the language specific concepts. The mapping between the two WordNets (English and Bulgarian) is a basis for applications such as machine translation and multilingual information retrieval.聽Oparty na danych WordNet bu艂garski: BTBWNW artykule przedstawiono nasz膮 prac臋 na rzecz jednoczesnej budowy opartego na danych wordnetu dla j臋zyka bu艂garskiego oraz r臋cznie oznaczonego informacjami semantycznymi banku drzew. Takie podej艣cie wymaga uzgodnienia znacze艅 s艂贸w zar贸wno w zasobach sk艂adniowych, jak i leksykalnych, bez ograniczania znacze艅 umieszczanych w wordnecie do tych obecnych w korpusie, jak i odwrotnie. Nasza strategia koncentruje si臋 na identyfikacji znacze艅 stosowanych w BulTreeBank, przy czym brakuj膮ce znaczenia lematu zosta艂y r贸wnie偶 zbadane przez zg艂臋bienie wi臋kszych korpus贸w. Zidentyfikowane znaczenia zosta艂y zorganizowane w synsety bu艂garskiego wordnetu, a nast臋pnie powi膮zane z synsetami Princeton WordNet. Rozmaite rodzaje rzutowa艅 s膮 rozpatrywane pomi臋dzy obydwoma zasobami w kontek艣cie mi臋dzyj臋zykowym, a tak偶e w odniesieniu do zapewnienia maksymalnej 艂膮czno艣ci i mo偶liwo艣ci uwzgl臋dnienia poj臋膰 specyficznych dla j臋zyka bu艂garskiego. Rzutowanie mi臋dzy dwoma wordnetami (angielskim i bu艂garskim) jest podstaw膮 dla aplikacji, takich jak t艂umaczenie maszynowe i wieloj臋zyczne wyszukiwanie informacji
    corecore