2 research outputs found

    Testing word embeddings for Polish

    Get PDF
    Testing word embeddings for Polish Distributional Semantics postulates the representation of word meaning in the form of numeric vectors which represent words which occur in context in large text data. This paper addresses the problem of constructing such models for the Polish language. The paper compares the effectiveness of models based on lemmas and forms created with Continuous Bag of Words (CBOW) and skip-gram approaches based on different Polish corpora. For the purposes of this comparison, the results of two typical tasks solved with the help of distributional semantics, i.e. synonymy and analogy recognition, are compared. The results show that it is not possible to identify one universal approach to vector creation applicable to various tasks. The most important feature is the quality and size of the data, but different strategy choices can also lead to significantly different results. 聽 Testowanie wektorowych reprezentacji dystrybucyjnych s艂贸w j臋zyka polskiego Semantyka dystrybucyjna opiera si臋 na za艂o偶eniu, 偶e znaczenie s艂贸w wyra偶one jest za pomoc膮 wektor贸w reprezentuj膮cych, w spos贸b bezpo艣redni b膮d藕 po艣redni, konteksty, w jakich s艂owo to jest u偶ywane w du偶ym zbiorze tekst贸w. Niniejszy artyku艂 dotyczy ewaluacji wielu takich modeli skonstruowanych dla j臋zyka polskiego. W pracy por贸wnano skuteczno艣膰 modeli opartych na lematach i formach s艂贸w, utworzonych przy wykorzystaniu sieci neuronowych na danych z dw贸ch r贸偶nych korpus贸w j臋zyka polskiego. Ewaluacji dokonano na podstawie wynik贸w dw贸ch typowych zada艅 rozwi膮zywanych za pomoc膮 metod semantyki dystrybucyjnej, tzn. rozpoznania wyst臋powania synonimii i analogii mi臋dzy konkretnymi parami s艂贸w. Uzyskane wyniki dowodz膮, 偶e nie mo偶na wskaza膰 jednego uniwersalnego podej艣cia do tworzenia modeli dystrybucyjnych, gdy偶 ich skuteczno艣膰 jest r贸偶na w zale偶no艣ci od zastosowania. Najwa偶niejsz膮 cech膮 wp艂ywaj膮c膮 na jako艣膰 modelu jest jako艣膰 oraz rozmiar danych, ale wybory r贸偶nych strategii uczenia sieci mog膮 r贸wnie偶 prowadzi膰 do istotnie odmiennych wynik贸w
    corecore