АЛГАРЫТМЫ ІДЭНТЫФІКАЦЫІ РЭПЛІК СА СЛОВАМІ АЎТАРА Ў ЭЛЕКТРОННЫХ ТЭКСТАХ НА БЕЛАРУСКАЙ МОВЕ

Abstract

The main stages of algorithms for characters’ gender identification in Belarusian electronic texts are described. The algorithms are based on punctuation marking and gender indicators detection, such as past tense verbs and nouns with gender attributes. For indicators, special dictionaries are developed, thus making the algorithms more language-independent and allowing to create dictionaries for cognate languages. Testing showed the following results: the mean harmonic quantity for masculine gender detection makes up 92,2 %, and for feminine gender detection – 90,4%.Разглядаюцца асноўныя этапы стварэння аўтаматызаваных алгарытмаў для ідэнтыфікацыі рэплік зустаўкамі слоў аўтара, прапаноўваецца іх дапрацоўка ў мованезалежным напрамку. Прыводзяцца вынікі ацэнкі працы распрацаваных мадэляў на трэніровачным і тэставым тэкстах з дакладнасцю ў тэрмінах сярэдняй гарманічнай меры больш за 90 %

    Similar works