3 research outputs found

    利用N-gram和语义分析的维吾尔语文本相似性检测方法

    Get PDF
    目前自然语言文本相似度估计大多是针对英语等一些大类语言,为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。首先,根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,作为文本模型。然后,采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。国家自然科学基金资助项目(61762086);新疆维吾尔自治区高校科研计划立项项目(XJEDU2016S090

    Detection of Loan Words in Uyghur Texts

    No full text
    corecore