Search CORE

3 research outputs found

利用N-gram和语义分析的维吾尔语文本相似性检测方法

Author: 亚森?艾则孜
吴顺祥
张莹
Publication venue
Publication date: 24/05/2018
Field of study

目前自然语言文本相似度估计大多是针对英语等一些大类语言，为了实现维吾尔语文本的相似性检测，提出一种基于N-gram和语义分析的相似性检测方法。首先，根据维吾尔语单词特征，采用了N-gram统计模型来获得词语，并根据词语在文本中的出现频率来构建词语-文本关系矩阵，作为文本模型。然后，采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联，以此解决维吾尔语词义模糊的问题，并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验，结果表明该方法能够准确有效地检测出相似性。国家自然科学基金资助项目(61762086);新疆维吾尔自治区高校科研计划立项项目(XJEDU2016S090

Xiamen University Institutional Repository

Detection of Loan Words in Uyghur Texts

Author: A.H.L. Lauren
C. Chung
C. Mi
C. Shiming
C. Yan
K. Gillian
L. Xuan
M. Chris
P.E. Brown
S.I. Gallant
Z. Kui
Z. Yan
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2014
Field of study

Crossref