Article thumbnail
Location of Repository

WD-STC:一种基于网络词典的WEB新闻文档后缀树聚类算法

By 务孟庆, 高军, 王腾蛟 and 杨冬青

Abstract

WEB文档聚类在新闻信息检索领域起到重要的作用。但由于新闻领域不断涌现出一些新的名词。现有的技术在文档特征抽取和权重计算、类标签生成方面存在不足,导致聚类质量下降。本文提出一种基于网络词典的后缀树聚类算法,利用网络词典来识别新的名词,排除干扰因素;在后缀树聚类计算聚类分数时利用网络词典设置词语权重,提高聚类质量;聚类结果描述利用网络词典确定聚类标签,标志聚类话题的基本类别。这种方法在新闻领域取得了很好的效果。

Topics: 网络词典 后缀树 web文档 聚类算法 词语权重
Year: 2007
OAI identifier: oai:localhost:20.500.11897/221115
Download PDF:
Sorry, we are unable to provide the full text but you may find it at the following location(s):
  • http://hdl.handle.net/20.500.1... (external link)
  • Suggested articles


    To submit an update or takedown request for this paper, please submit an Update/Correction/Removal Request.