高维数据的稀疏性和“维灾“问题使得多数传统聚类算法失去作用,因此研究高维数据集的聚类算法己成为当前的一个热点。子空间聚类算法是实现高维数据集聚类的有效方法之一。介绍并实现了基于可变加权的高维数据子空间聚类算法SCAd和EWkM,并分别对人造数据、现实数据等数据集进行测试,根据测试结果进行分析,对比两种算法的性能及适用场合。The sparsity and the problem of the curse of dimensionality of high-dimensional data, make the most of traditional clustering algorithms lose their action in high-dimensional space.Therefore, clustering of data in a high-dimensional space becomes a hot research area.Subspace clustering algorithm is one of the effective ways to handle problems of high-dimensional data clustering.This paper introduces and realizes two algorithms (SCAD and EWKM) that discover clusters in subspaces spanned by different combinations of dimensions via local weightings of features.We experiment these algorithms using synthetic datasets and real datasets, then analyze the results and contrast their performance and applicable occasions

刘菡

杨双远

邓莹

Xiamen University Institutional Repository

《信息化纵横》 2009年第10期 55图形、图像及多媒体  Image Processing and Multimedia Technology聚 类 是 一 种 无 监 督 分 类 ， 即 按 照 事 物 的 某 些 属性，将数据划分成有意义或有用的类(或称为“簇”)，使 类 间 的 相 似 性 尽 可 能 小 ， 类 内 相 似 性 尽 可 能 大 。 聚类 在 模 式 识 别 、 数 据 分 析 、 图 像 处 理 和 市 场 研 究 等 领域 都 有 着 重 要 的 应 用 。 在 这 些 应 用 中 ， 经 常 会 碰 到 一些 高 维 数 据 ， 比 如 购 物 篮 数 据 、 文 档 数 据 、 多 媒 体 数据等[1]。然而在高维空间中，传统聚类算法的性能直接受 到 维 度 的 影 响 ： 一 是 经 常 存 在 一 些 干 扰 特 征 误 导 聚类 算 法 的 执 行 ； 二 是 高 维 空 间 的 数 据 分 布 大 多 比 较 稀疏 ， 在 这 些 数 据 中 基 于 距 离 的 聚 类 结 构 很 难 被 区 分开。为了克服这一困难，可以使用特征(或属性)变换和特征(或属性)选择技术 [2]。传 统 的 特 征 选 择 算 法 可 用 来 确 定 相 关 维 ， 然 而 在高 维 空 间 中 并 不 是 所 有 的 维 都 与 给 定 的 类 有 关 ， 不 同的 类 可 能 对 应 不 同 的 子 空 间 ， 并 且 每 个 子 空 间 的 维 数也 可 能 不 同 。 因 此 不 可 能 在 一 个 子 空 间 中 发 现 所 有 的类 。 为 了 解 决 这 个 问 题 ， 对 全 空 间 聚 类 问 题 进 行 了 推广 ， 称 为 “ 子 空 间 聚 类 ” 或 “ 投 影 聚 类 ” ， 意 在 发 现数 据 集 中 所 有 的 类 以 及 它 所 蕴 涵 的 子 空 间 。 子 空 间 聚类 是 特 征 子 集 选 择 的 一 种 扩 展 ， 它 在 高 维 数 据 聚 类 方面 显 示 出 了 优 势 。1  软子空间聚类区 别 于 传 统 的 聚 类 方 法 ， 子 空 间 聚 类 的 主 要 挑 战在 于 要 同 时 测 定 目 标 的 类 成 员 和 每 个 类 的 子 空 间 。 类成 员 是 由 关 于 子 空 间 的 目 标 的 相 似 性 度 量 来 决 定 。 根据 决 定 类 的 子 空 间 的 方 法 ， 子 空 间 聚 类 方 法 可 分 为 硬子 空 间 聚 类 和 软 子 空 间 聚 类 两 种 类 型 。 软 子 空 间 聚 类是 在 整 个 数 据 空 间 对 目 标 数 据 聚 类 。 但 在 聚 类 过 程中 ， 根 据 这 些 维 对 相 应 类 的 重 要 性 ， 对 类 的 不 同 维 指定 不 同 的 加 权 值 。 在 一 次 聚 类 中 ， 每 一 维 对 每 一 个 类基于可变加权的高维数据子空间聚类算法研究邓　莹，杨双远，刘　菡(厦门大学 软件学院，福建 厦门 361005)摘　要：高维数据的稀疏性和“维灾”问题使得多数传统聚类算法失去作用，因此研究高维数据集的聚类算法己成为当前的一个热点。子空间聚类算法是实现高维数据集聚类的有效方法之一。介绍并实现了基于可变加权的高维数据子空间聚类算法 SCAD 和 EWKM，并分别对人造数据、现实数据等数据集进行测试，根据测试结果进行分析，对比两种算法的性能及适用场合。关键词：高维数据；稀疏；子空间聚类；精确率；熵中图分类号：TP311 文献标识码：AStudy of subspace clustering algorithm of high dimensional data based on variable weighting methodsDENG Ying，YANG ShuangYuan，Liu Han(Software School， Xiamen University， Xiamen 361005, China)Abstract：The sparsity and the problem of the curse of dimensionality of high-dimensional data， make the most of traditional clustering algorithmslose their action in high-dimensional space. Therefore， clustering of data in a high-dimensional space becomes a hot research area. Subspace clusteringalgorithm is one of the effective ways to handle problems of high-dimensional data clustering. This paper introduces and realizes two algorithms (SCAD andEWKM) that discover clusters in subspaces spanned by different combinations of dimensions via local weightings of features. We experiment thesealgorithms using synthetic datasets and real datasets， then analyze the results and contrast their performance and applicable occasions.Key words：high dimensional data; sparsity; subspace clustering; precision; entropy56 《信息化纵横》 2009年第10期图形、图像及多媒体  Image Processing and Multimedia Technology都 有 贡 献 ， 但 是 具 有 较 大 权 值 的 维 构 成 聚 类 的 维 度 子空 间 。 一 些 可 变 加 权 方 法 的 扩 展 ， 可 以 实 现 软 子 空 间聚 类 的 功 能 。 它 们 只 是 在 传 统 的 聚 类 过 程 的 每 一 次 循环 迭 代 中 ， 另 外 附 加 一 步 权 重 值 的 计 算 ， 从 而 获 得 不同分类的不同权重变量集合。接下来介绍并实现2种分别基于k-means和FCM的高维数据可变加权聚类算法。2　基于可变加权的高维数据软子空间聚类算法定义加权聚类[3]：考虑一组在某一个D维空间的数据点 集 ， 例 如 加 权 类 C是 一 个 数 据 点 子 集 ， 加 权 向 量 w=(w1，w2，…，wD)，因此根据使用w的L2标准加权距离C中的点是紧密聚集的。元素wj用来度量特征j对类C的参与程度。如果C中的点在特征 j上都很好地聚集，wj的值就大，反之它的取值较小。因此现在的问题就变为在数据集中如何为每一个分类估计权重向量w。在 这 一 方 面 ， 类 的 概 念 不 仅 仅 取 决 于 数 据 点 而 且包含一个加权距离指标，即类形成于由w转化的空间。每一个类有它自己的w，它反应了在类中的数据点的相关性。w的作用是变换距离从而使相关的类被重塑成一个数据点密 集的超球体 以和其他的 数据分离。2.1 同步聚类和特征识别算法2.1.1　变量描述同步聚类和属性识别SCAD(Simultaneous Clustering andAttribute Discrimination)算法[3]是设计用来同时地搜索最优聚类中心C和最优特征权重集W。每一个类 i有它自己的特征权重集Wi=[wi1，wi2，…，wiD]。其目标函数定义如下：(1)其中：且对于wik，有：(2)δ i计算 公式 为(3)修正的隶属度等式类似于FCM的隶属度函数，即，(4)关于 聚 类中 心 ， 可表 达 为：(5)2.1.2 算法描述输入 ：N个点x∈RD，聚 类数 目c、模 糊度 指 数m(m∈[1，∞])，停机误差e(e>0)，最大循环次数MAXITER；(1)初始化聚类中心C(0)和模糊分割矩阵U(0) ；(2)用公式(2)更新特征权重集W(t) ；(3)用公式(4)更新分割矩阵U(t) ；(4)用公式(5)更新聚类中心C(t)；(5)用公式(3)更新d i(t)；(6)计算误差 ；(7)若E(t)<e，算法终止，否则重复执行(2)~(7)。2.2 高维稀疏数据子空间聚类的 K-Means 熵加权算法2.2.1 变量描述在高维稀疏数据软子空间聚类的K-Means熵加权算法EWKM(An Entropy Weighting K-Means Algorithm for Sub-space Clustering of High-Dimensional Sparse Data)[4]中，一个 类 中 的 某 一 维 的 权 重 代 表 该 维 对 构 成 这 一 类 的 贡 献概 率 。 这 一 维 权 重 的 熵 代 表 该 维 在 这 一 类 的 识 别 中 的可 能 性 。 因 此 ， 修 改 目 标 函 数 ， 在 其 中 添 加 权 重 熵项 ， 可 以 同 时 得 到 类 内 分 散 度 的 最 小 值 和 负 的 权 重 熵的 最 大 值 ， 以 刺 激 更 多 的 维 对 类 的 识 别 做 出 贡 献 。 本方 法 可 以 避 免 只 由 稀 疏 数 据 中 的 几 个 维 来 识 别 聚 类 的问题 。其 目 标函 数 定义 如 下： (6)满 足 如 下 约 束 条 件 ：类似于k-means算法，分割矩阵U可用下式更新：(7)聚类中心C的更新公 式为：，1≤ l≤k且1≤ i≤D (8)《信息化纵横》 2009年第10期 57图形、图像及多媒体  Image Processing and Multimedia Technology权重集W的计算公式为：，                               (9)           其中，2.2.2  算法描述输入：N个点x∈RD，聚类数目k和参数g(g>0)，停机误差e(e >0)，最大循环次数MAXITER。(1)初始化聚类中心C(0)，并设初始权重为1/m；(2)用公式(7)更新分割矩阵U(t) ；(3)用公式(8)更新聚类中心 C(t)；(4)用公式(9)更新特征权重集W(t) ；(5)计算误差 ；(6)若E(t)<e，算法终止，否则重复执行步骤(2)~(6)。3  仿真分析3.1 聚类效果评价标准为了衡量聚类算法的有效性，用到2个评价标准：精确率和熵[5]。3.1.1  精确率设对于给定人类判定PT={S1…，S2…，Si，…，SK}和聚 类算 法 结果PTc={PT1，PT2，… ，PTr，… ，PTR}，PTri=PTr∩Si,nri、nr、ni分别是PTri、PTr和PTi的集合的大小，则PTr对于标准判定结果的查准率P定义为：定义 查 全 率 为：综合查全率和查准率衡量，得到聚类结果F度量(Fmeasure)由此定义聚类算法所获的类PTr的FScore 如下。由 此 可 得 知 ， 判 定 一 个 类 的 所 属 类 别 ， 是 看 它 与标 准 判 定 中 交 集 最 大 的 那 个 类 所 属 的 类 别 。 这 样 获 得了 聚 类 结 果 的 评 分 ： (10)公式(10)有时也被称为精确率(Precision)。它表达了聚 类 结 果 与 人 类 判 定 结 果 的 接 近 程 度 ， 聚 类 结 果 越 接近人类判定，其取值越大，容易得出其最大值为1，此时聚 类结 果 与人 类 判定 一 致。3.1.2  熵另一个比较有效的评价函数是熵(Entropy)值函数。沿用上面的符号和含义，定义一个聚类PTr 的熵值为式(4-2)。  (11)   (12)这样一个聚类结果PTc的熵值表达为公式(12)。熵值标准刻画了聚类结果的杂乱程度，如果一个在人类判定下属于同一个簇的数据对象被聚类算法划分在很多的不同簇中时，聚类结果的杂乱程度高，熵值也会很大。当聚类结果与给定的人类判定完全一致时，其熵值为0。3.2 仿真设计如表1所示，仿真实验采用了一个人造高斯聚类数据集d4[5]和来自于[6]的三个真实数据集。人造高斯聚类数据集采用4维40个数据，共2类，其中每一个聚类各有2个不相关的特征，采用这个数据集来验证两种算法的聚类和识别相关特征的能力。IRIS[6]数据集两类间存在交迭 。 这 对 验 证 两 种 算 法 的 聚 类 准 确 度 提 供 了 一 定 的 依据 。表1　数据集3.3  仿真结果及分析对于人造数据集和真实数据集，2种算法的实验结果如表2和图1~图4所示。表2　各数据集聚类结果由表2可知，对 于人造 数据集 ，EWKM算法效 果最好 ， 数 据 划 分 精 确 度 高 且 杂 乱 度 最 小 ， 并 且 能 识 别 出不同 特 征 的 相 关 性 。 对 于IRIS数 据 集 ， SCAD算法 在 划分 效 果 方 面 是 最 佳 的 ， 精 确 率 高 且 杂 乱 度 最 小 ， 这 主要是 因 为SCAD算法 采 用了 模 糊隶 属 度函 数 ， 对于IRIS这种有交迭情况的数据集能够比较好地处理。对于wine数据 集SCAD算 法 的 精 确 率 比 EWKM算 法 更 高 ， 而 对 于Musk这样较大的数据集，基于K-Mean的EWKM算法具有相 对 可 伸 缩 性 和 效 率 高 的 特 点 ， 因 此 聚 类 效 果 最 好 且效率高，而基于FCM的SCAD算法则执行代价较高。58 《信息化纵横》 2009年第10期图形、图像及多媒体  Image Processing and Multimedia Technology图1和图2显示了2种算法的运行时间与样本数、维度的关系。实验结果表明，随着样本数和维度的增加，EWKM算法的运行时间呈线性增长，比较平稳。而SCAD算法由于采用了类FCM算法，运行时间变化较大。图3和图4显示了算法精确率与参数选择的关系。实验结果表明，在5个数据集上，当参数在一个较大范围内变化时，算法的精确率改变不敏感，这说明SCAD算法和EWKM算法 的鲁 棒性 较好 。以上介绍的2种算法都是先初始化聚类中心并在实现 过 程 中 不 断 更 新 中 心 点 及 权 重 向 量 直 至 收 敛 。 通 过测试实验发现这2种算法都能较好地处理高维数据的聚类问题。其中EWKM算法的运行效率最高，平均性能最好 ， 尤 其 是 权 重 结 果 能 比 较 准 确 地 反 映 特 征 与 聚 类 中心 的 相 关 性 ， 这 对 进 一 步 进 行 特 征 选 择 提 供 了 很 大 的方便。SCAD算法能够适应存在于数据集中的变化将它分 到 不 同 的 类 ， 因 此 对 于 维 度 较 高 且 分 布 在 整 个 数 据空间的数据集，SCAD算法的聚类效果最好，尤其是由于SCAD算法使用模糊隶属度，对类间有重叠的数据集的 聚 类 效 果 也 是 最 佳 的 ， 但 缺 点 是 运 行 时 间 较 长 。 当然 ， 所 讨 论 的 算 法 均 需 预 先 指 定 聚 类 数 目 ， 因 此 未 来聚 类 算 法 的 研 究 重 点 将 会 侧 重 于 聚 类 数 目 对 聚 类 效 果的影响，以 及如何自动 确定最佳聚 类数目上。参考文献[1] 杨风召． 高维数据挖掘中若干关键问题的研究[D]． 上海：复旦大学，2003．[2] HAN Jia Wei，MICHELINE K . 数据挖掘概念与技术[M]． 范明，孟小峰，译 ．北京：机械工业出版社，2007．[3] FRIGUI H， NASRAOUI O， Simultaneous clustering and attributediscrimination[C]． Proceeding of the 9th IEEE International Con-ference on Fuzzy Systems，2000．[4] JING L． NG M． K． and HUANG．J． Z． An Entropy WeightingK-Means algorithm for subspace clustering of high-dimensionalsparse data[J]． IEEE Transactions on Knowledge and DataEngineering，2007，19(8)：1-16．[5] 赵万磊． 典型聚类算法及其应用研究[D]． 昆明：云南大学，2005．[6] 测试数据集． http：//archive． ics． uci． edu/ml/machine-learn-ing-databases．(收稿日期：2009-01-08)图 1　 运 行 时 间 与 样 本 数 的 关 系 图 2　 运 行 时 间 与 维 度 的 关 系图 3  SCAD 算法精确率与参数的关系 图 4　 EWKM 算 法 精 确 率 与 参 数 的 关 系

Study of subspace clustering algorithm of high dimensional data based on variable weighting methods

http://dspace.xmu.edu.cn/bitstream/handle/2288/118752/%e5%9f%ba%e4%ba%8e%e5%8f%af%e5%8f%98%e5%8a%a0%e6%9d%83%e7%9a%84%e9%ab%98%e7%bb%b4%e6%95%b0%e6%8d%ae%e5%ad%90%e7%a9%ba%e9%97%b4%e8%81%9a%e7%b1%bb%e7%ae%97%e6%b3%95%e7%a0%94%e7%a9%b6.pdf?sequence=1&isAllowed=y

Study of subspace clustering algorithm of high dimensional data based on variable weighting methods

Abstract

Similar works

Full text

Available Versions

Xiamen University Institutional Repository