混合型属性数据在医学健康、金融、营销等众多领域中应用广泛。为解决混合型属性数据聚类问题,研究者们在传统聚类算法上做出改进,改进思路分为两种策略:一种是将数据集通过各种各样的方式转化为同一种类型的数据集,进而应用现有算法进行聚类;另一种则是对相似度度量进行设计。
对于第一种策略,David等
[1]提出SpectralCAT算法,通过将数据自动转换为分类型数据,再使用谱聚类实现聚类;Barcelo-rico等
[2]使用极坐标将分类特征编码成数值特征后使用传统
k-means算法实现聚类;文献[
3]提出一种基于互信息的无监督特征转化方法,将分类特征转换为数值特征后使用
k-means算法进行聚类。这些改进与对混合型属性数据直接使用经典算法聚类相比确实提升了聚类效果,但数据转换过程难免造成信息损失。
在通过第二种策略进行改进的算法中,针对混合型属性数据聚类最经典的2种算法是由Huang提出的Kprototypes算法
[4]和McParland等提出的ClustMD算法
[5]。Kprototypes算法通过结合
k-means算法和
k-modes算法来实现对混合型属性数据的聚类,但该方法易收敛到局部最优,运行结果不稳定;ClustMD算法使用潜在变量模型对混合型属性数据进行聚类,并使用EM算法对ClustMD的参数进行估计;刘超等
[6]证明了数据相关性强、缺失值多、分类型数据所占比重较大时,Kprototypes的效果要优于ClustMD。Chatzis
[7]通过假设数据符合高斯分布,对Kprototypes算法进行扩展提出了KL-FCM-GM算法,该算法在Honda和Ichihashi
[8]提出的FCM型模糊聚类成本函数中采用了概率差异函数;Cheung等
[9]提出OCIL算法;赵兴旺等
[10]提出基于信息熵的混合数据属性加权聚类算法,解决了高维混合数据聚类中属性加权的问题。这些算法改善了簇归属的问题,但由于是基于迭代的方法,故对初始聚类中心十分敏感,更适合凸簇数据。
谱聚类是一种现代聚类方法,能够适合于任意形状数据的聚类问题且能收敛于全局最优解。研究者们主要从相似矩阵的构造、特征向量的选取、聚类数目的确定、参数的优化设置等方面对谱聚类算法进行改进且取得了不错的效果
[11⇓⇓-14],但以上改进都是适用于数值型数据的。近年来,有研究者利用谱聚类的优势,将其扩展到混合型属性数据聚类中。马恒等
[15]提出SCBMDSM算法,通过实验验证了该算法的准确率与SBAC和Kprototypes算法相比确实有所提升;姜智涵等
[16]提出EBSCMD算法,并通过实验与Kprototypes、KL-FCM-GM、OCIL算法对比验证了所提算法的有效性;Mbuga等
[17]用不同的不相似度度量代替了传统谱聚类中的欧氏距离度量,采用加权和全局不相似度测量的方式构建相似度矩阵,并将他们的实验结果与Kprototypes和KAMILA进行对比,验证了他们所提方法的有效性。以上改进避免了数据类型转换带来的信息损失,且能够适应于任意形状数据,但依旧存在某些不足。例如,有些设计没有考虑到数值型数据之间的关联及其本身重要度对于聚类结果的影响,故对于混合型属性数据谱聚类方法相似性度量的设计仍有改进空间。
基于以上讨论分析,本文提出了一种针对于混合型属性数据的改进谱聚类算法(improved Jaccard and Mahalanobis-spectral clustering, IJM-SC)。基于改进的Jaccard系数、马氏距离,设计了一个新的相似性度量,该相似性度量不需要对数值型数据或分类型数据进行转换,避免了类型转换带来的信息损失,且能够消除数值型数据量纲的影响,提高分类型数据的相似度计算的精确度和稳定性。最后,根据谢娟英等
[18]提出的一种运行时间更短的全局
k-means聚类算法得到最终的聚类簇。
2)将设计的相似度距离扩展到谱聚类相似度矩阵、拉普拉斯矩阵的构建中,提出IJM-SC算法。该算法适用于任意形状数据,且通过形成更贴切的相似度矩阵,达到提升谱聚类算法对于混合型属性数据的聚类效果的目的。