1 预备知识和数据预处理
1.1 三支决策(TWD)理论
表1 三支决策的损失函数矩阵Tab.1 Loss function matrix of three-way decision |
| 行动 | C(P) | ┐C(P) |
|---|---|---|
| aP | λPP | λPN |
| aB | λBP | λBN |
| aN | λNP | λNN |
R(aP|x)=λPPPr(C|x)+λPNPr(┐C|x),
R(aB|x)=λBPPr(C|x)+λBNPr(┐C|x),
R(aN|x)=λNPPr(C|x)+λNNPr(┐C|x),
α= ,
β= ,
γ= 。
1.2 K-means聚类算法
1.3 数据预处理与特征选择
表2 清洗后的数据集Tab.2 The cleaned datasets |
| 数据集 | 样本数量 | 特征数量 | 类比(分布) |
|---|---|---|---|
| Heart failure data | 406 | 4 | 2(203/203) |
| German credit data | 1 400 | 4 | 2(700/700) |
| Credit-card classification data | 16 852 | 5 | 2(8 426/8 426) |
| Bank fears loanliness data | 46 072 | 10 | 2(23 036/23 036) |
2 基于聚类分析的专家评估规则发现和三支分类算法
2.1 基于聚类分析的专家评估发现规则
表3 基于聚类结果的三支决策损失函数Tab.3 The loss function of TWD based on clustering results |
| 行动 | C(P) | ┐C(P) |
|---|---|---|
| aP | λPP=0 | λPN=fq,0 |
| aB | λBP=θ1×λNP | λBN=θ2×λPN |
| aN | λNP=fq,1 | λNN=0 |
2.2 群体三支分类模型



2.3 数据实验分析
表4 超参数设置Tab.4 The settlement of hyperparameters |
| 数据集 | 谨慎态度θ1和θ2 | 纯度阈值φ | 共识阈值con' |
|---|---|---|---|
| Heart failure data | θ1=[0.58,0.45,0.68] | 0.5 | 0.99 |
| θ2=[0.58,0.55,0.45] | |||
| German credit data | θ1=[0.32,0.28,0.28] | 0.2 | 0.99 |
| θ2=[0.32,0.30,0.35] | |||
| Credit-card classification data | θ1=[0.220.15,0.32] | 0.3 | 0.99 |
| θ2=[0.22,0.22,0.42] | |||
| Bank fears loanliness data | θ1=[0.12,0.42,0.33] | 3 | 0.99 |
| θ2=[0.42,0.28,0.16] |
Acc= ,
Rm= ,
Pre= ,
Rc= ,
F1= 。
表5 Heart failure数据集上各方法分类效果对比Tab.5 The performance comparison in Heart failure dataset |
| 分类方法 | 准确率 | 错分率 | 精确率 | 召回率 | F1-score | 运行时间 |
|---|---|---|---|---|---|---|
| 本文所提出方法 | 0.908 7 | 0.050 8 | 0.904 2 | 0.930 2 | 0.912 9 | 1.39 s |
| 逻辑回归(Logit) | 0.860 7 | 0.139 3 | 0.863 8 | 0.860 7 | 0.860 8 | 2.65 s |
| 随机森林(RF) | 0.868 9 | 0.131 1 | 0.871 0 | 0.868 9 | 0.869 0 | 20.4 s |
| 支持向量机(SVM) | 0.852 5 | 0.147 5 | 0.854 6 | 0.852 5 | 0.852 6 | 41.8 ms |
| 高斯朴素贝叶斯方法(GNB) | 0.819 7 | 0.180 3 | 0.826 8 | 0.819 7 | 0.819 7 | 2.4 ms |
| 线性判别分析(LDA) | 0.860 7 | 0.139 3 | 0.862 0 | 0.860 7 | 0.860 8 | 437 ms |
| K近邻(KNN) | 0.754 1 | 0.245 9 | 0.767 3 | 0.754 1 | 0.753 3 | 8.02 ms |
表6 German credit数据集上各方法分类效果对比Tab.6 The performance comparison in German credit dataset |
| 分类方法 | 准确率 | 错分率 | 精确率 | 召回率 | F1-score | 运行时间 |
|---|---|---|---|---|---|---|
| 本文所提方法 | 0.804 9 | 0.091 4 | 0.821 4 | 0.733 5 | 0.774 9 | 3.02 s |
| 逻辑回归(Logit) | 0.719 0 | 0.281 0 | 0.719 0 | 0.719 0 | 0.718 9 | 6.62 s |
| 随机森林(RF) | 0.783 3 | 0.216 7 | 0.784 8 | 0.783 3 | 0.782 8 | 25.2 s |
| 支持向量机(SVM) | 0.738 1 | 0.261 9 | 0.738 3 | 0.738 1 | 0.737 8 | 249 ms |
| 高斯朴素贝叶斯方法(GNB) | 0.702 4 | 0.297 6 | 0.702 3 | 0.702 4 | 0.702 3 | 7.96 ms |
| 线性判别分析(LDA) | 0.728 6 | 0.271 4 | 0.729 0 | 0.728 6 | 0.728 2 | 17.5 ms |
| K近邻(KNN) | 0.723 8 | 0.276 2 | 0.740 6 | 0.723 8 | 0.717 5 | 35.1 ms |
表7 Credit-card classification数据集上各方法分类效果对比Tab.7 The performance comparison in Credit-card dataset |
| 分类方法 | 准确率 | 错分率 | 精确率 | 召回率 | F1-score | 运行时间 |
|---|---|---|---|---|---|---|
| 本文所提方法 | 0.834 4 | 0.049 7 | 0.831 8 | 0.818 4 | 0.824 9 | 31.2 s |
| 逻辑回归(Logit) | 0.707 7 | 0.292 3 | 0.708 3 | 0.707 7 | 0.707 4 | 513 ms |
| 随机森林(RF) | 0.834 1 | 0.165 9 | 0.836 7 | 0.834 1 | 0.833 7 | 120 s |
| 支持向量机(SVM) | 0.790 5 | 0.209 5 | 0.790 5 | 0.790 5 | 0.790 5 | 32.7 s |
| 高斯朴素贝叶斯方法(GNB) | 0.681 8 | 0.318 2 | 0.685 3 | 0.681 8 | 0.680 2 | 13.1 ms |
| 线性判别分析(LDA) | 0.705 5 | 0.294 5 | 0.706 5 | 0.705 5 | 0.705 1 | 40.5 ms |
| K近邻(KNN) | 0.750 4 | 0.249 6 | 0.750 4 | 0.750 4 | 0.750 4 | 986 ms |
表8 Bank fears loanliness数据集上各方法分类效果对比Tab.8 The performance comparison in Bank fears loanliness dataset |
| 分类方法 | 准确率 | 错分率 | 精确率 | 召回率 | F1-score | 运行时间 |
|---|---|---|---|---|---|---|
| 本文所提方法 | 0.884 9 | 0.091 6 | 0.908 9 | 0.858 6 | 0.883 0 | 87 s |
| 逻辑回归(Logit) | 0.829 4 | 0.170 6 | 0.830 8 | 0.829 4 | 0.829 2 | 5.01 s |
| 随机森林(RF) | 0.854 7 | 0.1453 | 0.860 0 | 0.854 7 | 0.854 1 | 167 s |
| 支持向量机(SVM) | 0.896 0 | 0.104 0 | 0.897 6 | 0.896 0 | 0.895 9 | 199 s |
| 高斯朴素贝叶斯方法(GNB) | 0.531 3 | 0.468 7 | 0.690 0 | 0.531 3 | 0.406 0 | 38.6 ms |
| 线性判别分析(LDA) | 0.812 0 | 0.188 0 | 0.814 9 | 0.812 0 | 0.811 6 | 129 ms |
| K近邻(KNN) | 0.780 7 | 0.219 3 | 0.784 9 | 0.780 7 | 0.779 9 | 8.22 s |
图1 各分类器在多个评估指标的平均排名Fig.1 Average rank of classifiers on different evaluation indices |