谢娟英,郑清泉,吉新媛
陕西师范大学学报(自然科学版). 2020, 48(2): 1-8.
PDF全文 (
)
可视化
收藏
特征选择是高维小样本癌症基因数据分析的首要和关键步骤, 但是现有特征选择算法存在特征子集依赖于训练样本且随训练样本不同而变化的问题。为了解决特征选择过程的特征子集不稳定问题, 提出一种基于核极限学习机的集成特征选择方法, 利用5-折交叉验证划分原始数据, 对各训练集继续采用5-折交叉验证进行划分并进行特征选择, 以所得5个特征子集之并集作为该训练集的特征子集, 构造核极限学习机评价该特征子集的分类性能, 以原始数据集5-折交叉验证所得特征子集的平均Jaccard系数评价特征选择算法所选特征子集的稳定性。5个基因数据集的实验测试以及与经典特征选择算法SVM-RFE、LLE Score、ARCO、DRJMIM、Random Forest和mRMR的实验比较表明, 本文算法不仅能选择到稳定的特征子集, 且所选特征子集具有很好的泛化能力。