在处理复杂问题、制定全面策略或做出关键决策时, 需从多个视角、多个层面或多个维度进行思考与分析。三支决策即三元思维、三元方法和三元计算。遵循三支决策的原则,引入了双三元思维的概念及3×3方法与结构。通过双三元思维结合两个三元结构, 构建了一个3×3 方法与结构,从九个不同的角度或维度进行思考、分析和解决问题。根据三级层次和三角形方法, 得到了两种不同的3×3方法一是在三级层次方法的基础上, 每一层以三角形方法考虑三个相关问题, 称为3 层× 3 角形方法;另一种是在三角形方法的基础上, 每个顶点以三级层次方法考虑三个相关问题, 称为3 角形× 3 层方法。作为一个案例,可以将3×3 方法应用于可解释人工智能。借助Symbols-Meaning-Value (SMV) 空间的概念, 为3×3方法的九个元素赋予具体的语义。基于SMV 空间的3×3方法,从不同的层次来分析和解释智能系统所需的数据、假设、工作原理及结果。这为智能系统提供了解释的构建过程及结构,使得最终的解释更易于沟通、理解和接受。
三支决策是粒计算领域一个重要研究方向,其符合人类思维和认知特点,能有效处理实际决策过程中的不确定性问题。三支决策通过引入延迟决策,可以有效降低决策成本和代价,增强对不确定性决策过程的控制并提高模型的可解释性。因此,融合三支决策思想的机器学习方法值得深入研究和探讨。首先,介绍了三支决策基本模型;其次,运用CiteSpace和VOSviewer软件分析了国内外基于机器学习的三支决策领域的研究现状;再者,从研究问题、模型方法和应用背景等角度出发,聚焦于三支决策与聚类模型、分类模型、推荐系统、深度学习模型的融合,整理并总结了现有的研究方法与成果;最后,对基于机器学习的三支决策发展趋势作出了展望。
金融和医疗等实际环境中的决策关键在于决策风险的权衡考虑,准确预测和分类风险级别非常必要。然而,传统的群体决策关注专家评价意见的一致性和共识,对于获得客观的专家评价意见和决策质量的考虑较少,在风险评级场景中难以量化和评估决策实际效果。因此,引入数据驱动的思想,利用数据和聚类结果辅助发现专家评估意见,在三支决策理论框架下优化群体意见,改进和计算逻辑回归的判别点,并基于UCI和Kaggle的4个信贷风险和疾病诊断公开数据集,完成风险评级分类。通过数据实验的结果可以发现:与经典的机器学习方法相比,文中提出的基于群体决策的三支分类方法更加关注风险的规避,在各个数据集上的分类表现均有稳定且较优的结果,说明通过发现专家领域知识,利用数据的客观信息辅助专家评估风险有助于解决不同背景的决策问题。
密度峰值聚类 (clustering by fast search and find of density peaks, DPC)算法是一种基于密度的聚类算法,它可以发现任意形状和维度的类簇,是具有里程碑意义的聚类算法。然而,DPC算法的样本局部密度定义不适用于同时发现数据集的稠密簇和稀疏簇;此外,DPC算法的一步分配策略使得一旦有一个样本分配错误,将导致更多样本的错误分配,产生“多米诺骨牌效应”。针对这些问题,提出一种新的样本局部密度定义,采用局部标准差指数定义样本局部密度,克服DPC的密度定义缺陷;采用两步分配策略代替DPC的一步分配策略,克服DPC的“多米诺骨牌效应”,得到ESDTS-DPC算法。与DPC及其改进算法KNN-DPC、FKNN-DPC、DPC-CE和经典密度聚类算法DBSCAN的实验比较显示,提出的ESDTS-DPC算法具有更好的聚类准确性。
现有对低级别胶质瘤(low-grade glioma,LGG)分子亚型三分类的研究依赖于LGG医学影像数据,数据样本少且难获取导致模型较难学习到LGG分子亚型之间的差异,降低了模型的分类性能。基于此,提出了LGG分子亚型三分类方法MODDA,利用基因注意力网络提取LGG多组学数据的重要特征,使用嵌入网络处理临床数据得到临床数据特征;将临床数据特征与组学数据重要特征进行融合,采用密集深度神经网络进行LGG分子亚型分类。实验结果表明,MODDA的分类性能优于现有LGG分子亚型分类方法,并且在外部验证数据集上也表现出较好的泛化性能。此外,对卡方检验过程中发现的重要基因进行了富集基因本体论(gene ontology,GO)术语和生物学途径分析,有助于LGG的个性化治疗。
蛋白质-配体的结合亲和力预测是药物重定位回归中具有挑战性的任务。深度学习方法可以有效预测蛋白质与配体相互作用的结合亲和力,减少药物发现的时间和成本。由此,基于长短期记忆模块(LSTM)和注意力机制模块(attention)提出了一种深度卷积神经网络模型(DLLSA)。模型由嵌入LSTM和空间注意力模块(spatial-attention)的卷积网络并行模块构建,其中LSTM模块针对蛋白质-配体接触特征的长序列信息,spatial-attention注意力模块聚集接触特征局部信息。采用PDBbind(v.2020)数据集进行训练,CASF-2013和CASF-2016数据集进行验证,模型的皮尔逊相关系数相比于PLEC模型分别提高了0.6%和3%,实验结果显著优于其他相关方法。
输电塔作为整个电力传输系统最重要的组成部分之一,需要及时对输电塔进行检测保证塔基的稳固以保障后期的使用。针对无人机采集到的输电塔图像存在背景复杂、背景与目标塔基对比度低、小目标及塔基不完整等问题,提出了基于改进YOLOv7的输电塔塔基检测算法。首先,通过无人机采集不同地形地貌的输电塔图像,构建高质量数据集。然后,在原始YOLOv7的Backbone层中加入卷积注意力模块CBAM注意力机制,以提高输电塔塔基特征的提取能力。最后,引入WIoU v3代替原坐标损失函数CIoU,以提高目标检测任务的准确性和稳定性。在该数据集上,使用改进后的YOLOv7算法与目前主流的目标检测算法进行对比实验,实验结果中所提算法的mAP值高达99.93%,比原始YOLOv7提高2.19%,FPS值为37.125,满足实时检测需求,算法的整体性能较好。实验验证了所提算法在塔基检测上的可行性和有效性,为后续塔基区周围水土情况的研究奠定了基础。
BERT 等预训练模型在很多 NLP 任务上取得了良好的效果,但预训练模型参数规模大,运算量大,对硬件资源要求高,难以部署在小型的配置环境中。模型压缩是解决该问题的关键,知识蒸馏是目前较好的模型压缩方法。基于此,提出基于多任务蒸馏的句意图识别和槽位填充联合模型,该模型将 ALBERT 运用到任务型对话系统中,并利用知识蒸馏策略将 ALBERT 模型知识迁移到 BiLSTM 模型。实验结果表明,基于 ALBERT 的联合模型在 SMP 2019 评测数据集中的句准确率为77.74%,单独训练的 BiLSTM 模型句准确率为58.33%,而蒸馏模型的句准确率为67.22%,在比 BiLSTM 高8.89%的情况下,推断速度约为ALBERT的18.9倍。
基于知识图谱的推荐方法是推荐系统的研究热点之一,利用用户历史行为及物品特征在知识图谱结构化表示数据的辅助下解决推荐系统数据稀疏性及冷启动问题。但是用户的兴趣易受特定物品所影响,而知识图谱以结构化形式存储数据,实体与实体之间仅存在链路关系,这就导致了单纯利用知识图谱的推荐方法在点击率预测方面性能较差。基于此,提出一种基于局部影响力与深层偏好传播的推荐方法(local influence and deep preference propagation,LIDP),充分利用知识图谱结构化数据在偏好传播中存在实体影响力的优点。LIDP模型首先对知识图谱逐层偏好传播获取数据影响力权重并根据所获数据权重进行局部影响力计算;其次对局部影响力进行用户历史行为的兴趣增强表示进而获取用户表示;最后对用户表示与物品的向量表示进行内积操作以获取最终交互概率。LIDP模型在MovieLens-1M数据集上相比最优基准模型GNRF,AUC、ACC、MAE和F1值分别提高了0.16%、0.52%、0.87%、0.21%;在Book-Crossing数据集上,这些提升分别为0.45%、2.14%、1.29%、0.93%。实验结果表明,LIDP模型能有效获取深层次用户兴趣偏好,在推荐系统中具有良好的性能和效果,可以为用户提供更好的个性化推荐服务。
在消费金融服务场景下,存在用户逾期还款的情况。在逾期协商还款过程中,少量用户篡改图像凭证,实现不当得益。这些篡改集中在个人信息、印章、出具单位等具有很强的上下文语义联系内容上。基于此,在传统空域直接像素空间RGB和频域离散余弦变换(discrete cosin transform,DCT)作为判别特征的基础上,引入了文字块、印章块的位置关系和反卷积网络,实现了一种包含语义关系的端到端全卷积神经网络模型。该模型在天池2022年“真实场景篡改图像检测挑战赛”的数据集上,相对于传统模型平均交并比有3.97%的提升,在实际凭证图像篡改判断中,提升了3.7%的篡改检测准确率。