活性肽是源于蛋白质的多功能化合物,在抗感染、调节身体功能和神经递质等方面发挥着重要作用,鉴定这些具有治疗效果的活性肽有助于癌症、炎症和病毒性等疾病的治疗
[1⇓⇓-4]。随着高通量测序技术和实验数据采集技术的发展,越来越多的多功能活性肽被鉴定出来
[5⇓-7]。多功能活性肽可以影响不同靶标来传递多种生理效果,对不同的疾病都有治疗效果,已成为肽类药物开发的重点
[8]。传统湿实验鉴定活性肽的方法耗时耗力,需要对活性肽测序、设计体外实验和体内实验等,无法满足日益增长的活性肽鉴定需求
[9]。研究表明,通过基于序列的计算方法辅助识别多功能活性肽,有助于对大规模多功能活性肽的鉴定
[10-11]。因此,基于计算方法辅助鉴定多功能活性肽是必要的,有助于多功能活性肽的鉴定和肽类药物的开发,同时为临床研究提供参考价值。
深度学习方法不需要研究人员手动选择特征,可以直接将肽序列作为输入用于模型的训练和预测,已广泛用于预测活性肽。Tang等
[10]提出了一种基于卷积神经网络(convolutional neural network,CNN)和双向门控循环单元(bidirectional gated recurrent unit,Bi-GRU)的深度学习方法MLBP,将活性肽序列作为模型的特征输入,用于预测多功能活性肽;Li等
[11]提出基于多分支CNN和双向长短期记忆网络(bidirectional long short-term memory,Bi-LSTM)的深度学习方法MPMABP,将活性肽序列作为模型特征输入,用于预测多功能活性肽。上述方法构建基于深度学习方法的多功能活性肽预测模型,直接将肽序列作为模型的特征输入来训练和预测模型,提高了研究人员对多功能活性肽的鉴定效率。然而,上述研究将肽序列作为模型的特征输入时,忽略了活性肽序列中氨基酸之间的关联性,这些关联性可以更好地表征活性肽序列,从而提高模型对肽序列特征的表征能力
[12]。Transformer编码器由位置编码、多头自注意力机制等组成,可以有效提取活性肽序列中氨基酸之间的关联性。Ma等
[13]提出了一种基于Transformer和动态路由的穿透肽预测模型,结果表明通过Transformer编码器提取氨基酸之间的关联性有效地提高了穿透肽的预测准确率;Cheng等
[14]提出一种基于端到端Transformer的孪生网络检测方法PepFormer,结果表明采用Transformer编码器提取氨基酸之间的关联性可以提高肽的可检测性。因此,本文引入Transformer编码器来提取活性肽序列中氨基酸之间的关联性,将活性肽序列作为特征输入Transformer编码器来捕获上下文信息,用于提高模型对肽序列的表征能力,从而提高模型对活性肽序列特征的学习能力。
在用于鉴定活性肽的深度学习模型中,常使用CNN和循环神经网络(recurrent neural network,RNN)来提取活性肽序列的局部特征和全局特征,通过级联这两种网络可以提高模型的预测性能
[10-11]。CNN和RNN之间通常会加入池化层,用于减少模型的参数数量,并防止过拟合等问题
[15]。Yan等
[16]提出了一种基于多头自注意力机制和类别权重优化算法的深度学习模型PrMFTP,利用CNN、最大池化(Max Pooling)和RNN来学习局部特征和全局特征,用于预测多功能活性肽。Lv等
[17]提出了一种具有深度表示学习特征的抗癌肽预测模型,通过RNN结合平均池化(Average Pooling)来学习肽序列特征,用于预测抗癌肽。研究表明,池化层虽然可以减少模型的参数数量,但也可能会在池化的过程中损失重要的信息
[15]。最大池化用于提取局部区域内的最大特征值,但会忽略背景、平滑区域等信息的提取;平均池化可以平滑局部区域内的特征值,但会忽略纹理、边缘等信息的提取。Yu等
[18]为解决最大池化和平均池化存在的不足,提出一种混合池化(Mix Pooling)用于兼顾最大池化和平均池化对不同区域信息的提取,不仅可以减少模型参数数量,还可以保留更多区域的特征信息。因此,本文引入混合池化来构建特征提取网络,通过在CNN和RNN之间加入混合池化,在减少模型参数数量的同时,最大程度上保留和提取局部特征和全局特征,用于提高模型对肽序列的特征提取能力。
预测多功能活性肽是多标签分类问题,而根据对多标签分类任务的不同处理方式,需要设计不同的损失函数来进行模型的反向传播
[20]。已有多功能活性肽研究中,大多是利用交叉熵损失函数(cross entropy loss,CEL)将多标签分类任务转换为多个独立的二元分类任务,并通过手动设置阈值来获得标签或直接输出排名靠前分数的类别作为目标标签
[10-11]。然而,这种转换方式忽略了多标签分类问题中各标签之间的潜在依赖性,并且这种二阶段预测法增加了模型的复杂性和训练的不稳定性
[19]。研究表明,多功能活性肽的功能之间存在依赖性,即存在标签之间的潜在依赖性,通过捕获这些潜在依赖性可以提高模型的预测精度
[16]。Su等
[21]为解决多标签分类中标签依赖性等问题,通过结合二元相关性和标签排序的优点,提出了一种ZLPR(zero-bounded log-sum-exp & pairwise rank-based,ZLPR) 损失,用于更好地捕获标签依赖性和自适应地确定目标类别的数量,并且通过这种损失可以直接得到目标标签。因此,本文引入ZLPR 损失函数来捕获多功能活性肽多个功能之间潜在的标签依赖性,用于提高模型的预测性能。此外,模型通过ZLPR 损失可以直接输出预测分数,进一步降低了模型的复杂度。
本文提出了一种基于标签依赖性的多功能活性肽预测模型TCLD(Transformer、CNN、LSTM、DNN),模型结构如
图1所示。该模型将活性肽序列转换为数字序列后输入Transformer编码器,通过学习氨基酸之间的关联性来强化模型对活性肽序列的特征表示能力,再通过由多尺度CNN、Mix pooling和Bi-LSTM构建的多尺度特征网络(multi-scale feature network, MSFN)来提取活性肽序列的局部特征和全局特征,引入密集Dropout块防止模型过拟合,并引入了ZLPR损失函数来捕获活性肽多个功能之间对应的标签依赖性,最后通过全连接层输出预测分数。为了验证TCLD的预测性能,本文将原始数据划分为训练集和测试集,并通过与其他方法进行对比。实验结果表明,TCLD在预测多功能活性肽的性能上优于现有方法。