与人体有关的微生物包含真核生物、古生菌、细菌、真菌和病毒
[1],它们主要寄生在人体的皮肤、生殖器、口腔,特别是肠道
[2]等部位。研究发现,微生物在人体中的数量大约为细胞数量的10倍
[3],这表明人体内微生物群落相对庞大。
许多研究表明,微生物群落与复杂疾病有关。例如,肠道内细菌可通过对肠黏膜上皮细胞作用,如影响DNA完整性、调节免疫反应、诱导炎症反应等,促进结直肠癌发生
[4⇓-6]。孤独症患者的肠道菌群和正常人有着显著的区别,其中白色念珠菌和一些促进炎症发生的梭菌水平明显升高。而且,胃肠道感染破伤风梭菌会增加孤独症的患病风险,这种梭菌会释放神经毒素,而毒素可能会通过迷走神经传递到大脑,从而引起孤独症的症状
[7⇓-9]。对于帕金森患者而言,其肠道内的肠杆菌科越高,症状往往就越严重
[10]。因此,确定微生物与疾病之间的关系已成为当前生物信息学领域的一个重要研究课题。
考虑到微生物与人类疾病的紧密关系。国内外研究者已经启动了许多有关微生物和疾病研究的项目并且建立了相关数据库。为了能够系统地了解微生物组成及其在疾病中的重要性,美国和欧盟联合发起了一项人类微生物组计划(human microbiome project,HMP)
[11]。此外,还建立了人类微生物-疾病关联数据库(human microbe-disease association database,HMDAD),该数据库目前包括39种疾病、292种微生物以及483种微生物与疾病的关联
[12]。通过生物医学实验验证来确定微生物与疾病之间的关系是一项费力且昂贵的工作。因此,基于HMDAD数据库,人们提出了多种计算模型用于预测微生物与疾病的关联关系。这些模型大致可以分为三类:第一类是基于评分函数的计算模型。例如,Chen等
[12]基于KATZ度量提出了预测微生物-疾病关系的第一个模型KATZHMDA,该模型根据微生物-疾病网络中两个结点间的行走步长和行走次数来计算这两个结点的关联概率。Li等
[13]提出了一种基于双向加权网络的计算模型BWNMHMDA来预测微生物-疾病关系,与KATZHMDA不同的是,该计算模型在计算结点间的相似性时考虑了路径的起点和终点。Bao等
[14]提出了一种基于网络一致性投影的计算模型NCPHMDA来预测微生物-疾病关联。Huang等
[15]提出了一种基于深度优先搜索算法的计算模型PBHMDA来预测与疾病有关的潜在微生物。虽然上述方法都获得了比较好的预测效果,但绝大多数与疾病相关的微生物还是未知的。因此,Fan等
[16]通过整合多源数据和基于路径的HeteSim评分,建立了一个预测微生物-疾病关联的新模型MDPH_HMDA。第二类是基于网络算法的模型。例如,Shen等
[17]提出了一种异构网络上的随机游走算法RWRH来预测微生物和疾病的关联。Luo等
[18]提出了一种基于随机游走的计算模型NTSHMDA,与RWRH方法不同的是,该计算模型结合了网络拓扑相似性,将异构网络上微生物与疾病的关联分配不同的权重。Niu等
[19]提出了一种在超图上进行随机游走的计算模型RWHMDA,与RWRH方法不同的是,RWHMDA保留了疾病和微生物之间多对多的关系。Yan等
[20]提出了一种基于相似性和双随机游走的预测模型BRWMDA来预测潜在的微生物和疾病关联。第三类是基于机器学习的计算模型。例如,Peng等
[21]提出一种基于自适应增强的计算模型ABHMDA来预测微生物与疾病的关联关系,该模型利用由具有相应权重的弱分类器组成的强分类器来计算微生物与疾病的关联概率。Wang等
[22]基于拉普拉斯正则化最小二乘分类器构建一个半监督计算模型LRLSHMDA来预测微生物与疾病的关联。Liu等
[23]基于图正则化非负矩阵分解提出一个新的计算模型NMFMDA来预测微生物与疾病的关联。尽管这些计算模型能够取得比较稳定的预测性能,但是它们所依赖的已知微生物和疾病关联数据都是基于HMDAD数据库的,该数据库规模较小,所以在预测微生物和疾病的关系时具有一定的局限性。
本文提出一种基于网络嵌入的计算模型(NEMDA)来预测微生物和疾病的关联关系。首先,通过已知的微生物-疾病关联构建一个二分网络,用一种网络嵌入方法-结构深度网络嵌入在该二分网络上学习结点嵌入。其次,计算微生物功能相似性、微生物相互作用谱相似性和疾病语义相似性、基于症状的疾病相似性,分别来表示微生物和疾病的生物学特征,并结合微生物和疾病嵌入特征得到新的特征来表示微生物-疾病对。最后,用深度神经网络构建预测模型,并将该特征作为深度神经网络的输入来计算微生物与疾病的关联概率。实施交叉验证和案例分析来评估NEMDA模型的预测能力。实验结果表明,在不同的参数影响下,NEMDA模型的结果比较稳定,预测性能高于其他6种比较方法。