Prediction of microbial-disease relationship based on structured deep network embedding method

CHEN Yali; LEI Xiujuan

doi:10.15983/j.cnki.jsnu.2023022

Journal of Shaanxi Normal University(Natural Science Edition) >

2023 , Vol. 51 >Issue 5: 11 - 24

DOI: https://doi.org/10.15983/j.cnki.jsnu.2023022

Prediction of microbial-disease relationship based on structured deep network embedding method

CHEN Yali ,
LEI Xiujuan ^,^*

Expand

School of Computer Science,Shaanxi Normal University,Xi’an 710119,Shaanxi,China

Received date: 2022-06-17

Online published: 2023-09-28

Fold

Abstract

Understanding the microbe-disease relationship can not only reveal the pathogenesis of diseases, but also promote the diagnosis and prognosis of diseases.Based on the structured deep network embedding algorithm, a new method (NEMDA) is proposed to identify potential microbial-disease associations. First, by integrating the human microbe-disease association database (HMDAD) and Disbiome databases, the number of microbes and diseases as well as the known microbial-disease associations have been expanded. Next, the structural deep network is embedded to extract features on the microbe-disease bipartite network, and microbe functional similarity, microbe interaction profile similarity, disease semantic similarity and disease symptom similarity are introduced as the biological characteristics of microbes and diseases, respectively. Then, these three characteristics are combined to form the characteristics of the microorganism-disease pair, and the deep neural network model is used to make predictions. Finally, the performance of NEMDA is evaluated through five-fold cross validation and case analysis. Under five-fold cross validation, NEMDA performs well, and its prediction performance is higher than the six comparison methods of KATZMDA, NCPHMDA, LRLHMDA, PBHMDA, NTSHMDA and BRWMDA. The case studies of asthma, inflammatory bowel disease and colorectal cancer further show that NEMDA has good predictive performance. Therefore, NEMDA is an effective tool for predicting microbial-disease associations.

Key words： microbe-disease association; microbe similarity; disease similarity; structural deep network embedding; deep neural network

Cite this article

CHEN Yali , LEI Xiujuan . Prediction of microbial-disease relationship based on structured deep network embedding method[J]. Journal of Shaanxi Normal University(Natural Science Edition), 2023 , 51(5) : 11 -24 . DOI: 10.15983/j.cnki.jsnu.2023022

与人体有关的微生物包含真核生物、古生菌、细菌、真菌和病毒^[1],它们主要寄生在人体的皮肤、生殖器、口腔,特别是肠道^[2]等部位。研究发现,微生物在人体中的数量大约为细胞数量的10倍^[3],这表明人体内微生物群落相对庞大。

许多研究表明,微生物群落与复杂疾病有关。例如,肠道内细菌可通过对肠黏膜上皮细胞作用,如影响DNA完整性、调节免疫反应、诱导炎症反应等,促进结直肠癌发生^[4⇓-6]。孤独症患者的肠道菌群和正常人有着显著的区别,其中白色念珠菌和一些促进炎症发生的梭菌水平明显升高。而且,胃肠道感染破伤风梭菌会增加孤独症的患病风险,这种梭菌会释放神经毒素,而毒素可能会通过迷走神经传递到大脑,从而引起孤独症的症状^[7⇓-9]。对于帕金森患者而言,其肠道内的肠杆菌科越高,症状往往就越严重^[10]。因此,确定微生物与疾病之间的关系已成为当前生物信息学领域的一个重要研究课题。

考虑到微生物与人类疾病的紧密关系。国内外研究者已经启动了许多有关微生物和疾病研究的项目并且建立了相关数据库。为了能够系统地了解微生物组成及其在疾病中的重要性,美国和欧盟联合发起了一项人类微生物组计划(human microbiome project,HMP)^[11]。此外,还建立了人类微生物-疾病关联数据库(human microbe-disease association database,HMDAD),该数据库目前包括39种疾病、292种微生物以及483种微生物与疾病的关联^[12]。通过生物医学实验验证来确定微生物与疾病之间的关系是一项费力且昂贵的工作。因此,基于HMDAD数据库,人们提出了多种计算模型用于预测微生物与疾病的关联关系。这些模型大致可以分为三类:第一类是基于评分函数的计算模型。例如,Chen等^[12]基于KATZ度量提出了预测微生物-疾病关系的第一个模型KATZHMDA,该模型根据微生物-疾病网络中两个结点间的行走步长和行走次数来计算这两个结点的关联概率。Li等^[13]提出了一种基于双向加权网络的计算模型BWNMHMDA来预测微生物-疾病关系,与KATZHMDA不同的是,该计算模型在计算结点间的相似性时考虑了路径的起点和终点。Bao等^[14]提出了一种基于网络一致性投影的计算模型NCPHMDA来预测微生物-疾病关联。Huang等^[15]提出了一种基于深度优先搜索算法的计算模型PBHMDA来预测与疾病有关的潜在微生物。虽然上述方法都获得了比较好的预测效果,但绝大多数与疾病相关的微生物还是未知的。因此,Fan等^[16]通过整合多源数据和基于路径的HeteSim评分,建立了一个预测微生物-疾病关联的新模型MDPH_HMDA。第二类是基于网络算法的模型。例如,Shen等^[17]提出了一种异构网络上的随机游走算法RWRH来预测微生物和疾病的关联。Luo等^[18]提出了一种基于随机游走的计算模型NTSHMDA,与RWRH方法不同的是,该计算模型结合了网络拓扑相似性,将异构网络上微生物与疾病的关联分配不同的权重。Niu等^[19]提出了一种在超图上进行随机游走的计算模型RWHMDA,与RWRH方法不同的是,RWHMDA保留了疾病和微生物之间多对多的关系。Yan等^[20]提出了一种基于相似性和双随机游走的预测模型BRWMDA来预测潜在的微生物和疾病关联。第三类是基于机器学习的计算模型。例如,Peng等^[21]提出一种基于自适应增强的计算模型ABHMDA来预测微生物与疾病的关联关系,该模型利用由具有相应权重的弱分类器组成的强分类器来计算微生物与疾病的关联概率。Wang等^[22]基于拉普拉斯正则化最小二乘分类器构建一个半监督计算模型LRLSHMDA来预测微生物与疾病的关联。Liu等^[23]基于图正则化非负矩阵分解提出一个新的计算模型NMFMDA来预测微生物与疾病的关联。尽管这些计算模型能够取得比较稳定的预测性能,但是它们所依赖的已知微生物和疾病关联数据都是基于HMDAD数据库的,该数据库规模较小,所以在预测微生物和疾病的关系时具有一定的局限性。

本文提出一种基于网络嵌入的计算模型(NEMDA)来预测微生物和疾病的关联关系。首先,通过已知的微生物-疾病关联构建一个二分网络,用一种网络嵌入方法-结构深度网络嵌入在该二分网络上学习结点嵌入。其次,计算微生物功能相似性、微生物相互作用谱相似性和疾病语义相似性、基于症状的疾病相似性,分别来表示微生物和疾病的生物学特征,并结合微生物和疾病嵌入特征得到新的特征来表示微生物-疾病对。最后,用深度神经网络构建预测模型,并将该特征作为深度神经网络的输入来计算微生物与疾病的关联概率。实施交叉验证和案例分析来评估NEMDA模型的预测能力。实验结果表明,在不同的参数影响下,NEMDA模型的结果比较稳定,预测性能高于其他6种比较方法。

1 材料和方法

本文提出NEMDA模型来预测微生物-疾病的关联,图1为NEMDA模型的总体框架图,该模型主要由3个步骤构成:首先,整合HMDAD和Disbiome数据库,将得到的已知微生物-疾病关联构建一个二分网络;然后,在该二分网络上使用结构深度网络嵌入(structural deep network embedding,SDNE)提取结点特征,结合微生物功能相似性、微生物相互作用谱相似性以及疾病语义相似性、基于症状的疾病相似性得到微生物-疾病对的特征;最后,使用得到的微生物-疾病对的特征训练深度神经网络(deep neural network,DNN)模型,来预测新的微生物-疾病关联。

显示原图|下载原图ZIP|生成PPT

图1 NEMDA模型的框架图

注:网络版为彩图。

Fig.1 Framework diagram of NEMDA model

1.1 材料

1.1.1 人类微生物-疾病关联

本文使用的数据来自2个数据库:一个是人类微生物-疾病关系数据库^[24](HMDAD, http://www.cuilab.cn/hmdad),该数据库包含39种疾病、292种微生物以及483个经实验验证微生物-疾病关联。另一个是Disbiome数据库^[25](https://disbiome.ugent.be/),该数据库不断更新并收录微生物-疾病关系数据,截至2020年12月,该数据库从已知文献以及不同的数据库中共收集了350种疾病和1 581种微生物以及8 695个经实验验证的微生物-疾病关联。本文对这2个数据库进行整合,以扩大已知的微生物-疾病关联。首先,根据不同的证据以及检测方法,一个微生物-疾病对可能会被多次记录,因此需要过滤掉这些重复的记录。其次,由于一些疾病会存在多个名称,但是它们拥有相同的概念唯一标识符(concept unique identifier, CUI),比如Liver cirrhosis和Cirrhosis是肝硬化的两种不同形式,但它们的CUI号均为C4228437。因此,在整合数据时,需要对其进行标准化以避免重复。综上,本文首先在NCI Metathesaurus(NCIm) 数据网站对所有的疾病搜索对应的CUI号;其次,对所有疾病-微生物关联根据疾病的CUI号去冗余;最后,共得到254种疾病、1 519种微生物以及7 258个微生物-疾病关联。本文进一步构建微生物-疾病关联邻接矩阵B∈

R n m × n d

,其中,n_m表示微生物的数量,n_d表示疾病的数量,如果微生物结点m(i)和疾病结点d(j)有已知的关联,则B_ij=1,否则B_ij=0。

1.1.2 疾病语义相似性

依据文献[27]的方法,本文计算两种疾病的语义相似性。具体来讲,基于MeSH描述符,每种疾病可以通过有向无环图(directed acyclic graph,DAG,记作G_DA)表示。对于疾病d而言,其有向无环图可描述为G_DA=(d,T_d,E_d),其中T_d表示包括d在内的所有祖先结点集合,E_d表示相应的边集合。在G_DA中,疾病a对于疾病d的语义贡献值定义为

(1)

D d (a) = 1, 若 a = d, D d (a) = m a x {Δ × D d (a') | a' ∈ a}, 若 a ≠ d 。

式中:Δ是语义贡献因子,用来表示E_d集合中连接疾病a和疾病a'的边的权重。通常情况下,在G_DA_d中,距离d越远的疾病,它的语义贡献值越小。在这里,Δ设置为0.5,a、a'∈T_d。疾病d的语义计算公式为

(2)V_D(d)=

∑ a ∈ T d

D_d(a)。

如果在两个疾病的DAG中,祖先结点的交集越多,则表明这两种疾病越相似,基于这样的假设,疾病d_i和d_j的语义相似性可定义为

(3)

S D s e m

(d_i,d_j)=

∑ a ∈ T d i ⋂ T d j (D d i (a) + D d j (a)) V D (d i) + V D (d j)

。

式中:

D d i

(a)和

D d j

(a)分别表示a对疾病d_i和d_j的语义贡献;V_D(d_i)和V_D(d_j)分别表示疾病d_i和d_j的语义值。

1.1.3 基于症状的疾病相似性

Zhou等^[26]提出一种基于症状的人类疾病网络模型,该模型可以根据PubMed中的症状和疾病信息来计算疾病相似性。因此,本文将基于症状的疾病相似度(

S D s y m

)引入NEMDA模型中来计算疾病的相似度。

1.1.4 微生物功能相似性

本文使用misim^[27]方法来计算微生物的功能相似性。假设d_k为一个特定的疾病,那么D_K={

d k 1

d k 2

,…,

d k m

}是表示与微生物相关的一组疾病。根据1.1.2,疾病d_k与D_K的语义相似性可定义为

(4)S_D(d_k,D_K)=

m a x 1 ≤ i ≤ m

(S_D(d_k,

d k i

)),

式中m是指与微生物相关的疾病个数。

假设

D K 1

是表示与微生物m₁相关的一组疾病集合,

D K 2

是表示与微生物m₂相关的一组疾病集合,则微生物m₁和m₂的功能相似性

S M M

(m₁,m₂)可定义为

(5)

S M M

(m₁,m₂)=

∑ 1 ≤ i ≤ m S D (d k 1 i, D K 2) + ∑ 1 ≤ j ≤ n S D (d k 2 j, D K 1) m + n

。

1.1.5 微生物相互作用谱相似性

基于相似微生物更倾向于与相似的疾病有关的假设^[28],本文进一步构建了微生物的Jaccard相似性。对于一个具体的微生物m_i,它的相互作用谱向量定义为P(m_i),该向量表示微生物m_i与所有疾病的相互作用关系,如果某一疾病与微生物m_i有已知关联,则P(m_i)相对应位置的值为1,否则为0。

Jaccard相似性是一种常用的统计方法,可用于计算两个样本之间的相似性。因此,这里采用Jaccard相似性来表示微生物m_i和m_j的相互作用谱相似性,其可定义为

(6)

S M J

(m_i,m_j)=

P (m i) ⋂ P (m j) | P (m i) ⋃ P (m j) |

。

式中:P(m_i)和P(m_j)分别表示微生物m_i和m_j的相互作用谱向量;

S M J

(m_i, m_j)表示微生物m_i和m_j的相互作用谱相似性。

1.1.6 疾病的生物学特征表示

为了更加充分地利用疾病语义相似性和基于症状的疾病相似性,本文通过整合这两种相似性来表示最终的疾病相似性,则对于疾病d_i和d_j来说,其相似性定义为

(7)S_D(d_i,d_j)=

S D s e m (d i, d j) + S D s y m (d i, d j) 2

式中

S D s e m

(d_i,d_j)和

S D s y m

(d_i,d_j)分别表示疾病的语义相似性和症状相似性。所有疾病的相似性值可以表示为一个n_d×n_d维的矩阵S_D,并且S_D的第i行和第j列的值表示疾病d_i和d_j的语义相似性。对于一个特定疾病d_i,用S_D的第i行向量

S D i

来表示它的生物学特征。

1.1.7 微生物的生物学特征表示

与疾病类似,通过整合微生物的功能相似性和相互作用谱相似性来表示微生物的最终相似性,则微生物m_i和m_j的相似性定义为

(8)

S M M

(m_i,m_j)=

S M M (m i, m j), S M M (m i, m j) ≠ 0, S J M (m i, m j), S M M (m i, m j) = 0 。

式中

S M M

(m_i,m_j)和

S M J

(m_i,m_j)分别表示微生物的功能相似性和相互作用谱相似性。所有微生物的功能相似性可以表示为一个n_m×n_m的矩阵S_M,S_M的第i行和第j列对应的值表示微生物m_i和m_j之间的相似性。对于一个具体的微生物m_i,使用S_M的第i行向量S_M_i来表示它的生物学特征。

1.1.8 微生物-疾病对的特征表示

在微生物-疾病关系预测问题上,多数研究依赖于微生物和疾病的生物学特征,如微生物功能相似性、疾病语义相似性和基于症状的疾病相似性,很少有研究考虑在微生物-疾病二分网络上提取特征。考虑到在二分图上提取特征有利于保持网络性质,本文从已知的微生物-疾病关联网络中学习特征。因此,本文使用3种类型的特征向量表示微生物-疾病对,一种是基于微生物相似性的特征向量,一种是基于疾病相似性的特征向量,还有一种是基于结构深度网络嵌入学习得到的特征向量。

1.2 方法

1.2.1 基于SDNE网络嵌入的特征提取

近年来,图嵌入^[29⇓-31]即网络表征学习成为复杂网络分析方面的研究重点,其目的是用一个低维、稠密的向量去表示图中的点,并且该向量能够反映网络的结构。本质上来说,网络中的两个结点共享的邻近结点越多,即这两个结点的上下文越相似,两个结点对应的低维向量距离越近。图嵌入的最大好处是可以将学习到的向量输入到任何机器学习模型去解决具体问题。基于此,越来越多的人将图嵌入方法应用到各个研究领域,目前应用比较广的领域有推荐、链路预测、结点分类等。常用的图嵌入方法有DeepWalk^[32]、LINE^[33]、Node2vec^[34]、SDNE^[35]等。与其他嵌入方法相比,SDNE不进行随机游走,在实践中比较稳定。因此,本文使用SDNE在已知微生物-疾病网络中学习结点的特征。

本文利用n_m个微生物、n_d个疾病和已知的微生物-疾病关联构建一个二分网络。其中,微生物和疾病看作结点,它们之间的关联看作边。该网络对应的邻接矩阵记为G=

0 B B T 0

,它是(n_m+n_d)×(n_m+n_d)维的。为了捕获网络结构中的高度非线性关系,SDNE使用一种深层模型对网络进行向量表示。整个模型可以被分为无监督和有监督两个部分:无监督部分是用一个深层自编码器来捕获二阶相似性,有监督部分是用拉普拉斯矩阵映射捕获一阶相似性。SDNE算法将深层自编码器的中间层作为结点的网络表示。

一阶相似性是指成对结点之间的相似性或者结点与其邻近结点的相似性。本文用邻接矩阵G中的某一行G_i={G_i₁,G_i₂,…,

G i (n m + n d)

}表示结点i与其他结点之间的相似度。如果G_ij>0,表示结点i、j之间存在正的一阶相似性,否则结点i、j之间的一阶相似性为0。二阶相似性是指一对结点的邻域结构的接近程度,它刻画的是G_i、G_j之间的相似性。SDNE在微生物-疾病关联网络提取特征的框架如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 SDNE提取特征示意图

注:网络版为彩图。

Fig.2 Schematic diagram of SDNE feature extraction

将结点向量G_i作为模型的输入,通过自编码器对其进行降维压缩,表示为Z_i,然后再重建特征,其损失函数定义为

(9)L=

∑ i = 1 (n m + n d)

‖G_i'-G_i

‖ 22

。

值得注意的是,邻接矩阵G是一个稀疏阵,其中零元素的个数远远多于非零元素的个数,如果直接将G作为自动编码器的输入,则更容易重构G中的零元素。为了解决这个问题,文献[33]使用带权损失函数,对于非零元素具有更高的惩罚系数。修改后的损失函数为

(10)$\begin{aligned}L_{2}= & \sum_{i=1}^{\left(n_{\mathrm{m}}+n_{\mathrm{d}}\right)}\left\|\left(\boldsymbol{G}_{i}{ }^{\prime}-\boldsymbol{G}_{i}\right) \odot \boldsymbol{b}_{i}\right\|_{2}^{2}= \\& \left\|\left(\boldsymbol{G}^{\prime}-\boldsymbol{G}\right) \odot \boldsymbol{B}\right\|_{\mathrm{F}}^{2} 。\end{aligned}$

式中:G_i、G_i'分别表示邻接矩阵第i行以及相对应的重构向量;G=(G₁,G₂,G₃,…,

G (n m + n d)

)^T;G'=(G₁',G₂',G₃',…,G

' (n m + n d)

)^T;☉表示哈达玛乘积;B是惩罚系数矩阵;b_i表示矩阵B的第i行,b_i={b_ij

} j = 1 (n m + n d)

。对于b_ij的取值,如果G_ij=0,那么b_ij=1,否则b_ij=β,这里β是一个自由参数,且β>1。由于输入的是邻接矩阵,所以此做法能够使得邻域结构相似的结点具有相似的嵌入表示向量。因此,实际上通过特征重构学习到的是二阶相似性,保持了全局网络结构。

与LINE类似,SDNE也想保持一阶和二阶相似性,并且将两者同时优化,以便同时捕获局部成对相似性和结点邻域结构相似性。对于一阶相似性的计算,首先利用深层自编码器得到隐层向量Z,其次计算左侧嵌入Z_i和右侧嵌入Z_j之间的距离。因此,损失函数定义为

(11)L₁=

∑ i, j = 1 n m + n d

G_ij‖Z_i-Z_j

‖ 22

式中Z_i和Z_j分别表示结点i、j的低维嵌入向量。

SDNE为了保证一阶相似性和二阶相似性,提出了半监督学习的方法,结合上面的监督学习和无监督学习,联合后的损失函数为

(12)$\begin{aligned}L_{\text {mix }}= & L_{2}+\alpha L_{1}+\gamma L_{\mathrm{reg}}=\left\|\left(\boldsymbol{G}^{\prime}-\boldsymbol{G}\right) \odot \boldsymbol{B}\right\|_{\mathrm{F}}^{2}+ \\& \alpha \sum_{i, j=1}^{n_{\mathrm{m}}+n_{\mathrm{d}}} G_{i j}\left\|\boldsymbol{Z}_{i}-\boldsymbol{Z}_{j}\right\|_{2}^{2}+\gamma L_{\mathrm{reg}}。\end{aligned}$

式中:α为控制一阶损失的参数;γ为控制正则化项的参数;L_reg是一个L₂范数正则化项,用来防止过拟合,其计算公式为

(13)L_reg=

12 ∑ k = 1 K

(‖W⁽^k⁾

‖ F 2

+‖W^'⁽^k⁾

‖ F 2

)。

式中:K表示隐层的个数;W⁽^k⁾和W^'⁽^k⁾分别表示编码器和解码器第k层的权重向量。

将SDNE方法应用到微生物-疾病二分网络上,可以得到一个(n_m+n_d)×d的嵌入矩阵M_D,其中d表示结点嵌入的维数,M_D的每一行

M D i

,i=1,2,…,(n_m+n_d)表示相应的n_m个微生物结点和n_d个疾病结点的嵌入表示。

1.2.2 关系预测

DNN模型由三部分组成:一个输入层、多个隐藏层、一个输出层^[36⇓-38]。输入层接收DNN的输入,通过多个隐藏层以非线性方式进行转化,最后输出到输出层。每个隐藏层都应该根据前一层的输出提取更多概括性的特征,因此DNN在分类问题上表现出优越的区分能力^[39⇓-41]。本文将微生物-疾病预测问题转化为二分类问题,将从SDNE输出的特征与微生物和疾病的生物学特征结合得到(2d+n_m+n_d)维的特征向量,并将这些特征输入到DNN中,以训练模型。训练结束后,如果给定微生物-疾病对的预测概率超过阈值,则说明存在相应的微生物-疾病关联。

对于DNN网络结构的设计,本文使用一种常见的塔模型结构,其中隐藏层第一层的神经元最多,下一层的神经元少于上一层。当前层h的每一个神经元连接上一层h-1的所有神经元,每个隐藏层的输出可以用以下公式计算:

(14)x_i₊₁=σ

∑ i = 1 n (w i x i + b i)

。

式中:x_i、x_i₊₁分别表示第i、i+1个隐藏层的输出;w_i、b_i分别表示第i个隐藏层对应的权重和偏置。在输入层和隐藏层,使用ReLU激活函数。在输出层,使用Sigmoid激活函数,得到每一个标签对应的概率值。这里使用均方误差作为损失函数,Adadelta优化算法用于最小化损失函数。为避免过拟合,将Dropout用于输入层和隐藏层,根据经验,本文将Dropout取值为0.5。

2 结果分析

本文将通过交叉验证和案例分析来验证NEMDA模型的预测性能,并与4种分类器以及6种预测方法进行对比。此外,还对NEMDA模型中的一些参数进行分析。

2.1 评价指标

受试者工作特征(receiver operating characteristic,ROC)曲线反映的是真实工作率(true positive rate,TPR,记作R_TP)和错误工作率(false positive rate,FPR,记作R_FP)之间的关系,该曲线的横坐标表示错误工作率,纵坐标表示真实工作率。R_TP和R_FP分别依据公式(12)和(13)进行计算:

(15)R_TP=

T P T P + F N

(16)R_FP=

T N T N + F P

。

式中:T_P和T_N分别表示预测正确的正样本和负样本;F_P和F_N分别表示预测错误的正样本和负样本。通常用ROC曲线下的面积(area under ROC curve,AUC,记作A_UC)来评估模型的预测性能,AUC值越高,模型的性能越好。

PR曲线表示的是精准率(precision,记作P_r)和召回率(recall,记作R_c)之间的关系,它的横坐标表示召回率,纵坐标表示精准率。PR曲线下的面积(area under PR curve,AUPR,记作A_UPR)可以用来评估模型的预测性能,AUPR值越大,表明模型的预测性能越好。通过设置不同的阈值可以计算P_r和R_c的值,计算公式如下:

(17)P_r=

T P T P + F P

(18)R_c=

T P T P + F N

。

这里,参数T_P、F_P和F_N的定义与上面一致。

2.2 参数分析

一些重要的参数会影响模型的性能,本文主要针对从SDNE中提取的特征维数,以及DNN层数进行参数敏感性分析。设置SDNE特征维数依次为32、64、96、128、160;设置DNN隐藏层神经元的个数依次为1 024、512、256、128、64等,隐藏层层数依次为2、3、4、5、6。本文采用五折交叉验证并且综合考虑SDNE特征维数和隐藏层层数对于NEMDA模型性能的影响,具体做法如下:采用网格搜索穷举遍历所有的参数组合,并计算每组参数值对应的AUC值。

从图3可以看出,随着特征维数的增加,NEMDA模型的性能会提高,因为维数增加可以编码更多有用的信息。但是,当维数超过128,再增加特征维数时,NEMDA模型的AUC值逐渐减小,预测性能开始缓慢下降。产生这一结果的原因可能是特征维数过大,导致在编码时引入了一些噪声。此外,隐藏层层数在一定程度上也影响NEMDA模型的性能;随着隐藏层层数增加,模型的性能大多呈下降趋势。当SDNE嵌入特征维数设置为128、隐藏层层数设置为3时,NEMDA模型的性能最好。因此,在实验中将特征的维数设置为128,隐藏层层数设置为3。

显示原图|下载原图ZIP|生成PPT

图3 综合考虑SDNE嵌入维数和隐藏层层数对于NEMDA预测性能的五折交叉验证

注:网络版为彩图。

Fig.3 Cross validation of NEMDA prediction performance considering SDNE embedding dimension and number of hidden layers comprehensively

2.3 不同类型特征的比较

在NEMDA中,本文结合SDNE得到的嵌入特征和微生物与疾病的相似性特征来表示微生物-疾病对的特征,然后使用DNN进行预测。为了验证本文使用的特征表示信息的有效性,这里分别将结合后的特征、SDNE得到的特征以及相似性特征作为微生物-疾病对的特征,讨论它们各自对NEMDA模型性能的影响。在五折交叉验证下,实验得到的ROC曲线和PR曲线如图4、5所示。将结合后的特征(红线表示)与仅使用相似性特征(蓝线表示)的结果进行对比,说明SDNE得到的嵌入特征能够提高模型的预测性能;将结合后的特征(红线表示)与仅使用SDNE得到的特征(绿线表示)的结果进行对比,说明结点的相似性特征对于提高模型的预测性能是非常重要的。综上,结合SDNE得到的嵌入特征和微生物与疾病的相似性特征来共同表示微生物-疾病对的特征时,NEMDA模型可以获得更好的预测性能。

显示原图|下载原图ZIP|生成PPT

图4 五折交叉验证下不同类型特征比较的ROC曲线

注:网络版为彩图。

Fig.4 ROC curves for comparing different types of features under cross validation

显示原图|下载原图ZIP|生成PPT

图5 五折交叉验证下不同类型特征比较的PR曲线

注:网络版为彩图。

Fig.5 PR curves for comparing different types of features under cross validation

2.4 与其他分类器比较

本文使用DNN模型作为分类器来预测微生物-疾病的关联关系,为了评估该模型的性能,将DNN模型与一些常用的分类器算法进行比较,包括线性回归(Linear regression)、逻辑回归(Logistic regression)、自适应增强(AdaBoost)和梯度下降树(gradient boosting decision tree,GBDT)。

通过五折交叉验证来评估各个分类器的预测性能,结果如图6、7所示。使用DNN模型(A_UC=0.916 8,A_UPR=0.159 8)作为分类器的预测效果比使用线性回归(A_UC=0.882 5,A_UPR=0.061 1)、逻辑回归(A_UC=0.855 6,A_UPR=0.117 8)、自适应增强(A_UC=0.819 6,A_UPR=0.107 5)、梯度下降树(A_UC=0.903 7,A_UPR=0.156 7)好,结果表明DNN模型适合解决微生物-疾病预测问题。

显示原图|下载原图ZIP|生成PPT

图6 五折交叉验证下不同分类器性能比较的ROC曲线

注:网络版为彩图。

Fig.6 ROC curves for comparing the performance of different classifiers under cross validation

显示原图|下载原图ZIP|生成PPT

图7 五折交叉验证下不同分类器性能比较的PR曲线

注:网络版为彩图。

Fig.7 PR curves for comparing the performance of different classifiers under cross validation

2.5 与其他方法比较

为了评估NEMDA模型的预测性能,本文将其与一些经典的微生物-疾病预测方法进行对比,包括KATZHMDA^[12]、NCPHMDA^[14]、LRLSMDA^[22]、PBHMDA^[15]、NTSHMDA^[18]和BRWMDA^[20]。通过五折交叉验证来评估NEMDA模型与其他6种比较方法的预测性能,比较结果如图8、图9所示。6种比较方法的AUC值分别是KATZHMDA(0.672 9)、NCPHMDA(0.733 7)、LRLSHMDA(0.866 4)、PBHMDA(0.878 4)、NTSHMDA(0.675 8)、BRWMDA(0.819 1),本文方法的AUC值为0.916 8,高于6种比较方法的AUC值。6种比较方法的AUPR值分别是KATZHMDA(0.056 3)、NCPHMDA(0.104 2)、LRLSHMDA(0.144 4)、PBHMDA(0.165 9)、NTSHMDA(0.068 7)、BRWMDA(0.072 1),本文方法的AUPR值为0.159 8,高于6种比较方法的AUPR值。由于本文所用的数据集是对HMDAD数据库和Disbiome数据库的整合,即将之前HMDAD数据库中的39种疾病、292种微生物以及450个已知的关联关系扩充到254种疾病、1 516种微生物以及7 190个已知的微生物-疾病关联,因此相比之前的邻接矩阵,本文的邻接矩阵变得非常大且稀疏,所以KATZHMDA、 NCPHMDA和NTSHMDA方法的效果并不是很理想;LRLSHMDA方法作为一种机器学习的方法,本身就适用于大数据集,所以预测效果比较好;而PBHMDA方法是对微生物-疾病网络进行深度优先搜索,从而捕获更加有用的信息,所以PBHMDA方法的预测效果也比较好。实验结果表明,本文提出的NEMDA模型在微生物-疾病预测问题上表现良好,是一种有效的预测工具。

显示原图|下载原图ZIP|生成PPT

图8 五折交叉验证下不同方法的AUC值和ROC曲线

注:网络版为彩图。

Fig.8 AUC values and ROC curves of different methods under cross validation

显示原图|下载原图ZIP|生成PPT

图9 五折交叉验证下不同方法的AUPR值和PR曲线

注:网络版为彩图。

Fig.9 AUPR values and PR curves of different methods under cross validation

2.6 案例分析

为了进一步评估NEMDA方法在识别新的微生物-疾病关联的预测能力,本文分别对哮喘、炎症性肠病(inflammatory bowel disease,IBD)和结直肠癌(colorectal cancer,CRC)这3种疾病进行案例分析。对于每一种疾病,首先删除与该疾病具有已知关联的微生物,然后根据NEMDA对候选微生物的预测得分进行降序排序,最后验证前20种微生物与所研究疾病之间的关联是否被相关文献证实。

哮喘是一种以慢性气道炎症为特征的异质性疾病^[42]。全球大约有3亿多人患有哮喘,而且在1990—2015年期间,哮喘的发病率增加了12.6%^[43]。随着16rRNA测序技术的发展,人们已经发现哮喘和微生物组之间有着重要的关系。在本文中,当采用NEMDA预测潜在的微生物-疾病关联时,前20名候选微生物中有12个被PubMed中的相关文献验证(如表1所示)。例如,在哮喘患者和健康对照组的痰液对比中发现,在哮喘患者肠道内,Lachnospiraceae(第1)^[44]、Actinobacteria (第17)^[45]过度表达,Sutterella相对丰度降低。此外,有实验证明梭状芽胞杆菌,包括Ruminococcus、Blautia(第3)、Clostridium和Subdoligranulum(第20)的类群丰富度和丰度与哮喘呈正相关(P<0.05)^[46]。采用16rRNA和定量PCR(qPCR)技术分析3个月大儿童的肠道菌群组成,与健康对照组相比,在哮喘儿童肠道内Clostridium(第5)数量增加^[47],Faecalibacterium prausnitzii(第13)水平降低^[48]。有实验表明,Shigella(第7)在患有固定气道阻塞的哮喘患者的肠道内富集^[49],哮喘的严重程度与粪便中嗜黏液Akkermansia(第15)水平成负相关^[50],在中性粒哮喘病患者中,Porphyromonas(第14)相对丰度降低^[51]。

表1 与哮喘有关的排名前20的微生物

Tab.1 Top 20 microorganisms related to asthma

排名	微生物	证据	排名	微生物	证据
1	Lachnospiraceae	PMID: 27433177	11	Desulfovibrio	未证实
2	Dorea	未证实	12	Escherichia	PMID: 31206804
3	Blautia	PMID: 33221308	13	Faecalibacterium prausnitzii	PMID: 30765132
4	Ruminococcaceae	未证实	14	Porphyromonas	PMID: 28479329
5	Clostridium	PMID: 27634868	15	Akkermansia	PMID: 31836714
6	Megasphaera	PMID: 27093794	16	Megamonas	未证实
7	Shigella	PMID: 29941875	17	Actinobacteria	PMID: 29709671
8	Collinsella	未证实	18	Ruminococcus gnavus	未证实
9	Coprococcus	未证实	19	Lachnoclostridium	PMID: 33709404
10	Phascolarctobacterium	未证实	20	Subdoligranulum	PMID: 33221308

IBD是一种特发性肠道炎症性疾病,主要包括溃疡性结肠炎(ulcerative colitis, UC)和克罗恩病(Crohn disease, CD),临床表现为腹痛、腹泻和血便等,该病很难根治,容易反复发作,有潜在的癌变风险。因此,本文对IBD进行了案例分析,以评估NEMDA对于新的微生物-疾病关联的预测能力。结果如表2所示,在前20个候选微生物中有19个得到相关文献验证。例如,在IBD患者体内Bifidobacterium、Lactobacillus(第1)^[52]和Acinetobacter(第19)^[53]数量增加,但是Roseburia(第4)^[54]和Lachnospiraceae(第3)^[55]相对丰度降低。此外,在IBD患者的唾液微生物群中观察到,Streptococcus(第2)、Prevotella、Neisseria(第18)、Haemophilus、Veillonella(第9)和Gemella在很大程度上导致了菌群失调^[56]。在患有艰难梭菌感染(clostridium difficile infection,CDI)的IBD患者中,Dorea(第8)水平降低^[57]。有实验证明,与健康对照组相比,在CD患者体内,Bacteroides、Eubacterium(第20)、Faecalibacterium和Ruminococcus明显减少,但是Fusobacterium(第11)^[58]、Halomonas、Shewanella和Streptococcus、Actinomyces(第10)^[59]明显增多。在IBD患者粪便中,Shigella(第12)增加,而Akkermansia(第17)^[60]、Firmicutes和Collinsella (第16)^[61]减少。

表2 与炎症性肠病有关的排名前20的微生物

Tab.2 Top 20 microorganisms related to inflammatory bowel disease

排名	微生物	证据	排名	微生物	证据
1	Lactobacillus	PMID: 28294322	11	Fusobacterium	PMID: 31240835
2	Streptococcus	PMID: 24013298	12	Shigella	PMID: 32371134
3	Lachnospiraceae	PMID: 31546058	13	Phascolarctobacterium	PMID: 33352216
4	Roseburia	PMID: 27802154	14	Megasphaera	PMID: 32371134
5	Dialister	未证实	15	Clostridium	PMID: 28785153
6	Pseudomonas	PMID: 31662859	16	Collinsella	PMID: 29049404
7	Haemophilus	PMID: 24013298	17	Akkermansia	PMID: 20648002
8	Dorea	PMID: 28786749	18	Neisseria	PMID: 24013298
9	Veillonella	PMID: 24013298	19	Acinetobacter	PMID: 30519287
10	Actinomyces	PMID: 26789999	20	Eubacterium	PMID: 31337064

CRC是一种常见的恶性肿瘤,每年会导致近70万人死亡,成为全球第四大最常见的致命癌症^[62]。虽然癌症很大程度上是由于遗传和环境因素引起的,但越来越多的证据表明,与人体相关的微生物菌群的失调在形成炎症环境和促进肿瘤生长和扩散方面发挥着作用^[63]。同样地,当采用NEMDA预测新的微生物-疾病关联时,前20个候选微生物中有17个得到相关文献验证(如表3所示)。例如,有研究表明,与CRC相关的基因有LCN2和DUOX2,其基因表达与结直肠癌相关细菌的丰度有关,比如Ruminococcacea和Veillonella(第1)^[64]。此外,Bilophila、Parabacteroides和Odoribacter(第8)与早期发病的CRC有关^[65]。在CRC患者的肠道菌群中,Enterococcus、Escherichia/Shigella(第2)、Klebsiella、Streptococcus和Peptostreptococcaceae(第15)相对丰度增加^[66]。在浸润性CRC患者中,Corynebacterium(第14)、Enterococcus、Neisseria、Porphyromonas和Sclegelella的相对丰度较高^[67]。宏基因组分析表明,CRC患者肠道内的Proteobacteria(第5)和Firmicutes(第16)发生了显著的改变^[68],无高脂血症或高胆固醇血症的CRC患者与Bilophila(第13)和Butyricicoccus(第19)这两种细菌密切相关^[69]。研究者进一步验证CRC与微生物代谢产物之间的关系,通过实验发现,在CRC患者的肠腔内,与代谢紊乱和宿主代谢有关的微生物菌群增加,如Prevotellaceae和Coriobacteriaceae(第11)^[70],并且CRC与微生物代谢物产物具有较强的相关性,主要以Proteobacteria(第5)和Actinobacteria(第18)为主^[71]。

表3 与结直肠癌有关的排名前20的微生物

Tab.3 Top 20 microorganisms associated with colorectal cancer

排名	微生物	证据	排名	微生物	证据
1	Veillonella	PMID: 31992345	11	Coriobacteriaceae	DS
2	Shigella	PMID: 21850056	12	Eggerthella	未证实
3	Clostridium	PMID: 26811603	13	Bilophila	PMID: 30239257
4	Rothia	PMID: 28111632	14	Corynebacterium	PMID: 31609493
5	Proteobacteria	PMID: 32071370	15	Peptostreptococcaceae	PMID: 21850056
6	Subdoligranulum	未证实	16	Firmicutes	PMID: 32071370
7	Ruminococcus gnavus	未证实	17	Oscillospira	PMID: 31358825
8	Odoribacter	PMID: 28153960	18	Actinobacteria	PMID: 27015276
9	Erysipelotrichaceae	PMID: 22761885	19	Butyricicoccus	PMID: 31956438
10	Bacteroidetes	PMID: 31653078	20	Capnocytophaga	PMID: 33860101

3 结语

微生物对于人类健康与疾病起着关键性的作用。微生物-疾病关联不仅可以揭示疾病的发病机理,而且可以促进疾病的诊断和预后,因此对于微生物-疾病关联的研究受到了广泛关注。本文提出一种新的计算模型NEMDA来预测潜在的微生物-疾病关联,五折交叉验证和案例分析结果均表明NEMDA能有效地预测微生物-疾病关联。

NEMDA获得较好的预测性能主要是依赖以下几个方面:第一,整合HMDAM和Disbiome数据库,构建了一个更大的微生物-疾病关联网络,使得NEMDA计算模型能够充分利用已知的关联;第二,使用SDNE在微生物-疾病二分网络上提取特征,充分利用微生物-疾病网络的性质;第三,计算微生物的功能相似性、微生物的相互作用谱相似性和疾病的语义相似性、基于症状的疾病相似性分别表示微生物和疾病的生物学特征,并且结合SDNE从微生物-疾病网络中提取的特征表示微生物-疾病对的特征,然后采用DNN模型进行预测,判断微生物-疾病对是否有关联。

当然,NEMDA仍然存在一些缺陷,需要在未来的工作中解决。比如,本文只用到微生物-疾病组学数据,在未来的工作中还可以整合其他的组学数据,比如疾病与药物组学数据、微生物与药物组学数据等,来提高NEMDA模型的预测性能。由于SDNE运行速度较慢,本文只进行了五折交叉验证,在未来的工作中可以通过改进算法的复杂度来解决此问题。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	METHÉ B A, NELSON K E, POP M, et al. A framework for human microbiome research[J]. Nature, 2012, 486(7402):215-221. DOI

[2]	GRENHAM S, CLARKE G, CRYAN J F, et al. Brain-gut-microbe communication in health and disease[J]. Frontiers in Physiology, 2011, 2:94. DOI PMID

[3]	SENDER R, FUCHS S, MILO R. Revised estimates for the number of human and bacteria cells in the body[J]. PLoS Biology, 2016, 14(8):e1002533.

[4]	SOBHANI I, BERGSTEN E, COUFFIN S, et al. Colorectal cancer-associated microbiota contributes to oncogenic epigenetic signatures[J]. Proceedings of the National Academy of Sciences of the United States of America, 2019, 116(48):24285-24295. DOI PMID

[5]	CHATTOPADHYAY I, DHAR R, PETHUSAMY K, et al. Exploring the role of gut microbiome in colon cancer[J]. Applied Biochemistry and Biotechnology, 2021, 193(6):1780-1799. DOI PMID

[6]	FANG Y K, YAN C, ZHAO Q, et al. The roles of microbial products in the development of colorectal cancer:a review[J]. Bioengineered, 2021, 12(1):720-735. DOI

[7]	PULIKKAN J, MAJI A, DHAKAN D B, et al. Gut microbial dysbiosis in Indian children with autism spectrum disorders[J]. Microbial Ecology, 2018, 76(4):1102-1114. DOI PMID

[8]	CORETTI L, PAPARO L, RICCIO M P, et al. Gut microbiota features in young children with autism spectrum disorders[J]. Frontiers in Microbiology, 2018, 9:3146. DOI PMID

[9]	LEBOYER M. Immune dysfunction in autism spectrum disorder: from gut to brain[J]. Neuropsychopharmacology, 2018, 43: S67.

[10]	LI W, WU X L, HU X, et al. Structural changes of gut microbiota in Parkinson’s disease and its correlation with clinical features[J]. Science China Life Sciences, 2017, 60(11):1223-1233. DOI

[11]	RUP L. The human microbiome project[J]. Indian Journal of Microbiology, 2012, 52(3):315. DOI PMID

[12]	CHEN X, HUANG Y, YOU Z H, et al. A novel approach based on KATZ measure to predict associations of human microbiota with non-infectious diseases[J]. Bioinformatics, 2017, 33(5):733-739. DOI PMID

[13]	LI H, WANG Y Q, JIANG J W, et al. A novel human microbe-disease association prediction method based on the bidirectional weighted network[J]. Frontiers in Microbiology, 2019, 10:676. DOI PMID

[14]	BAO W Z, JIANG Z C, HUANG D S. Novel human microbe-disease association prediction using network consistency projection[J]. BMC Bioinformatics, 2017, 18(S16):543. DOI

[15]	HUANG Z A, CHEN X, ZHU Z X, et al. PBHMDA:path-based human microbe-disease association prediction[J]. Frontiers in Microbiology, 2017, 8:233.

[16]	FAN C Y, LEI X J, GUO L, et al. Predicting the associations between microbes and diseases by integrating multiple data sources and path-based HeteSim scores[J]. Neurocomputing, 2019, 323: 76-85. DOI

[17]	SHEN X, CHEN Y, JIANG X, et al. Prioritizing disease-causing microbes based on random walking on the heterogeneous network[J]. Methods, 2017, 124: 120-125. DOI PMID

[18]	LUO J W, LONG Y H. NTSHMDA:prediction of human microbe-disease association based on random walk by integrating network topological similarity[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2020, 17(4):1341-1351.

[19]	NIU Y W, QU C Q, WANG G H, et al. RWHMDA:random walk on hypergraph for microbe-disease association prediction[J]. Frontiers in Microbiology, 2019, 10:1578. DOI

[20]	YAN C, DUAN G H, WU F X, et al. BRWMDA:predicting microbe-disease associations based on similarities and Bi-random walk on disease and microbe networks[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2020, 17(5):1595-1604.

[21]	PENG L H, YIN J, ZHOU L Q, et al. Human microbe-disease association prediction based on adaptive boosting[J]. Frontiers in Microbiology, 2018, 9:2440. DOI

[22]	WANG F, HUANG Z A, CHEN X, et al. LRLSHMDA:Laplacian regularized least squares for human microbe-disease association prediction[J]. Scientific Reports, 2017, 7:7601. DOI

[23]	LIU Y, WANG S L, ZHANG J F. Prediction of microbe-disease associations by graph regularized non-negative matrix factorization[J]. Journal of Computational Biology, 2018, 25(12): 1385-1394. DOI

[24]	MA W, ZHANG L, ZENG P, et al. An analysis of human microbe-disease associations[J]. Briefings in Bioinformatics, 2017, 18(1):85-97. DOI PMID

[25]	JANSSENS Y, NIELANDT J, BRONSELAER A, et al. Disbiome database:linking the microbiome to disease[J]. BMC Microbiology, 2018, 18(1):50. DOI

[26]	ZHOU X Z, MENCHE J, BARABÁSI A L, et al. Human symptoms-disease network[J]. Nature Communications, 2014, 5:4212. DOI PMID

[27]	WANG D, WANG J, LU M, et al. Inferring the human microRNA functional similarity and functional network based on microRNA-associated diseases[J]. Bioinformatics, 2010, 26(13):1644-1650. DOI PMID

[28]	MA W, ZHANG L, ZENG P, et al. An analysis of human microbe-disease associations[J]. Briefings in Bioinformatics, 2017, 18(1):85-97. DOI PMID

[29]	SU C, TONG J, ZHU Y J, et al. Network embedding in biomedical data science[J]. Briefings in Bioinformatics, 2020, 21(1):182-197. DOI

[30]	祁志卫, 王笳辉, 岳昆, 等. 图嵌入方法与应用:研究综述[J]. 电子学报, 2020, 48(4):808-818. DOI QI Z W, WANG J H, YUE K, et al. Methods and applications of graph embedding:a survey[J]. Acta Electronica Sinica, 2020, 48(4):808-818.

[31]	陈劲松, 孟祥武, 纪威宇, 等. 基于多维上下文感知图嵌入模型的兴趣点推荐[J]. 软件学报, 2020, 31(12):3700-3715. CHEN J S, MENG X W, JI W Y, et al. POI recommendation based on multidimensional context-aware graph embedding model[J]. Journal of Software, 2020, 31(12):3700-3715.

[32]	PEROZZI B, AL-RFOU R, SKIENA S. DeepWalk:online learning of social representations[C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2014:701-710.

[33]	TANG J, QU M, WANG M Z, et al. LINE:large-scale information network embedding[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015:1067-1077.

[34]	GROVER A, LESKOVEC J. Node2vec:scalable feature learning for networks[J]. KDD:Proceedings of International Conference on Knowledge Discovery & Data Mining, 2016, 2016:855-864.

[35]	WANG D X, CUI P, ZHU W W. Structural deep network embedding[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016:1225-1234.

[36]	胡满满, 陈旭, 孙毓忠, 等. 基于动态采样和迁移学习的疾病预测模型[J]. 计算机学报, 2019, 42(10):2339-2354. HU M M, CHEN X, SUN Y Z, et al. A disease prediction model based on dynamic sampling and transfer learning[J]. Chinese Journal of Computers, 2019, 42(10):2339-2354.

[37]	刘梦娟, 曾贵川, 岳威, 等. 基于融合结构的在线广告点击率预测模型[J]. 计算机学报, 2019, 42(7):1570-1587. LIU M J, ZENG G C, YUE W, et al. A hybrid network based CTR prediction model for online advertising[J]. Chinese Journal of Computers, 2019, 42(7):1570-1587.

[38]	孙晓, 潘汀. 基于兴趣区域深度神经网络的静态面部表情识别[J]. 电子学报, 2017, 45(5):1189-1197. DOI SUN X, PAN T. Static facial expression recognition system using ROI deep neural networks[J]. Acta Electronica Sinica, 2017, 45(5):1189-1197. DOI

[39]	YU G X, YANG Y Q, YAN Y Y, et al. DeepIDA:predicting isoform-disease associations by data fusion and deep neural networks[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2022, 19(4):2166-2176. DOI

[40]	DEEPTHI K, JEREESH A S. An ensemble approach for CircRNA-disease association prediction based on autoencoder and deep neural network[J]. Gene, 2020, 762:145040. DOI

[41]	LIU H, ZHANG W H, SONG Y L, et al. HNet-DNN:inferring new drug-disease associations with deep neural network based on heterogeneous network features[J]. Journal of Chemical Information and Modeling, 2020, 60(4):2367-2376. DOI

[42]	LEE Y S, KIM J H, LIM D H. Urine microbe-derived extracellular vesicles in children with asthma[J]. Allergy,Asthma & Immunology Research, 2021, 13(1):75-87.

[43]

SORIANO

J B

, ABAJOBIR

A A

, ABATE

K H

. Global, regional, and national deaths, prevalence, disability-adjusted life years, and years lived with disability for chronic obstructive pulmonary disease and asthma, 1990-2015: a systematic analysis for the Global Burden of Disease Study 2015[J]. Lancet Respiratory Medicine, 2017, 5 (9): 691-706.

DOI PMID

[44]	JUNG J W, CHOI J C, SHIN J W, et al. Lung microbiome analysis in steroid-naïve asthma patients by using whole sputum[J]. Tuberculosis and Respiratory Diseases, 2016, 79(3):165-178. DOI

[45]	MICHAEL G, PANG A, PEE H W, et al. Biological exacerbation clusters demonstrate asthma and chronic obstructive pulmonary disease overlap with distinct mediator and microbiome profiles[J]. Journal of Allergy and Clinical Immunology, 2018, 141(6):2027-2036. DOI

[46]	FU X, LI Y, MENG Y, et al. Derived habitats of indoor microbes are associated with asthma symptoms in Chinese university dormitories[J]. Environmental research, 2021, 194: 110501. DOI

[47]	STIEMSMA L T, ARRIETA M C, DIMITRIU P A, et al. Shifts in Lachnospira and Clostridium sp.in the 3-month stool microbiome are associated with preschool age asthma[J]. Clinical Science, 2016, 130(23):2199-2207. DOI

[48]	DEMIRCI M, TOKMAN H B, UYSAL H K, et al. Reduced Akkermansia muciniphila and Faecalibacterium prausnitzii levels in the gut microbiota of children with allergic asthma[J]. Allergologia et immunopathologia, 2019, 47 (4): 365-371. DOI

[49]	BUENDÍA E, ZAKZUK J, SAN-JUAN-VERGARA H, et al. Gut microbiota components are associated with fixed airway obstruction in asthmatic patients living in the tropics[J]. Scientific Reports, 2018, 8:9582. DOI PMID

[50]	MICHALOVICH D, RODRIGUEZ-PEREZ N, SMOLINSKA S, et al. Obesity and disease severity magnify disturbed microbiome-immune interactions in asthma patients[J]. Nature Communications, 2019, 10:5711. DOI PMID

[51]	TAYLOR S L, LEONG L, CHOO J M, et al. Inflammatory phenotypes in patients with severe asthma are associated with distinct airway microbiology[J]. The Journal of Allergy and Clinical Immunology, 2018, 141 (1): 94-103. DOI PMID

[52]	WANG W, CHEN L P, ZHOU R, et al. Increased proportions of Bifidobacterium and the Lactobacillus group and loss of butyrate-producing bacteria in inflammatory bowel disease[J]. Journal of Clinical Microbiology, 2014, 52(2):398-406. DOI

[53]	EL MOUZAN M I, WINTER H S, ASSIRI A A, et al. Microbiota profile in new-onset pediatric Crohn’s disease:data from a non-western population[J]. Gut Pathogens, 2018, 10:49. DOI

[54]	IMHANN F, VICH VILA A, BONDER M J, et al. Interplay of host genetics and gut microbiota underlying the onset and clinical presentation of inflammatory bowel disease[J]. Gut, 2018, 67(1):108-119. DOI PMID

[55]	ZHUANG X J, LIU C G, ZHAN S K, et al. Gut microbiota profile in pediatric patients with inflammatory bowel disease:a systematic review[J]. Frontiers in Pediatrics, 2021, 9:626232. DOI

[56]	SAID H S, SUDA W, NAKAGOME S, et al. Dysbiosis of salivary microbiota in inflammatory bowel disease and its association with oral immunological biomarkers[J]. DNA Research, 2014, 21(1):15-25. DOI PMID

[57]	SOKOL H, JEGOU S, MCQUITTY C, et al. Specificities of the intestinal microbiota in patients with inflammatory bowel disease and Clostridium difficile infection[J]. Gut Microbes, 2018, 9(1):55-60. DOI

[58]	WENG Y J, GAN H Y, LI X, et al. Correlation of diet,microbiota and metabolite networks in inflammatory bowel disease[J]. Journal of Digestive Diseases, 2019, 20(9):447-459. DOI

[59]	TAKAHASHI K, NISHIDA A, FUJIMOTO T, et al. Reduced abundance of butyrate-producing bacteria species in the fecal microbial community in Crohn’s disease[J]. Digestion, 2016, 93(1):59-65. DOI

[60]	CHEN D, CHEN G, CHEN C, et al. Prebiotics effects in vitro of polysaccharides from tea flowers on gut microbiota of healthy persons and patients with inflammatory bowel disease[J]. International Journal of Biological Macromolecules, 2020, 158: 968-976 DOI

[61]	SJÖBERG F, BARKMAN C, NOOKAEW I, et al. Low-complexity microbiota in the duodenum of children with newly diagnosed ulcerative colitis[J]. PLoS One, 2017, 12(10):e0186178.

[62]	BRODY H. Colorectal cancer[J]. Nature, 2015, 521(7551):S1. DOI

[63]	BRENNAN C A, GARRETT W S. Gut microbiota,inflammation and colorectal cancer[J]. Annual Review of Microbiology, 2016, 70:395-411. DOI

[64]	DAYAMA G, PRIYA S, NICCUM D E, et al. Interactions between the gut microbiome and host gene regulation in cystic fibrosis[J]. Genome Medicine, 2020, 12(1):12. DOI PMID

[65]	YAZICI C, WOLF P G, KIM H, et al. Race-dependent association of sulfidogenic bacteria with colorectal cancer[J]. Gut, 2017, 66(11):1983-1994. DOI

[66]	WANG T T, CAI G X, QIU Y P, et al. Structural segregation of gut microbiota between colorectal cancer patients and healthy volunteers[J]. The ISME Journal, 2012, 6(2):320-329. DOI

[67]	PU L Z C T, YAMAMOTO K, HONDA T, et al. Microbiota profile is different for early and invasive colorectal cancer and is consistent throughout the colon[J]. Journal of Gastroenterology and Hepatology, 2020, 35(3):433-437. DOI PMID

[68]	KIM D J, YANG J, SEO H, et al. Colorectal cancer diagnostic model utilizing metagenomic and metabolomic data of stool microbial extracellular vesicles[J]. Scientific Reports, 2020, 10:2860. DOI PMID

[69]	HAN S W, PAN Y F, YANG X, et al. Intestinal microorganisms involved in colorectal cancer complicated with dyslipidosis[J]. Cancer Biology & Therapy, 2019, 20(1):81-89.

[70]	CHEN W G, LIU F L, LING Z X, et al. Human intestinal lumen and mucosa-associated microbiota in patients with colorectal cancer[J]. PLoS One, 2012, 7(6):e39743.

[71]	SINHA R, AHN J, SAMPSON J N, et al. Fecal microbiota,fecal metabolome and colorectal cancer interrelations[J]. PLoS One, 2016, 11(3):e0152126.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 材料和方法

图1 NEMDA模型的框架图

1.1 材料

1.1.1 人类微生物-疾病关联

1.1.2 疾病语义相似性

1.1.3 基于症状的疾病相似性

1.1.4 微生物功能相似性

1.1.5 微生物相互作用谱相似性

1.1.6 疾病的生物学特征表示

1.1.7 微生物的生物学特征表示

1.1.8 微生物-疾病对的特征表示

1.2 方法

1.2.1 基于SDNE网络嵌入的特征提取

图2 SDNE提取特征示意图

1.2.2 关系预测

2 结果分析

2.1 评价指标

2.2 参数分析

图3 综合考虑SDNE嵌入维数和隐藏层层数对于NEMDA预测性能的五折交叉验证

2.3 不同类型特征的比较

图4 五折交叉验证下不同类型特征比较的ROC曲线

图5 五折交叉验证下不同类型特征比较的PR曲线

2.4 与其他分类器比较

图6 五折交叉验证下不同分类器性能比较的ROC曲线

图7 五折交叉验证下不同分类器性能比较的PR曲线

2.5 与其他方法比较

图8 五折交叉验证下不同方法的AUC值和ROC曲线

图9 五折交叉验证下不同方法的AUPR值和PR曲线

2.6 案例分析

表1 与哮喘有关的排名前20的微生物

表2 与炎症性肠病有关的排名前20的微生物

表3 与结直肠癌有关的排名前20的微生物

3 结语

References