Multimodal data with contrastive learning for major depression disorder representation learning

GU Heng; MA Di; MA Yue; SHAO Wei; ZHANG Li

doi:10.15983/j.cnki.jsnu.2025002

Journal of Shaanxi Normal University(Natural Science Edition) >

2025 , Vol. 53 >Issue 1: 12 - 21

DOI: https://doi.org/10.15983/j.cnki.jsnu.2025002

Multimodal data with contrastive learning for major depression disorder representation learning

GU Heng ¹ ,
MA Di ¹ ,
MA Yue ² ,
SHAO Wei ^,³^,^* ,
ZHANG Li ^,¹^,^*

Expand

¹ College of Information Science and Technology/Artificial Intelligence,Nanjing Forestry University, Nanjing 210042, Jiangsu, China
² College of Integrated Traditional Chinese and Western Medicine,Jiangsu Health Vocational College, Nanjing 210018, Jiangsu, China
³ College of Computer Science and Technology/Artificial Intelligence/Software,Nanjing University of Aeronautics and Astronautics, Nanjing 210016, Jiangsu, China

Received date: 2024-10-08

Online published: 2025-02-27

Fold

Abstract

Imaging genetics suggests that there is a certain degree of correlation between neuroimaging and genes, leading researchers to pay attention to the analysis of diseases using genetic variations and imaging data. In practice, clinical doctors usually have limited data availability but still aspire to employ deep learning method for real-world problems. Considering the expanding data scale and expensive annotation costs, it becomes essential to develop an unsupervised learning method capable of utilizing multimodal data. To meet these needs, a representation learning method based on multimodal tabular data with contrastive learning (MTCL) is proposed. The model leverages resting-state functional magnetic resonance imaging (rs-fMRI) and single nucleotide polymorphisms (SNP) data without requiring any labeled information. To enhance interpretability, the model first transforms rs-fMRI and SNP data into a tabular structure through a feature extraction module. Then, a multimodal tabular data contrastive learning method is employed to fuse the dataset and obtain the fused data representation. On the dataset of major depressive disorder (MDD), our proposed method effectively improves the diagnostic performance of MDD. Additionally, the MTCL method combines model attribution techniques to explore imaging and genetic biomarkers associated with MDD, enhancing the interpretability of the model and aiding researchers in understanding the mechanisms underlying the disease.

Key words： contrastive learning; multi-modal tabular data; modal attribution; major depressive disorder; diagnostic model

Cite this article

GU Heng , MA Di , MA Yue , SHAO Wei , ZHANG Li . Multimodal data with contrastive learning for major depression disorder representation learning[J]. Journal of Shaanxi Normal University(Natural Science Edition), 2025 , 53(1) : 12 -21 . DOI: 10.15983/j.cnki.jsnu.2025002

重度抑郁症(major depressive disorder, MDD)是一种常见的情感性精神障碍疾病,由于抑郁症患者的疾病意识不足以及早期筛查方法的缺乏,大多数患者在诊断时已经发展至重度抑郁症。在中国,成人抑郁症患者的比例达到了6.8%,其中能够充分得到治疗的仅有0.5%^[1]。抑郁症患者的主要特点为情绪低落、精力不足、高自杀风险等。因此,尽早识别患者,并给予及时的治疗是解决抑郁症问题的重要方法。利用患者信息构建抑郁症诊断模型能够很大程度上帮助从业者进行抑郁症诊断,丰富研究人员对MDD疾病病理的理解。

在神经影像学领域,静息态功能磁共振成像(resting-state functional magnetic resonance imaging, rs-fMRI)、结构磁共振成像(structure magnetic resonance imaging, sMRI)、扩散张量成像(diffusion tensor imaging, DTI)、正电子发射断层扫描(positron emission tomography, PET)等脑成像技术能够有效反映大脑的神经活动,被广泛应用于精神疾病和神经系统疾病的预测和诊断中。研究人员基于脑影像数据提出了许多MDD诊断模型。Saeedi等^[2]利用脑电图构建了长短期记忆网络与卷积神经网络结合的MDD诊断模型;Shi等^[3]利用rs-fMRI的功能连接信息训练了多个诊断模型,并利用最小二乘拟合回归来评估样本特征与临床症状严重程度之间的关系;Kong等^[4]提出了基于脑功能连接网络的时空图卷积诊断模型;在后续的研究中,Kong等^[5]又提出了融合rs-fMRI与DTI两种模态脑影像的多连接表征学习网络,同时考虑了大脑的结构与功能信息。

但上述方法仅仅利用了影像数据来训练模型。随着基因测序技术的快速发展,越来越多的研究人员开始将基因数据与影像数据进行结合,这能帮助人们更深入地理解MDD的发病机制。Hariri等^[6]提出了将影像数据与基因数据(单核苷酸多态性,single nucleotide polymorphism, SNP)进行结合的影像基因组学分析法,探究遗传信息与大脑结构与功能的相关性。Zhang等^[7]利用稀疏典型相关性分析方法,同时对sMRI与SNP数据进行了关联分析,得到了与阿兹海默症高度相关的风险SNP(APOE rs429358)以及影像脑区。Pang等^[8]提出了基于自表达网络的基因影像关联分析方法,利用多模态影像(sMRI和rs-fMRI)与SNP数据进行关联分析,发现了多个与MDD密切相关的风险SNP与影像脑区。

上述方法着重研究脑影像与基因之间的相关性,分析与疾病高度相关的风险脑区与风险SNP,较少有方法融合基因和影像对MDD进行诊断。Lee等^[9]利用ViT(vision Transformer)与XGBoost进行影像与基因数据的处理,将处理后的融合表征应用于MDD诊断;Wang等^[10]使用DMAAN模型将影像与基因数据分别映射到相同的特征空间中,并将其应用于精神疾病的诊断之中。但这些诊断方法多为有监督学习模型,需要大量高质量的有标签样本来进行训练。

近年来,对比学习作为一种无监督学习方案,通过拉近样本正例组内的距离来训练模型,这个过程无需任何标记信息,从而有望解决医学影像样本标记困难的问题。Hager等^[11]利用对比学习模型将影像数据与临床信息进行结合,构建了心肌梗死与冠状动脉疾病的诊断模型;Huang等^[12]同样采用对比学习模型,在有监督条件下,将样本的生物标志物和临床信息融入影像数据中,构建了阿兹海默症诊断模型,并通过表格数据的注意力得分,对模型进行了一定程度的解释。上述方法通过融合影像数据和临床信息提高了疾病诊断性能,但这些方法的可解释性不够完善,仅能对临床信息中的重要指标进行可解释性分析,无法确定与疾病相关的脑区或者功能连接边。此外,由于基因数据的高维度和复杂关联,现有关于疾病诊断的对比学习模型很少关注影像和基因的多模态数据。

为了有效融合基因和影像的多模态数据,挖掘与疾病相关的影像和遗传生物标志物,提高模型的可解释性。本文构建了一种基于影像与基因多模态表格数据对比学习的表征学习方法MTCL(multimodal tabular data with contrastive learning)。该模型同时利用了rs-fMRI和SNP数据,且无需任何标签信息。MTCL通过聚类系数方法(clustering coefficient, CC)获取rs-fMRI特征,通过文献[8]中的关联分析方法选择与疾病高度相关的SNP,以解决SNP数据的高维度和复杂关联问题。接着,将这些具有表格数据结构的rs-fMRI和SNP特征通过对比学习框架获得其融合表征,用于后续的疾病诊断。此外,MTCL方法将归因模块集成于编码器中,从而挖掘与疾病相关的rs-fMRI影像特征和SNP,帮助对疾病的发病机制的理解。最后,选择包含rs-fMRI和SNP的MDD数据集来验证本文提出方法的有效性。

1 模型和方法

MTCL方法包括两个部分:多模态数据特征提取和多模态表格数据对比学习。首先,由特征提取部分分别对rs-fMRI数据与SNP数据进行处理与编码。之后,将获取的影像和SNP特征作为多模态表格数据对比学习部分的输入,利用两次编码后的表征计算对比学习损失并对模型进行迭代优化。最后,利用首次编码产生的SNP和rs-fMRI表征作为模型输出。一旦获得表征后,不仅能对MDD进行诊断,同时可通过归因模块中SNP和rs-fMRI脑区的权重大小来识别生物标记物。图1展示了MTCL方法的结构。

显示原图|下载原图ZIP|生成PPT

图1 MTCL方法的结构图

注:网络版为彩图。

Fig.1 The structure diagram of MTCL

1.1 多模态数据特征提取

针对rs-fMRI影像数据的特征提取,首先将rs-fMRI影像分配到标准MNI(montreal neurological institute)空间中。通过AAL(automated anatomical labeling)模板获得116×116的功能连接矩阵,再使用聚类系数(clustering coefficient, CC)方法提取影像数据的特征。聚类系数是网络图论中用于衡量节点聚集程度的无阈值度量,它反映了大脑网络的局部聚类特性。

针对SNP基因信息,采用文献[8]所提出的方法选择与MDD疾病相关的p个SNP。然后,采用最小等位基因的个数0、1、2的加性编码方式。其中,等位基因按基因型频率分为主要和次要等位基因,主要等位基因编码为“0”,次要等位基因编码为“2”,其余等位基因的杂合子编码为“1”。

提取特征对模型的可解释性具有重要意义,使模型能够更高效地进行迭代,并在归因模块中输出各特征的重要性排序以进行病理分析。

1.2 多模态表格数据对比学习

模型利用对比学习思想将患者的脑影像CC数据与SNP数据作为一组正例以学习不同模态的联合嵌入空间。具体来说,对于M位患者的一组正例特征(C,S),C代表从rs-fMRI数据中得到的患者脑网络聚类系数CC,S代表患者SNP信息。模型将第i位患者的k维CC信息x_ic输入编码网络f_c,得到表征y_ic作为投影头g_c的输入,得到表征z_ic(公式1),经过两次编码网络处理后的表征z_ic被用于模型损失的计算:

(1)$ \boldsymbol{z}_{i c}=g_{c}\left(f_{c}\left(\boldsymbol{x}_{i c}\right)\right)$

第i位患者的SNP信息x_is的处理方式与CC类似,将经过特征提取后的p维SNP信息输入编码网络f_s与投影头g_s后,得到表征z_is:

(2)$\boldsymbol{z}_{i s}=g_{s}\left(f_{s}\left(\boldsymbol{x}_{i s}\right)\right.$

为了优化编码器权重以取得更具代表性的表征y用于分类,本文基于CLIP模型^[13]定义了损失函数,其计算过程可表示为

(3)$ \mathscr{L}_{\text {loss }}=\frac{1}{M} \sum_{i=1}^{M}-\log \frac{\exp \left(\boldsymbol{z}_{i c} \cdot \boldsymbol{z}_{i s} / \tau\right)}{\sum_{j=1}^{M} \exp \left(\boldsymbol{z}_{i c} \cdot \boldsymbol{z}_{j s} / \tau\right)}$

该损失函数基于交叉熵的思想进行构建,将样本的多模态数据作为一组正例,两模态之间的指数函数作为相似度,其中τ作为乘法标量,被用于控制相似度锐度,在训练期间将其对数参数化并作为模型的一部分进行优化,以避免τ成为超参数。迭代过程利用Adam优化器对模型网络参数进行优化以最小化该损失函数值。在迭代优化过程中,经过两次编码的同一患者的多模态表征z_ic与z_is会互相靠近(提高关联性),从而有效地捕获不同模态之间的共享信息。相反,不同患者的表征z_ic与z_js则会互相远离(降低关联性),从而避免不相关的信息之间产生融合。当模型训练完毕,模型将f_c、f_s函数处理后得到的表征y_c、y_s作为输出表征,并用于后续疾病诊断。MTCL具体的算法如算法1所示。

算法1 多模态无监督对比学习模型

输入:多模态特征X,批次大小N,编码网络f,投影网络g过程:

1: for批次中N个样本的每个样本x_i do:

2: 将x_i的特征进行编码z_ic =g_c (f_c (x_ic)),z_is = g_s (f_s (x_is));

3: 计算编码后z_ic与z_is的余弦相似度logits= $z T i c$ z_is/(‖z_ic‖₂·‖z_is‖₂);

4: 将每个样本作为一类,定义label为从0至N的数组;

5: 计算logits与label间的交叉熵损失loss;

6: 利用Adam优化器对编码网络f_c、f_s与投影头g_c、g_s进行优化,使loss最小化;

7: end for

8: for 所有样本的每样本x_j do:

9: 将x_j的特征进行编码y_c[j]=f_c (x_jc),y_s[j]=f_s (x_js);

10: end for输出:样本表征y_c,y_s

1.3 归因模块

为了寻找与疾病相关的SNP和影像特征,MTCL模型将积分梯度^[14]方法纳入编码器f中作为归因模块,从而实现rs-fMRI和SNP数据重要性计算。归因模块通过计算编码器对于样本和零向量之间的梯度,并用梯度积分来获得模型所得到的表征中每个维度的积分梯度值,以此得到每个输入对于输出的重要性值,

(4)$ \begin{aligned}I_{G_{i}}(x) & =\left(\boldsymbol{x}_{i}-\boldsymbol{x}^{\prime}\right) \times \\& \int_{0}^{1} \frac{\partial f\left(\boldsymbol{x}^{\prime}+\alpha \times\left(\boldsymbol{x}-\boldsymbol{x}^{\prime}\right)\right.}{\partial \boldsymbol{x}_{i}} \mathrm{~d} \alpha 。\end{aligned} $

式中:f : R_n∈[0,1]为MTCL模型的编码器;公式计算模型输入x_i到x'(零向量)之间的直线路径上所有点的梯度并进行累积,其梯度方向根据输入的x_i决定;∂f/∂x_i即f对于输入x_i的梯度。具体来说,积分梯度即沿x至x'路径中梯度的积分值。

对积分梯度的结果取绝对值后取平均,便能够得到x_i的重要性排序,从而解释哪些特征对结果有重要影响。具体到MTCL方法中,由于输入数据是表格类型结构,能够直接反映rs-fMRI和SNP生物标志物,归因模块能够对编码器f_c和f_s进行权重分析,得到输入样本的各个特征在对比学习模型中的重要程度,以此发现与MDD高度相关的SNP与脑影像特征。

2 多模态MDD数据集

实验使用的数据集来源于东南大学附属中大医院和新乡医学院第二附属医院。根据HAMD-24抑郁量表的分数^[15],该数据集包括东南大学附属中大医院的26名健康对照组(healthy controls, HC)(分数≤8)和45名MDD(分数≥20)患者,以及新乡医学院第二附属医院的38名HC和62名MDD患者。MDD患者可进一步分为2个亚组:分数在20到34之间定义为中度抑郁(moderate depression, MD),分数≥35定义为重度抑郁(severe depression, SD)。受试者详细人口统计学数据见表1。

表1 人口统计学数据

Tab.1 Demographic data

指标	HC	MD	SD
人数	26/38	34/44	11/18
性别	31/33	41/37	11/18
年龄	40.8±13.1	43.6±13.9	45.8±14.8
HAMD-24	1.2±2.1	28.8±4.2	39.1±3.5

注:人数为中大医院/新乡医院;性别为男/女。

数据集中所有样本都同时包含rs-fMRI与SNP数据。整个研究过程遵循赫尔辛基宣言(Helsinki declaration)。rs-fMRI数据通过德国3.0 T Siemens扫描仪获得,使用静息状态功能数据处理助手 (DPARSF 2.3)对 rs-fMRI 图像进行处理,该工具包结合了静息状态功能磁共振成像工具包(REST)和统计参数映射包(SPM)^[16]。DNA数据由天昊生物技术(中国上海)进行采集,采用标准方案从血液中提取DNA,总共获得5 897个SNP位点。根据文献[8]中所提出的方法对SNP进行筛选,选取其中与MDD最为相关的16个SNP(表 2)作为本文基因数据。

表2 16个与MDD高度相关的SNP

Tab.2 16 SNPs highly associated with MDD

rs179995813	rs6311	rs6279	rs73312836
rs3730089	rs6265	rs2229848	rs77493513
rs3738401	rs11832738	rs550640	rs1201
rs4680	rs11542227	rs3138094	rs1138488

3 实验

3.1 实验设计

为了避免小样本影响模型训练,MTCL首先利用稀疏程度为0.5的特征掩码对数据进行增强,增强后的数据样本量为2 000,维度为132(116个ROI特征,16个SNP特征)。MTCL模型中,rs-fMRI和SNP数据的编码器和投影头都选择双隐层的MLP(multilayer perceptron)网络结构,其中每个MLP网络的隐层维度与输入维度相同,输出维度为输入维度的一半。网络权重使用随机值进行初始化。模型使用Adam优化算法进行迭代更新,学习率为0.001,权重衰减为0.01。模型的迭代次数设置为800次,批次大小为256。MTCL模型基于Pytorch v2.0.1实现。

为了验证MTCL方法的性能,本文选择了3个方法作为比较方法,包括经典的主成分分析PCA(principal component analysis)作为基准方法,以及对比学习模型SCARF^[17]、VIME-self^[18]。SCARF基于对比学习结构利用增强后的样本来拉近组间距离,VIME-self通过预测未来状态进行自监督学习。MTCL方法和3个比较方法都采用同样的数据集进行训练,3种比较方法的输出维度与MTCL保持一致,并利用SVM分类器进行MDD诊断。SVM核函数为线性核,其参数通过网格搜索选择最优参数。

本文根据抑郁症的严重程度设置了多个对比实验,包括:MDD与HC二分类,使用MDD亚组的3个二分类MD-HC、MD-SD和SD-HC,以及三分类SD-MD-HC。对于二分类问题,我们选择准确率(accuracy)、敏感度(sensitivity)、特异性(specificity)指标来评价分类结果;对于三分类问题,我们计算了模型的准确率、平均精确率、平均F1分数,由于样本类别分布不均匀,实验在计算平均值时将分类结果中正确正例(true positive, TP)、错误正例(false positive, FP)和错误负例(false negative, FN)加总后计算平均精确率和平均F1分数。所有MDD诊断实验均采用10次五折交叉验证以保证结果的可靠性。

3.2 消融实验

MTCL方法融合SNP和rs-fMRI多模态数据,采用对比学习框架来提升诊断性能。为了研究融合SNP数据和对比学习框架对诊断性能的影响,本文进行消融实验,其结果如表 3所示。从表中可以看出,在不考虑对比学习框架的情况下,相比单一的rs-fMRI影像,在融合SNP后,分类器在MDD-HC二分类和SD-MD-HC三分类的精度都有提升。这表明融合SNP数据能有效提升MDD诊断性能。

表3 消融实验的结果单位:%

Tab.3 Results of ablation experiment

表格特征	MDD-HC						SD-MD-HC
表格特征	准确率	敏感度		特异性			准确率
rs-fMRI	60.61±7.6		55.05±14.4		70.06±15.8	42.11±8.6
rs-fMRI+SNP	64.19±7.9		62.09±14.6		67.85±13.7	44.90±6.7
(rs-fMRI+SNP)cl	70.29±6.5		74.34±16.1		63.65±19.2	49.64±7.7

注:cl指利用对比学习进行处理。

当rs-fMRI和SNP多模态数据通过本文提出的对比学习方法得到融合表征进行诊断时,我们发现MDD-HC二分类和SD-MD-HC三分类的准确性有明显提升,分别提高了6.1%和4.74%。此结果证明了本文提出的对比学习方法能进一步提升诊断准确性。

3.3 与当前流行方法比较

为了评估MTCL方法的性能,本文选择了与PCA、VIME-self、SCARF和Swin-fuse^[19]4种方法进行对比。在4个二分类场景和1个三分类场景中进行实验。在MDD-HC分类场景下,其结果如表 4所示。从表中可见,MTCL模型在进行MDD诊断时准确率均优于其他比较方法,特别是现有流行的对比学习框架。

表4 MDD-HC二分类结果单位:%

Tab.4 Dichotomous results of MDD vs HC

模型	准确率	敏感度	特异性
PCA	62.57±6.3	66.15±12.9	56.15±10.8
VIME-self	67.29±3.9	77.06±19.8	51.92±24.1
SCARF	69.59±7.9	72.35±20.1	63.01±19.8
Swin-fuse	67.58±8.8	69.13±17.4	58.50±22.2
MTCL	70.29±6.5	74.34±16.1	63.65±19.2

MDD患者根据抑郁量表得分可进一步划分为中度患者MD和重度患者SD两个亚组。表 5分别显示了SD-HC、MD-HC和SD-MD二分类场景下的结果。从表中结果可以发现,MTCL在其余3个二分类场景下同样优于其他方法。MTCL相较其他模型在区分重度患者和正常者时准确率提升最为明显,说明MTCL在处理特征差异较大的样本时有明显优势。在区分MD-HC,SD-MD时,各个模型的准确率较先前的任务有所降低,其原因主要是MD与HC,SD与MD之间的特征差异较小,样本间可能存在相似的症状或特征。无监督模型由于缺少标签的指导,在处理该类特征时对特征进行分离的能力较弱,导致诊断精度的提升较小。MTCL模型在该场景下同样受到该问题的影响,但仍然取得了较高的准确率。

表5 MDD各亚组的二分类结果单位:%

Tab.5 Dichotomous results of MDD subgroups

二分类	模型	准确率	敏感度	特异性
SD-HC	PCA	66.55±8.5	52.00±18.7	73.46±15.0
	VIME-self	71.99±9.6	65.33±15.1	74.49±19.9
	SCARF	66.17±8.7	69.67±20.6	64.87±19.8
	Swin-fuse	70.32±10.1	54.16±28.5	81.23±20.5
	MTCL	74.08±8.5	63.40±24.1	78.96±17.1
MD-HC	PCA	56.23±10.9	48.59±10.9	62.67±12.6
	VIME-self	64.88±6.2	75.26±21.3	56.67±14.2
	SCARF	63.72±6.2	74.91±11.7	50.26±16.3
	Swin-fuse	65.91±8.1	68.76±15.4	61.23±19.8
	MTCL	68.39±6.8	71.56±18.0	64.53±20.4
SD-MD	PCA	61.60±13.4	67.33±26.7	58.25±27.0
	VIME-self	64.37±6.9	55.33±16.4	67.75±15.4
	SCARF	59.01±19.6	61.78±36.7	58.11±38.8
	Swin-fuse	62.17±10.9	65.86±29.7	54.32±21.5
	MTCL	66.80±11.0	54.07±28.0	71.48±22.7

上述4个实验均为二分类场景,表 6显示了SD-MD-HC三分类场景的结果。从结果中可以看出,MTCL的准确度优于同为无监督学习的VIME-self与Swin-fuse方法,相比SCARF也略有提升。

表6 SD-MD-HC三分类结果单位:%

Tab.6 Results of SD vs MD vs HC

模型	准确率	平均精确率	平均F1分数
PCA	42.72±8.3	38.71±19.5	49.32±14.9
VIME-self	47.88±10.4	42.93±12.1	55.74±9.8
SCARF	49.21±9.1	49.54±6.4	58.21±9.6
Swin-fuse	46.51±9.9	45.74±8.8	54.32±12.3
MTCL	49.64±7.7	51.38±7.2	60.74±8.0

综合上述信息,无监督对比学习在处理影像与基因数据时展现出良好的效果,所得到的样本表征在MDD诊断中均优于基线模型。而MTCL方法在训练时能够更充分地捕获rs-fMRI与SNP数据之间的共享信息,从而在MDD诊断中获得更为出色的效果。

3.4 SNP数据对MDD诊断的贡献

在5个不同场景下,MTCL方法的准确性均优于比较方法。此外,MTCL方法的另一个优点即可获得SNP和影像脑区的权重大小,利用权重大小可分析其对MDD诊断的贡献,从而识别出对MDD诊断有重要意义的生物标记物。

MTCL方法集成了积分梯度方法分析SNP的重要性。图2展示了SNP数据在生成融合表征模型时权重排名前10的SNP。已有文献表明rs11832738、rs1799913、rs3730089、rs6265都与MDD有着高度关联性。在文献中已验证CACNA1C rs11832738遗传变异通过调节右侧额下回(right medial frontal gyrus)活性来影响MDD患者的抑郁严重度^[20];TPH1 rs1799913遗传变异在缓解患者自杀意念中发挥关键作用^[21];包含rs3730089遗传变异的PIK3R1基因是精神分裂症和躁郁症的共同易感基因^[22];BDNF rs6265遗传变异容易受到患者生活环境压力的影响^[23]。

显示原图|下载原图ZIP|生成PPT

图2 SNP特征在MSCL中的贡献排名(前10)

Fig.2 Top 10 SNP contributing to MDD diagnosis

3.5 rs-fMRI脑区对MDD诊断的贡献

MTCL方法采用聚类系数方法来提取rs-fMRI的连接特征。每个节点对应着AAL模板中脑区。MTCL方法同样利用归因模块分析不同脑区对MDD诊断的影响。图3展示了权重值最大的10个脑区。通过医学与生物文献发现,右侧梭状回(right fusiform gyrus)中局部回转指数减少,以及右侧梭状回与感觉运动区和右侧颞上回(right superior temporal gyrus)之间的功能连接减少,在MDD的病理生理学中发挥作用^[24];岛盖部额下回(inferior frontal gyrus, opercular part)与抑郁严重程度间存在显著相关性,服用相关药物改善额下回结构能够显著改善患者症状^[20],额下回的功能连接在药物治疗中会发生明显变化^[25];MDD患者的海马体(hippocampus)微观结构和体积与HC不同,其中齿状回(dentate gyrus)的微观结构比宏观结构更能成为抑郁症的敏感风险标记^[26]。其余脑区中的缘上回(supramarginal gyrus)、顶上回(superior parietal gyrus)、小脑(cerebellum)、后扣带回(posterior cingulate gyrus)、丘脑(thalamus)、苍白球(pallidum)均有相关文献证实其与MDD存在关联^{[24,27⇓-29]}。

显示原图|下载原图ZIP|生成PPT

图3 脑区特征在MSCL中的贡献排名(前10)

Fig.3 Top 10 brain regions contributing to MDD diagnosis

4 结论

本研究提出了一种基于影像与基因多模态数据无监督对比学习的表征学习方法——MTCL。该方法利用了rs-fMRI影像和SNP数据,无需数据的任何标签信息。为了提高模型的可解释性,先通过特征提取模块将rs-fMRI和SNP数据转换为表格类型结构,再通过多模态表格数据对比学习模块对多模态数据进行融合。在重度抑郁症数据上,MTCL方法无论是在二分类还是三分类问题上,都比现有对比学习方法有一定性能提升。此外,MTCL方法利用归因模块挖掘与MDD相关的影像和遗传生物标记物,比如SNP rs11832738和右侧梭状回脑区等,这些信息都被证实与MDD发病密切相关,有助于研究人员对疾病发病机制的理解。

MTCL模型由于其无监督的特性,其能够使用的数据类型范围极广,无论是否拥有标签,模型均能够对数据进行一定程度的表征学习与分析。在临床诊断中,除了影像和基因数据外,还有丰富的临床信息,如年龄、性能、药物史等。在未来工作中,我们将进一步探索如何将上述表格数据融入对比学习框架中,增强对模型结果的可解释性。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	LU J, XU X F, HUANG Y Q, et al. Prevalence of depressive disorders and treatment in China: a cross-sectional epidemiological study[J]. The Lancet·Psychiatry, 2021, 8(11): 981-990.

[2]	SAEEDI A, SAEEDI M, MAGHSOUDI A, et al. Major depressive disorder diagnosis based on effective connectivity in EEG signals: a convolutional neural network and long short-term memory approach[J]. Cognitive Neurodynamics, 2021, 15(2): 239-252. DOI PMID

[3]	SHI Y C, ZHANG L H, WANG Z, et al. Multivariate machine learning analyses in identification of major depressive disorder using resting-state functional connectivity:a multicentral study[J]. ACS Chemical Neuroscience, 2021, 12(15): 2878-2886.

[4]	KONG Y Y, GAO S W, YUE Y Y, et al. Spatio-temporal graph convolutional network for diagnosis and treatment response prediction of major depressive disorder from functional connectivity[J]. Human Brain Mapping, 2021, 42(12):3922-3933. DOI PMID

[5]	KONG Y Y, WANG W H, LIU X Y, et al. Multi-connectivity representation learning network for major depressive disorder diagnosis[J]. IEEE Transactions on Medical Imaging, 2023, 42(10):3012-3024.

[6]	HARIRI A R, WEINBERGER D R. Imaging genomics[J]. British Medical Bulletin, 2003, 65(1):259-270.

[7]	ZHANG J, SHANG M H, XIE Q, et al. A sparse multi-task contrastive and discriminative learning method with feature selection for brain imaging genetics[C]//2022 IEEE International Conference on Bioinformatics and Biomedicine(BIBM),Las Vegas,NV,USA. New York: IEEE, 2022:660-665.

[8]	PANG M Q, LIU X Y, HAO X K, et al. Identification and discovery of imaging genetic patterns using fusion self-expressive network in major depressive disorder[J]. Frontiers in Neuroscience, 2023, 17: 1297155.

[9]	LEE S, CHO Y, JI Y, et al. Multimodal integration of neuroimaging and genetic data for the diagnosis of mood disorders based on computer vision models[J]. Journal of Psychiatric Research, 2024, 172: 144-155. DOI PMID

[10]	WANG T, CHEN X M, ZHANG J W, et al. Deep multimodality-disentangled association analysis network for imaging genetics in neurodegenerative diseases[J]. Medical Image Analysis, 2023, 88:102842.

[11]	HAGER P, MENTEN M J, RUECKERT D. Best of both worlds:multimodal contrastive learning with tabular and imaging data[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Vancouver,BC,Canada. New York: IEEE, 2023:23924-23935.

[12]	HUANG W C. Multimodal contrastive learning and tabular attention for automated Alzheimer's disease prediction[C]//2023 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW),Paris,France. New York: IEEE, 2023:2465-2474.

[13]	RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[EB/OL].[2024-10-08]. http://arxiv.org/abs/2103.00020.

[14]	SUNDARARAJAN M, TALY A, YAN Q Q. Axiomatic attribution for deep networks[EB/OL]. [2024-10-08]. http://arxiv.org/abs/1703.01365.

[15]	VAN DIJK E L, AUGER H, JASZCZYSZYN Y, et al. Ten years of next-generation sequencing technology[J]. Trends in Genetics:TIG, 2014, 30(9):418-426.

[16]	YAN C G, ZANG Y F. DPARSF:a MATLAB toolbox for “pipeline” data analysis of resting-state fMRI[J]. Frontiers in Systems Neuroscience, 2010, 4:13.

[17]	BAHRI D, JIANG H, TAY Y, et al. SCARF:self-supervised contrastive learning using random feature corruption[EB/OL].[2024-10-08].http://arxiv.org/abs/2106.15147.

[18]	YOON J, ZHANG Y, JORDON J, et al. VIME: extending the success of self-and semi-supervised learning to tabular domain[J]. Advances in Neural Information Processing Systems, 2020, 33: 11033-11043.

[19]	TALASILA A, MAITY M, PRIYAKUMAR U D. Self-supervised modality-agnostic pre-training of swin Transformers[C]//2024 IEEE International Symposium on Biomedical Imaging(ISBI),Athens,Greece. New York: IEEE, 2024:1-5.

[20]	LIU X Y, HOU Z H, YIN Y Y, et al. CACNA1C gene rs11832738 polymorphism influences depression severity by modulating spontaneous activity in the right middle frontal gyrus in patients with major depressive disorder[J]. Frontiers in Psychiatry, 2020, 11: 73. DOI PMID

[21]	NIELSEN D A, DENG H Q, PATRIQUIN M A, et al. Association of TPH1 and serotonin transporter genotypes with treatment response for suicidal ideation:a preliminary study[J]. European Archives of Psychiatry and Clinical Neuroscience, 2020, 270(5):633-642.

[22]	HUANG J, CHEN Z X, ZHU L L, et al. Phosphoinositide-3-kinase regulatory subunit 1 gene polymorphisms are associated with schizophrenia and bipolar disorder in the Han Chinese population[J]. Metabolic Brain Disease, 2020, 35(5):785-792. DOI PMID

[23]	SOLER C T, KANDERS S H, OLOFSDOTTER S, et al. Exploration of the moderating effects of physical activity and early life stress on the relation between brain-derived neurotrophic factor (BDNF) rs6265 variants and depressive symptoms among adolescents[J]. Genes, 2022, 13(7):1236.

[24]	CHEN C J, LIU Z N, ZUO J, et al. Decreased cortical folding of the fusiform gyrus and its hypoconnectivity with sensorimotor areas in major depressive disorder[J]. Journal of Affective Disorders, 2021, 295:657-664. DOI PMID

[25]	ROLLS E T, CHENG W, DU J N, et al. Functional connectivity of the right inferior frontal gyrus and orbitofrontal cortex in depression[J]. Social Cognitive and Affective Neuroscience, 2020, 15(1):75-86. DOI PMID

[26]	VAN DIJK M T, CHA J, SEMANEK D, et al. Altered dentate gyrus microstructure in individuals at high familial risk for depression predicts future symptoms[J]. Biological Psychiatry·Cognitive Neuroscience and Neuroimaging, 2021, 6(1):50-58.

[27]	ISERNIA S, BLASI V, BAGLIO G, et al. The key role of depression and supramarginal gyrus in frailty: a cross-sectional study[J]. Frontiers in Aging Neuroscience, 2023, 15: 1292417.

[28]	MINICHINO A, BERSANI F S, TRABUCCHI G, et al. The role of cerebellum in unipolar and bipolar depression: a review of the main neurobiological findings[J]. Rivista Di Psichiatria, 2014, 49(3): 124-131. DOI PMID

[29]	SATO Y, OKADA G, YOKOYAMA S, et al. Resting-state functional connectivity disruption between the left and right pallidum as a biomarker for subthreshold depression[J]. Scientific Reports, 2023, 13(1): 6349. DOI PMID

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 模型和方法

图1 MTCL方法的结构图

1.1 多模态数据特征提取

1.2 多模态表格数据对比学习

1.3 归因模块

2 多模态MDD数据集

表1 人口统计学数据

表2 16个与MDD高度相关的SNP

3 实验

3.1 实验设计

3.2 消融实验

表3 消融实验的结果 单位:%

3.3 与当前流行方法比较

表4 MDD-HC二分类结果 单位:%

表5 MDD各亚组的二分类结果 单位:%

表6 SD-MD-HC三分类结果 单位:%

3.4 SNP数据对MDD诊断的贡献

图2 SNP特征在MSCL中的贡献排名(前10)

3.5 rs-fMRI脑区对MDD诊断的贡献

图3 脑区特征在MSCL中的贡献排名(前10)

4 结论

References

表3 消融实验的结果单位:%

表4 MDD-HC二分类结果单位:%

表5 MDD各亚组的二分类结果单位:%

表6 SD-MD-HC三分类结果单位:%