Counterfactual text debiasing for multimodal sentiment analysis

GAO Feng; LENG Yan; CHEN Fei

doi:10.15983/j.cnki.jsnu.2025008

Journal of Shaanxi Normal University(Natural Science Edition) >

2025 , Vol. 53 >Issue 1: 81 - 91

DOI: https://doi.org/10.15983/j.cnki.jsnu.2025008

Counterfactual text debiasing for multimodal sentiment analysis

GAO Feng ,
LENG Yan ^,^* ,
CHEN Fei

Expand

School of Physics and Electronics, Shandong Normal University, Jinan 250358, Shandong, China

Received date: 2024-07-14

Online published: 2025-02-27

Fold

Abstract

Multimodal sentiment analysis, an inherently challenging research area, integrates textual, audio, and visual modalities to analyze human emotional tendencies. Existing studies suggest that the textual modality plays a dominant role in sentiment prediction. However, this predominance raises a potential issue: during training, machine learning models tend to learn spurious correlations between the input and the output, leading to an overreliance on textual information. This overreliance may cause models to incorrectly model spurious correlations between textual and sentiment labels, thus undermining the model's generalization ability. To address this challenge, an innovative counterfactual text debiasing(CFTB) algorithm is proposed for multimodal sentiment analysis. Our framework first employs causal graph to thoroughly analyze the causal relationships among the three modalities and the sentiment labels.Then, an auxiliary textual model is designed to precisely quantify the direct impacts of the textual modality to sentiment prediction and leverage an attention mechanism to accurately capture textual features that might introduce spurious correlations. During the inference phase, the CFTB algorithm demonstrates its unique advantage: it intelligently isolates the negative impacts caused by spurious textual associations from the overall multimodal information, while retaining and enhancing the beneficial information within the textual modality that genuinely contributes to sentiment prediction. Experiments on the MOSEI and MOSI datasets show that this framework can be effectively integrated into existing methods and has good generalization performance.

Key words： causal inference; spurious correlation; counterfactual; multimodal sentiment analysis; attention mechanism

Cite this article

GAO Feng , LENG Yan , CHEN Fei . Counterfactual text debiasing for multimodal sentiment analysis[J]. Journal of Shaanxi Normal University(Natural Science Edition), 2025 , 53(1) : 81 -91 . DOI: 10.15983/j.cnki.jsnu.2025008

人类纷繁复杂的情感世界通过多样化的渠道得以展现,如文本、表情和声音等^[1]。情感分析旨在深入这些多样化的表达形式中,精准捕捉并解析情感特征,进而实现情感分类。传统的情感分析多聚焦于单一的文本模态,但随着社交媒体的蓬勃兴起,催生了获取多模态数据的全新途径。相较于仅依赖文本的单模态分析方法,多模态情感分析(multimodal sentiment analysis, MSA)展现出了显著的优势。MSA巧妙融合了来自不同模态的丰富信息,不仅提升了情感识别的准确性,还增强了系统的鲁棒性,使之更加贴近人类情感交流的自然形态。因此,MSA已成为情感分析领域的研究热点与前沿阵地。

当前,MSA领域的研究重心聚焦于两大关键议题:多模态融合^[2]与情感识别。以往,研究者们多依赖于传统的机器学习方法^[3]进行探索,其中,Yang等^[4]开创性地引入了孪生支持向量机(TWSVM),相较于传统的单目标函数支持向量机,该方法在提升模型精度与稳定性方面展现出了显著优势。同时,文献[5]则基于隐马尔可夫模型构建了文本语义定向分析框架,极大地增强了网络公共意见方向分析的准确性。然而,随着深度学习^[6]技术的日新月异,MSA领域迎来了前所未有的发展机遇。近年来,深度学习技术在MSA中的应用日益广泛,文献[7]提出的并联Transformer单元(CTFN),凭借其强大的能力,有效挖掘了多模态数据间的内在联系,为MSA提供了更加精确且高效的解决方案。但在享受机器学习技术带来的便利之时,我们也面临着一个长期存在的挑战——模型在训练过程中往往倾向于捕捉输入与输出之间的相关关系,而非真正的因果关系,这极大地限制了模型的效能与泛化能力。对此,图灵奖得主Bengio曾强调,机器学习能够建模并理解输入输出之间的因果关系至关重要^[8]。因此,未来MSA领域的研究需更加注重因果推理的融入,以实现更加智能、可靠的情感分析系统。

并且Wu等^[9]指出,在MSA中,文本模态占据了举足轻重的地位,但同时也潜藏着风险——它可能诱导MSA模型错误地构建文本与情感标签之间虚假的相关性。图1~2直观展示了一个现象:在MOSEI数据集中,“movie”一词与“Negative”标签共现的频率异常偏高,这极易诱使模型陷入误区,错误地捕捉到二者间并不存在的依赖纽带。进一步地,图1的测试环节暴露了这一问题的严重性:面对同样包含“movie”但实则表达积极情感的样本,模型因选择了伪相关路径,从而输出了错误的情感标签。为解决这一长期困扰业界的伪相关问题,学界已展开了多方面的探索,其中Panda等^[10]通过精心构建规模庞大的情感WEBEmo数据集,试图从源头上减少数据偏差,但此方法不可避免地伴随着高昂的时间与人力成本。面对这一挑战,另一批学者另辟蹊径,将因果推理的智慧引入机器学习领域。CLUE模型巧妙运用因果机器学习技术,旨在剥离文本模态的直接非因果性影响, 从而有效降低伪相关风险。然而,我们亦需审慎思考:文本模态中的正面影响,作为辅助模型识别情感的有效线索,实则不应被一概抹除。

显示原图|下载原图ZIP|生成PPT

图1 MAS任务文本伪相关情景

注:网络版为彩图。

Fig.1 Spurious correlation in text for MAS task

显示原图|下载原图ZIP|生成PPT

图2 MOSEI数据集中常见单词分布

Fig.2 Most common word distribution in MOSEI dataset

针对上述挑战,本文创新性地提出了一种基于反事实文本去偏(counterfactual text debiasing, CFTB)的MSA模型,通过构建结构因果图,深入剖析了文本模态对模型预测的双重影响路径:一是直接且误导性的捷径,它构成了伪相关;二是间接但更为稳健的路径,该路径能够综合其他模态的信息,提炼出更为可靠的文本语义。在推理阶段,CFTB算法巧妙地构建了一个反事实场景,这一策略的核心在于从全效应中精准剥离文本模态的伪相关部分,同时保留其正面影响,再与间接影响协同作用,共同指导情感预测。此举不仅有效规避了伪相关带来的偏差,还促进了多模态信息间的深度融合与互补。综上,本文主要贡献有以下几方面。

1)首次从因果推理的维度揭示了文本模态与情感标签之间潜在的伪相关现象,这一发现对于理解并提升模型在外分布数据集上识别的准确性具有重要意义。

2)设计并实现了CFTB算法,该算法为现有的MSA模型注入了新的活力,通过反事实推理这一先进方法,有效削弱了文本模态与标签之间的伪相关联系,降低了噪声干扰,实现了模型性能的显著提升。

3)在MOSI和MOSEI数据集上进行了详尽的实验对比,充分验证了CFTB算法的适用性与卓越性能,不仅证明了其理论创新的价值,也为实际应用提供了强有力的支持。

1 相关工作

1.1 多模态情感分析

近年来,随着社交媒体的蓬勃发展,人们愈发倾向于利用视频^[11]、文本等多样化的媒介在各类社交平台^[12]上抒发情感。这一趋势开创了一个新兴的研究领域——如何从机器学习的视角精准剖析这些多媒体内容中蕴含的丰富情感。相较于传统的单模态情感分析^[13]方法,多模态模型凭借其融合多种数据类型的能力,在情感识别领域展现出了更高的精确度,通过整合不同模态的信息,多模态模型能够更全面、深入地捕捉和理解用户的情感表达。

尽管当前关于MSA的研究取得了显著进展,我们仍不得不正视其面临的两大核心挑战:多模态表示学习与跨模态融合。在跨模态融合方面,依据融合时机的不同,可以分为早期融合与晚期融合。早期融合以注意力机制为核心,致力于在数据处理的初期阶段即实现模态间的深度融合,例如Tsai等^[14]创新性地提出了跨模态的Transformer模型,巧妙运用了跨模态注意力机制,实现了对目标模态信息的精准强化与高效整合,为早期融合策略树立了新的标杆。而晚期融合则是先获得每种模态的内部表征,然后再进行跨模态融合。其中,基于张量的融合方法是晚期融合中颇具代表性的方法之一,但张量计算复杂,为此Yu等^[15]提出了低秩多模态晚期融合方法,通过降低计算复杂度,为晚期融合策略开辟了新的实践路径,展现了其在提升融合效率与效果方面的巨大潜力。

当前,针对MSA领域的研究方法已经取得了令人瞩目的进展,显著提升了模型在识别任务中的准确率。然而,在享受这些先进机器学习模型带来的便利与高效的同时,我们也应清醒地认识到,模型本身并非无懈可击,其内在缺陷往往被忽视。为了弥补这一不足,我们深入探索了因果推理的能力,致力于剖析模态与标签之间错综复杂的因果关系。通过这一途径,我们能够更加精准地识别并理解那些隐藏在数据背后的深层次联系。更进一步地,我们创新性地引入了反事实推理的方法来消除模型中文本与标签之间的伪相关,从而提升模型的鲁棒性。

1.2 因果推理

因果推理^[8],作为统计学中的核心基石,凭借其严谨的数学表述与明确的判定标准,为我们揭示了变量间错综复杂的相互作用机制。在这一领域,潜在结果框架(potential outcome framework)与结构因果模型(structural causal model,SCM)为我们剖析复杂因果关系提供了强有力的工具。近年来,随着因果理论^[16]与技术的蓬勃发展,机器学习领域亦开始积极拥抱这一思想,试图借助因果推理理念解决自身面临的诸多难题。并且越来越多的研究者深刻意识到,因果问题已成为制约机器学习进一步发展的关键瓶颈。

反事实推理^[4],其精髓在于:在已经观测到一组变量的情况下,假设其中部分变量具有另外取值的操作,它考虑的是一种实际并未发生过也难以再次观察到的情景。在多个应用场景中,反事实推理大放异彩。例如,在模型解释领域,基于反事实的解释方法通过精心设计的样本特征调整策略,促使模型的预测结果发生显著变化,从而揭开了模型决策过程的神秘面纱。而在数据增强方面,反事实数据增强技术则巧妙地构造出反映真实因果关系的反事实样本,并将其融入训练过程,有效削弱了非因果变量对预测结果的干扰,显著提升了模型的鲁棒性与泛化能力。近年来,反事实推理的应用范围不断拓展,已深入渗透至视觉对话^[17⇓-19]、对抗学习^[20]、场景图生成及图像情感识别^[21]等多个前沿领域,展现出其广泛的应用前景。

2 研究方法

2.1 任务制定

MSA是一项前沿技术,它巧妙融合了视频片段中的音频、视觉与文本三大模态信息,以实现对人类情感的精准洞察。这一过程中,核心在于构建一个能够智能学习并提炼各模态精髓的模型,进而将这些丰富多样的特征无缝融合,为最终的情感预测奠定坚实基础。给定一个多模态数据集合,记为S=[X_v,X_a,X_t],其中X_v表示视觉模态数据,X_a表示音频模态数据,X_t表示文本模态数据。MSA的目标是要遍历这个数据集中的每一个文本-视频-音频组合,为它们精准匹配上相应的情感标签y。

2.2 因果关系

SCM^[4]是由Pearl提出的,其核心理念在于运用精妙的有向无环图作为框架,系统地组织并呈现所有待考察变量之间复杂的关系。在这一架构中,每个变量在图中由唯一节点表示,节点之间通过有向线段连接,表明它们之间的直接因果效应。因此,这个有向无环图也被称为因果图,记作G=(N,E),其中N={X,Y,Z₁,Z₂,…}表示所有节点的集合,涵盖了构建因果图时所考虑的所有变量;E作为边的集合,其包含的先验假设反映了变量间的直接因果关系。以图3a为例,这是一个简洁的因果图,仅包含3个变量,原因B到结果B→E的因果关系体现在两方面:一是直接影响遵循因果关系B→E;二是间接影响通过中间变量D遵循因果关系B→D→E。

显示原图|下载原图ZIP|生成PPT

图3 因果图示例

Fig.3 Example of causal graph

图3b精妙地描绘了3种模态A/T/V、多模态表示M和情感标签Y之间的SCM关系。深入剖析这一因果图,我们重点探讨了文本模态T、多模态表示M和情感预测Y之间的相关性。具体解释如下。

①T→Y这条路径揭示了文本模态与情感标签之间存在的伪相关,这是模型预测中的一条捷径,虽看似高效却潜藏着误导风险,对模型的准确性构成了不容忽视的威胁。

②A,T,V→M→Y这条路径表明文本模态通过多模态表示M间接影响情感预测Y。在此过程中,尽管文本模态中可能仍掺杂着伪相关,但得益于多模态之间巧妙的对齐,我们能够更加有效地提炼出文本中蕴含的可靠语义信息,为情感预测提供坚实支撑。

2.3 反事实推理

我们的核心目标在于剔除T→Y直接路径中伪相关^[22]所带来的负面影响,同时保留并强化其正面影响,以此策略性地提升模型在识别任务上的精确度与可靠性。依据严谨的因果推理框架,我们可以明确,在MSA的复杂场景中,因果关系的表述应当阐述如下:

(1)$\boldsymbol{Y}_{t, \boldsymbol{m}}(\boldsymbol{S})=\boldsymbol{Y}(\boldsymbol{T}=\boldsymbol{t}, \boldsymbol{M}=(\boldsymbol{T}=\boldsymbol{t}, \boldsymbol{A}=\boldsymbol{a}, \boldsymbol{V}=\boldsymbol{v})) $。

式中,Y_t_,_m(S)反映混杂的MSA,因为它受到T中伪相关的直接影响。为了理清MSA中的因果效应,我们计算了T=t和M=m的全效应(total effect,TE,记作E_TE),表示为

(2)$\boldsymbol{E}_{\mathrm{TE}}=\boldsymbol{Y}_{t, m}(\boldsymbol{S})-\boldsymbol{Y}_{t^{*}, m^{*}}(\boldsymbol{S}) 。$

t^*,m^*表示没有给出(t,a,v)值输入的MSA模型,我们直接使用一个随机初始化向量来代表最终结果。

随后,我们深入估算了文本模态中伪相关所引发的自然直接效应(NDE),这一过程的关键在于精准识别出那些直接作用于情感预测Y_t(T)中,却实为伪相关的部分

Y t -

(T)。我们坚信,鉴于不同模态间的互补性与相互制约性,多模态表示Y_m(S)能够更为精准地刻画真实情境下的情感特质。鉴于伪相关表示与真实情感表示的本质差异,它们之间的相关性要更低。受注意力机制的深刻启发,我们设计了一个多头注意力编码模块,旨在精准捕捉文本特征中那些与多模态特征相关性较低的部分。该模块的输出,依据以下函数计算得出:

(3)$\text { Output }=\text { Multihead }(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}),$

(4)$\text { Output }=\text { concat }\left(\text { head }_{1}, \text { head }_{2}, \cdots, \text { head }_{h_{n}}\right) W^{O},$

(5)$\operatorname{Head}_{i}=\operatorname{Attention}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}),$

(6)$\text { Attention }(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\operatorname{Softmax}\left(\frac{\boldsymbol{Q} \boldsymbol{K}^{\mathrm{T}}}{\sqrt{d_{k}}}\right) \boldsymbol{V}$

得到文本模态中的伪相关表示

Y t -

(T)为

(7)$\boldsymbol{Y}_{i}=\operatorname{Multihead}\left(\boldsymbol{Y}_{m}, \boldsymbol{Y}_{t}, \boldsymbol{Y}_{t}\right) \text { 。 } $

查询Q∈

R n ∈ d k

、键K∈

R n × d k

和值V∈

R n × d v

,其中n为序列长度,d、d_k、d_v分别为输入、查询(键)和值的维数,h_n是多头注意中“头”的个数。

Y t -, m *

(S)刻画了一种反事实场景下的结果,即在模型中,仅将文本模态中的伪相关部分作为输入时,我们得以量化并解析出T→Y路径上伪相关所直接施加的影响。这一因果关系的表述,清晰揭示了即便在理想化的实验条件下,也能精确衡量伪相关对模型输出的特定效应:

(8)$\begin{aligned}\boldsymbol{Y}_{\bar{t}, m^{*}}(\boldsymbol{S})= & \boldsymbol{Y}\left(\boldsymbol{T}=\overline{\boldsymbol{t}}, \boldsymbol{M}^{*}=\left(\boldsymbol{T}=\boldsymbol{t}^{*}, \boldsymbol{A}=\boldsymbol{a}^{*},\right.\right. \\& \left.\left.\boldsymbol{V}=\boldsymbol{v}^{*}\right)\right) 。 \end{aligned}$

最后,得到自然直接效应(NDE,记作E_NDE)的表示如下:

(9)$\boldsymbol{E}_{\mathrm{NDE}}=\boldsymbol{Y}_{\bar{t}, \boldsymbol{m}^{*}}(\boldsymbol{S})-\boldsymbol{Y}_{t^{*}, m^{*}}(\boldsymbol{S}) 。$

为了排除NDE中文本模态伪相关的影响,我们从TE中减去NDE来估计全间接效应(TIE,记作E_TIE):

(10)$\boldsymbol{E}_{\mathrm{TIE}}=\boldsymbol{Y}_{t, m}(\boldsymbol{S})-\boldsymbol{Y}_{\bar{t}, m^{*}}(\boldsymbol{S})$

因此,在推理阶段使用不包含伪相关的TIE进行预测。

2.4 CFTB算法

2.4.1 算法结构

如图4所示,本文提出的CFTB算法架构由两大核心组件构成:辅助文本情感预测模型Y_t(T)=F_t(T=t)与MSA模型Y_m(S)=F_m(T=t,A=a,V=v)。辅助文本分支被精妙地实例化为一个高效的神经网络F_t(·),如业界领先的BERT^[23]模型。而F_m(·)则代表着基于特定机制的MSA模型,它能够从丰富的多模态数据S中学习并提取出多模态表示,如Self-MM或MAG-BERT等方法。

显示原图|下载原图ZIP|生成PPT

图4 基于反事实文本去偏的多模态情感分析(CFTB)概述

注:网络版为彩图。

Fig.4 The overview of counterfactual text debiasing for multimodal sentiment analysis(CFTB)

随后,通过引入SUM(·)融合策略,我们巧妙地将这两个模型的输出进行累加融合,这一过程不仅实现了信息的互补与增强,还确保了最终预测结果的全面性与准确性。最终,我们得到了融合后的预测得分Y_t_,_m(S)以及反事实场景下的预测得分

Y t -, m *

(S),二者共同构成了CFTB算法在情感分析领域的独特优势与卓越性能:

(11)$\begin{aligned}\boldsymbol{Y}_{t, m}(\boldsymbol{S})= & \operatorname{SUM}\left(\boldsymbol{Y}_{t}(\boldsymbol{T}), \boldsymbol{Y}_{m}(\boldsymbol{S})=\right. \\& \log \sigma\left(\boldsymbol{Y}_{t}(\boldsymbol{T})+\boldsymbol{Y}_{m}(\boldsymbol{S})\right),\end{aligned}$

(12)$\begin{aligned}\boldsymbol{Y}_{\bar{t}, \boldsymbol{m}^{*}}(\boldsymbol{S})= & \operatorname{SUM}\left(\boldsymbol{Y}_{t}(\boldsymbol{T}), \boldsymbol{Y}_{m^{*}}(\boldsymbol{S})\right)= \\& \left.\log \sigma\left(\boldsymbol{Y}_{\bar{t}}(\boldsymbol{T})+\boldsymbol{Y}_{m^{*}}(\boldsymbol{S})\right)\right)\end{aligned}$

式中,σ为Sigmoid型激活函数。

2.4.2 训练阶段

这一部分我们以MSA中的二分类任务为例,采用交叉熵(CE,记作E_C)损失作为优化目标,如下所示:

(13)$\begin{aligned}\mathscr{L}_{\mathrm{CE}}= & \alpha \times E_{\mathrm{C}}\left(\boldsymbol{Y}_{t, \boldsymbol{m}}(\boldsymbol{S}), \boldsymbol{y}\right)+ \\& \beta \times E_{\mathrm{C}}\left(\boldsymbol{Y}_{t, \boldsymbol{m}^{*}}(\boldsymbol{S}), \boldsymbol{y}\right) 。 \end{aligned}$

式中:α和β是用来平衡两个损失函数的权重;y是多模态的真实情感标签。当进行反事实推理时,我们做出一个理论上的假设,即仅考虑文本模态的直接影响,而MSA模型在此情境下不接收任何外部数据输入。然而,需注意的是,在实际操作中,神经网络的输入需求不容忽视,不能有空值的存在。为此,我们创造性地采用了一个随机初始化的向量来模拟

Y m *

(S)的状态,但是这一做法在理论上存在局限,不合适的

Y m *

(S)可能会引发TE与NDE之间的尺度偏差,进而导致TIE的计算被其中一方所主导。因此,为有效缓解这一问题,我们巧妙地引入了KL散度作为正则化手段,其目的在于精细调控Y_t_,_m(S)和

Y t -, m *

(S)之间的差异,确保

Y m *

(S)的表示既符合反事实推理的逻辑要求,又能维持与整体模型预测结果的一致性,具体表达式如下:

(14)$\mathscr{L}_{\mathrm{KL}}=\mathrm{KL}\left(\boldsymbol{Y}_{t, m}(\boldsymbol{S}), \boldsymbol{Y}_{\bar{t}, m^{*}}(\boldsymbol{S})\right) 。$

综上所述,最终的训练损失如下:

(15)$\mathscr{L}=\sum_{(t, a, v, y) \in \mathbf{R}} \mathscr{L}_{\mathrm{CE}}+\mathscr{L}_{\mathrm{KL} 。}$

2.4.3 推理阶段

为了充分利用TIE进行情感推理,CFTB算法精心设计了其最终预测机制,该机制旨在全面捕捉并融合文本与多模态之间的复杂交互作用,从而输出更为精准、深刻的情感预测结果。通过这一创新性的设计,CFTB不仅深化了我们对情感表达多维度特性的理解,还为用户提供了更加丰富、细腻的情感分析体验,表示如下:

(16)$\boldsymbol{E}_{\mathrm{TIE}}=\boldsymbol{Y}_{t, m}(\boldsymbol{S})-\boldsymbol{Y}_{\hat{t}, m^{*}}(\boldsymbol{S})$

3 实验设计与结果分析

3.1 实验数据集与基准方法

在这项工作中,我们选用了2个广泛使用的MSA数据集——MOSI^[24]和MOSEI^[25],这2个数据集在情感分析领域具有重要地位,它们为研究者提供了丰富的多模态信息。为了确保评估的全面性与严谨性,我们采取了双重策略:一方面,对于每一项任务,均遵循独立同分布(IID)原则进行模型的训练与初步验证,以确保在常规条件下模型性能的稳定性与可靠性;另一方面,我们进一步引入了非独立同分布(OOD)^[26]测试环节,这一环节中的样本与IID训练集相比,其单词与情感标签之间不再保持显著的统计相关性。通过实施OOD测试,我们旨在深入探究CFTB算法在面对MSA模型中常见的伪相关问题时,是否具备足够的鲁棒性与适应性,以准确捕捉并预测真实的情感倾向。

为了全面验证CFTB的性能,我们在MSA任务中将其与一系列先进的模型进行了公平的比较。这些模型各具特色,涵盖了多模态融合^[27]、注意力机制^[28]、自适应门控和自监督策略^[29]等多个方面,分别是:TFN^[30]模型、LMF^[15]模型、MulT^[14]模型、MAG-BERT^[31]模型、MISA^[32]模型、Self-MM^[15]模型和CLUE^[33]模型。

3.2 实验设置与评价指标

在全面评估MSA模型的过程中,我们采用了两种分类任务^[34]来全面检验模型的性能:7分类和2分类。这两种分类任务分别针对不同的情感粒度,有助于我们更深入地理解模型在不同情感类别划分下的表现。对于这两项任务,我们使用了准确率(Acc)和F1分数作为评估标准。前者直观呈现模型分类准确性的广度,后者则巧妙融合精确率与召回率,深入剖析模型在情感极性判断上的精细度与全面性。

并且,我们选择了MISA、Self-MM和MAG-BERT作为主干网络。这些模型在MSA领域表现优异,各具特色,有助于我们全面评估CFTB算法的有效性。在优化策略上,我们统一采用Adam优化器,并依据各主干模型的特点,量身定制了学习率与丢弃率参数。具体而言,MISA模型配置了6×10^-5的学习率与0.1的丢弃率,Self-MM模型则设为2×10^-5学习率与0.3丢弃率,而MAG-BERT模型则调整为1×10^-5学习率与0.1丢弃率。这些参数的设置旨在确保模型既能深入挖掘数据特征,又能有效遏制过拟合风险。在数据集方面,我们依托MOSEI与MOSI两大权威MSA数据集,通过定制化设置批大小(MOSEI为24,MOSI为32),优化了模型训练的资源利用效率与速度。更进一步,为追求模型性能的最优解,我们实施了详尽的网格搜索策略,针对关键超参数α与β,在0~1的区间内,以0.1为步长进行细致探索。通过网格搜索,我们能够系统地探索不同超参数组合对模型性能的影响,从而找到使模型性能达到最优的超参数组合。

3.3 实验结果分析

表1详尽地展示了在MOSI与MOSEI数据集上,针对OOD测试所进行的对比实验结果。通过对这些数据的深入剖析,我们提炼出以下几点核心发现。

表1 不同方法在MOSEI和MOSI数据集上的OOD测试性能比较单位:%

Tab.1 OOD testing performance comparison among different methods on MOSEI and MOSI datasets

模型	MOSEI						MOSI
	2分类				7分类		2分类			7分类
	Acc-2		F1分数		Acc-7	Acc-2		F1分数	Acc-7
TFN		71.23/69.79		70.64/69.02	41.05	73.02/74.62		72.93/74.56	32.95
LMF		68.16/69.58		68.31/69.58	31.11	73.54/75.27		73.54/75.27	29.10
MulT		72.56/73.73		72.44/73.58	40.58	75.00/76.72		74.75/76.52	29.80
MAG-BERT		74.59/76.41		74.48/76.27	45.88	75.57/77.28		75.52/77.26	39.85
MAG-BERT+CFTB		76.93/77.59		77.03/77.65	47.83	79.00/80.72		79.04/80.74	42.50
MISA		74.48/76.45		74.39/76.33	43.15	75.90/75.82		75.82/77.35	38.05
MISA+CFTB		78.11/78.45		78.04/78.43	46.96	79.75/80.99		79.78/81.00	43.25
Self-MM		74.68/74.50		74.33/74.22	45.81	76.70/78.12		76.68/78.13	40.25
Self-MM+CFTB		78.57/78.61		78.74/78.69	48.55	80.50/82.30		80.59/82.29	43.50

注:对于Acc-2和F1分数,“/”的左侧为positive/non-positive结果,右侧为positive/negative的结果。加粗表明最优。

首先,传统的MSA模型如TFN、LMF和MulT在OOD数据集上表现出了明显的性能下降。这一现象有力地揭示了,当测试样本的分布显著偏离训练集分布时,这些经典模型的鲁棒性受到了严峻挑战。这一发现不仅强化了文本词汇与情感标签间的伪相关性对模型泛化能力构成障碍的观点,还深刻指出了传统模型在应对真实世界复杂多变场景时的局限性。

其次,使用CFTB算法在OOD测试设置中明显优于其原始版本。具体来说,当我们将MISA与CFTB算法相结合时,MISA在MOSEI数据集上的Acc-2从74.48%提升到了78.11%。这一显著的性能提升充分验证了CFTB算法在提升模型泛化能力方面的有效性。CFTB算法通过捕获训练集中的因果关系并减轻文本模态的不良影响且保留正面影响,使得模型能够更好地适应OOD环境下的MSA任务。

3.4 消融实验

为了深刻剖析CFTB中各个组成部分在MSA建模中的不可或缺性,我们在MOSEI与MOSI数据集上执行了一系列详尽的消融实验(如表2所示)。这些实验通过循序渐进地剥离不同组件,为我们提供了一个系统而全面的视角,用以验证MSA模型分支、文本模型分支以及CFTB算法对整体模型性能的具体影响。

表2 MOSEI和MOSI数据集的2分类(positive/non-positive)消融实验结果单位:%

Tab.2 The results of the 2-class (positive/non-positive) ablation study on the MOSEI and MOSI datasets

模型	MOSEI				MOSI
模型	Acc-2	F1分数			Acc-2		F1分数
MISA-BERT+CFTB	78.11		78.04	79.75		79.78
w/o-MSA model	65.04		65.41	62.42		62.29
w/o-text model	74.38		74.94	71.49		71.27
w/o-CFTB	77.17		74.39	75.90		79.04
Self-MM+CFTB	78.57		78.74	80.50		80.59
w/o-MSA model	64.93		64.79	62.39		62.47
w/o-text model	73.89		73.62	71.69		71.53
w/o-CFTB	77.76		77.72	78.75		78.75

注:“w/o”是without的缩写。加粗表明最优。

首先,我们精心设计了对比实验,将完整模型与一系列去除了MSA功能的衍生模型进行了详尽对比。这些衍生模型各具特色,分别采用了MISA和Self-MM等不同的MSA主干架构作为基准。实验结果显示,完整模型在各项性能指标上均展现出显著的优势,远超那些未纳入MSA功能的衍生版本。这一鲜明对比不仅凸显了在情感分析领域融入视频等多模态内容的重要性,还深刻揭示了多模态信息如何以其丰富性和全面性,为模型提供更为精准的上下文洞察,从而强化情感理解与预测的准确性。

随后,我们进一步聚焦于文本模态的影响力,针对每一主干模型,分别构建了去除文本模态的衍生模型进行对比分析。实验数据清晰地表明,无论在哪种评估维度下,我们的完整模型均显著优于缺失文本模态的变体。这一发现强有力地证明了文本模态在情感分析中的核心地位,其对于最终情感预测结果的影响深远且不可替代,进一步强调了文本模态作为情感分析基石的关键作用。

最后,我们深入探讨了如何在保持文本模态正面影响的同时,优化CFTB的整体性能。实验结果表明,通过精细调整策略,我们的模型不仅有效保留了文本模态对情感预测的正面影响,还进一步增强了模型的鲁棒性。这一发现深刻揭示了在MSA的复杂场景中,合理且高效地利用文本模态信息,是提升模型整体性能、实现精准情感预测的关键所在。

3.5 超参数设置

在深入探索多头注意力编码模块时,我们敏锐地意识到注意力头数量的设置作为一项关键超参数,对模型性能有着举足轻重的影响。为此,我们精心设计并实施了一系列实验,旨在揭示其最优配置。如图5所示,我们系统地调整了注意力头的数量,并在MOSI数据集上,以Acc-2和Acc-7准确率作为衡量标准,全面评估了CFTB算法的表现。

显示原图|下载原图ZIP|生成PPT

图5 CFTB不同注意力头数的超参数分析

Fig.5 Hyperparameter analysis of different attention head counts in CFTB

实验数据揭示了一个引人注目的趋势:随着多头注意力编码中注意力头数量的逐步增加,CFTB方法在初期阶段展现出了显著的性能提升。这一积极现象背后的逻辑在于,增加注意头的多样性有助于模型捕获更加丰富和细微的情感表达特征,进而增强了其理解复杂情感语境的能力。然而,当这一数量增长超过某个临界值(本研究中设定为6个)时,模型性能却意外地出现了下滑迹象。深入分析后,我们推测这可能是由于过多的注意头引入了不必要的复杂性,使得模型在训练过程中难以有效提炼关键信息,进而影响了其泛化能力和最终性能。

鉴于此,我们在所提出的方法中精心设定了注意力头的数量为6个,这一策略旨在平衡模型性能的优化与过拟合风险的规避,同时控制计算复杂度的合理增长。通过这一巧妙配置,我们的模型在MOSI数据集上成功实现了Acc-2和Acc-7准确率的显著提升,这一卓越表现不仅彰显了多头注意力编码模块的有效性,也强有力地验证了我们对注意力头数量选择的科学性与合理性。

4 结语

本文创新性地提出了CFTB算法,该算法巧妙地解决了文本模态与情感标签间的伪相关对模型预测准确性的不利影响。通过引入因果反事实推理机制,我们不仅能够保留文本模态对情感预测的正面影响,还成功剔除了伪相关带来的负面影响。这一策略赋予了我们的模型在应对多样化数据分布时更强的情感信号捕捉能力,进而显著提升了分类的精准度。为了全面验证CFTB算法的有效性,我们精心设计了实验方案,并在MOSEI与MOSI这两个权威数据集上进行了广泛而深入的测试。尤为值得一提的是,在面向OOD数据的挑战中,我们的模型展现出非凡的适应性和优越性,实验结果明确显示,相较于传统多模态情感计算模型,CFTB算法在OOD测试环境下实现了更高的性能表现,有效缓解了数据集偏差对模型性能的潜在制约。本文聚焦于文本模态与情感标签间的因果关系研究,未来我们计划针对视频模态与音频模态展开深入的反事实研究,旨在揭示这两种模态与情感标签之间更为复杂而微妙的因果联系。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	姚鸿勋, 邓伟洪, 刘洪海, 等. 情感计算与理解研究发展概述[J]. 中国图象图形学报, 2022, 27(6):2008-2035. YAO H X, DENG W H, LIU H H, et al. An overview of research development of affective computing and understanding[J]. Journal of Image and Graphics, 2022, 27(6):2008-2035.

[2]	SUN N, LI Q, HUAN R Z, et al. Deep spatial-temporal feature fusion for facial expression recognition in static images[J]. Pattern Recognition Letters, 2019, 119:49-61.

[3]	苏寒松, 陈震宇, 龙鑫, 等. 一种基于改进运动历史图像和支持向量机的行为识别算法[J]. 陕西师范大学学报(自然科学版), 2020, 48(2):17-24. SU H S, CHEN Z Y, LONG X, et al. A motion recognition method based on improved motion history image and support vector machine[J]. Journal of Shaanxi Normal University (Natural Science Edition), 2020, 48(2): 17-24.

[4]	YANG Q M, LIU C Y. Application of twin objective function SVM in sentiment analysis[M]//Frontiers in Artificial Intelligence and Applications. Amsterdam: IOS Press, 2020.

[5]	ODUMUYIWA V, OSISIOGU U. A systematic review on hidden Markov models for sentiment analysis[C]//2019 15th International Conference on Electronics,Computer and Computation(ICECCO),Abuja,Nigeria. New York: IEEE, 2019:1-7.

[6]	谢娟英, 刘然. 基于深度学习的目标检测算法研究进展[J]. 陕西师范大学学报(自然科学版), 2019, 47(5):1-9. XIE J Y, LIU R. The study progress of object detection algorithms based on deep learning[J]. Journal of Shaanxi Normal University (Natural Science Edition), 2019, 47(5): 1-9.

[7]

TANG

J J

, LI

, JIN

X Y

, et al. CTFN:hierarchical learning for multimodal sentiment analysis using coupled-translation fusion network[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1:Long Papers).Stroudsburg,PA, USA: Association for Computational Linguistics, 2021:5301-5311.

[8]	李家宁, 熊睿彬, 兰艳艳, 等. 因果机器学习的前沿进展综述[J]. 计算机研究与发展, 2023, 60(1):59-84. LI J N, XIONG R B, LAN Y Y, et al. Overview of the frontier progress of causal machine learning[J]. Journal of Computer Research and Development, 2023, 60(1):59-84.

[9]	WU Y, LIN Z J, ZHAO Y Y, et al. A text-centered shared-private framework via cross-modal prediction for multimodal sentiment analysis[C]//Findings of the Association for Computational Linguistics:ACL-IJCNLP 2021.Stroudsburg,PA, USA: Association for Computational Linguistics, 2021:4730-4738.

[10]	PANDA R, ZHANG J M, LI H X, et al. Contemplating visual emotions:understanding and overcoming dataset bias[C]//European Conference on Computer Vision. Cham: Springer, 2018:594-612.

[11]	LEE Y L, TSAI Y H, CHIU W C, et al. Multimodal prompting with missing modalities for visual recognition[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Vancouver,BC,Canada. New York: IEEE, 2023:14943-14952.

[12]	BAYOUDH K. A survey of multimodal hybrid deep learning for computer vision:architectures,applications,trends,and challenges[J]. Information Fusion, 2024, 105:102217.

[13]

杨文武, 普园媛, 赵征鹏, 等. 基于多层特征描述及关系学习的智能图像情感识别[J]. 陕西师范大学学报(自然科学版), 2019, 47(5):40-48.

YANG

W W

, PU

Y Y

, ZHAO

Z P

, et al. Image emotion recognition based on multi-levels features representation and relationship learning[J]. Journal of Shaanxi Normal University (Natural Science Edition), 2019, 47(5): 40-48.

[14]	TSAI Y H H, BAI S J, LIANG P P, et al. Multimodal transformer for unaligned multimodal language sequences[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 6558-6569.

[15]	YU W M, XU H, YUAN Z Q, et al. Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(12):10790-10797.

[16]

王逸豪, 黄敬英, 范勤勤. 基于因果模型和多模态多目标优化的两阶段特征选择方法[J]. 陕西师范大学学报(自然科学版), 2023, 51(5):25-34.

DOI

WANG

Y H

, HUANG

J Y

, FAN

Q Q

. A two-stage feature selection method based on causal model and multimodal multi-objective optimization[J]. Journal of Shaanxi Normal University (Natural Science Edition), 2023, 51(5): 25-34.

[17]	LI Y C, WANG X, XIAO J B, et al. Invariant grounding for video question answering[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),New Orleans,LA,USA. New York: IEEE, 2022:2918-2927.

[18]	LI Y C, YANG X, SHANG X D, et al. Interventional video relation detection[C]//Proceedings of the 29th ACM International Conference on Multimedia,Virtual Event China. ACM, 2021:4091-4099.

[19]	ZHANG X, ZHANG F F, XU C S. Multi-level counterfactual contrast for visual commonsense reasoning[C]//Proceedings of the 29th ACM International Conference on Multimedia,Virtual Event China. New York: ACM, 2021:1793-1802.

[20]	NI H, SONG J K, ZHU X S, et al. Camera-agnostic person re-identification via adversarial disentangling learning[C]// Proceedings of the 29th ACM International Conference on Multimedia,Virtual Event China. New York: ACM, 2021:2002-2010.

[21]	YANG D K, YANG K, LI M C, et al. Robust emotion recognition in context debiasing[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Seattle,WA,USA. New York: IEEE, 2024:12447-12457.

[22]	WANG W J, FENG F L, HE X N, et al. Clicks can be cheating:counterfactual recommendation for mitigating clickbait issue[C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval,Virtual Event Canada. ACM, 2021:1288-1297.

[23]	DEVLIN J, CHANG M W, LEE K, et al. BERT:pre-training of deep bidirectional Transformers for language understanding[EB/OL]. [2024-07-14]. http://arxiv.org/abs/1810.04805.

[24]	GANDHI A, ADHVARYU K, PORIA S, et al. Multimodal sentiment analysis:a systematic review of history, datasets, multimodal fusion methods, applications, challenges and future directions[J]. Information Fusion, 2023, 91: 424-444.

[25]

BAGHER

Z A

, LIANG

P P

, PORIA

, et al. Multimodal language analysis in the wild:CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Melbourne,Australia.Stroudsburg,PA, USA: Association for Computational Linguistics, 2018:2236-2246.

[26]	WANG W J, LIN X Y, FENG F L, et al. Causal representation learning for out-of-distribution recommendation[C]//Proceedings of the ACM Web Conference 2022,Virtual Event,Lyon France. New York: ACM, 2022:3562-3571.

[27]	MITTAL T, BERA A, MANOCHA D. Multimodal and context-aware emotion perception model with multiplicative fusion[J]. IEEE MultiMedia, 2021, 28(2): 67-75.

[28]	WANG S L, YANG D K, ZHAI P, et al. TSA-net:tube self-attention network for action quality assessment[C]//Proceedings of the 29th ACM International Conference on Multimedia,Virtual Event China. ACM, 2021:4902-4910.

[29]	SUN L C, LIAN Z, LIU B, et al. hiCMAE:hierarchical contrastive masked autoencoder for self-supervised audio-visual emotion recognition[J]. Information Fusion, 2024, 108:102382.

[30]	ZADEH A, CHEN M H, PORIA S, et al. Tensor fusion network for multimodal sentiment analysis[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing,Copenhagen,Denmark.Stroudsburg,PA, USA: Association for Computational Linguistics, 2017:1103-1114.

[31]	NIU Y L, TANG K H, ZHANG H W, et al. Counterfactual VQA:a cause-effect look at language bias[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Nashville,TN,USA. New York: IEEE, 2021:12695-12705.

[32]	HAZARIKA D, ZIMMERMANN R, PORIA S. MISA:modality-invariant and-specific representations for multimodal sentiment analysis[C]//Proceedings of the 28th ACM International Conference on Multimedia,Seattle WA USA. ACM, 2020:1122-1131.

[33]	SUN T, WANG W J, JING L, et al. Counterfactual reasoning for out-of-distribution multimodal sentiment analysis[C]//Proceedings of the 30th ACM International Conference on Multimedia.Lisboa Portugal. ACM, 2022:15-23.

[34]	LIN Z J, LIANG B, LONG Y F, et al. Modeling intra- and inter-modal relations: hierarchical graph contrastive learning for multimodal sentiment analysis[J]. Proceedings of the 29th International Conference on Computational Linguistics, 2022, 29(1): 7124-7135.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

图1 MAS任务文本伪相关情景

图2 MOSEI数据集中常见单词分布

1 相关工作

1.1 多模态情感分析

1.2 因果推理

2 研究方法

2.1 任务制定

2.2 因果关系

图3 因果图示例

2.3 反事实推理

2.4 CFTB算法

2.4.1 算法结构

图4 基于反事实文本去偏的多模态情感分析(CFTB)概述

2.4.2 训练阶段

2.4.3 推理阶段

3 实验设计与结果分析

3.1 实验数据集与基准方法

3.2 实验设置与评价指标

3.3 实验结果分析

表1 不同方法在MOSEI和MOSI数据集上的OOD测试性能比较 单位:%

3.4 消融实验

表2 MOSEI和MOSI数据集的2分类(positive/non-positive)消融实验结果 单位:%

3.5 超参数设置

图5 CFTB不同注意力头数的超参数分析

4 结语

References

表1 不同方法在MOSEI和MOSI数据集上的OOD测试性能比较单位:%

表2 MOSEI和MOSI数据集的2分类(positive/non-positive)消融实验结果单位:%