人类纷繁复杂的情感世界通过多样化的渠道得以展现,如文本、表情和声音等
[1]。情感分析旨在深入这些多样化的表达形式中,精准捕捉并解析情感特征,进而实现情感分类。传统的情感分析多聚焦于单一的文本模态,但随着社交媒体的蓬勃兴起,催生了获取多模态数据的全新途径。相较于仅依赖文本的单模态分析方法,多模态情感分析(multimodal sentiment analysis, MSA)展现出了显著的优势。MSA巧妙融合了来自不同模态的丰富信息,不仅提升了情感识别的准确性,还增强了系统的鲁棒性,使之更加贴近人类情感交流的自然形态。因此,MSA已成为情感分析领域的研究热点与前沿阵地。
当前,MSA领域的研究重心聚焦于两大关键议题:多模态融合
[2]与情感识别。以往,研究者们多依赖于传统的机器学习方法
[3]进行探索,其中,Yang等
[4]开创性地引入了孪生支持向量机(TWSVM),相较于传统的单目标函数支持向量机,该方法在提升模型精度与稳定性方面展现出了显著优势。同时,文献[
5]则基于隐马尔可夫模型构建了文本语义定向分析框架,极大地增强了网络公共意见方向分析的准确性。然而,随着深度学习
[6]技术的日新月异,MSA领域迎来了前所未有的发展机遇。近年来,深度学习技术在MSA中的应用日益广泛,文献[
7]提出的并联Transformer单元(CTFN),凭借其强大的能力,有效挖掘了多模态数据间的内在联系,为MSA提供了更加精确且高效的解决方案。但在享受机器学习技术带来的便利之时,我们也面临着一个长期存在的挑战——模型在训练过程中往往倾向于捕捉输入与输出之间的相关关系,而非真正的因果关系,这极大地限制了模型的效能与泛化能力。对此,图灵奖得主Bengio曾强调,机器学习能够建模并理解输入输出之间的因果关系至关重要
[8]。因此,未来MSA领域的研究需更加注重因果推理的融入,以实现更加智能、可靠的情感分析系统。
并且Wu等
[9]指出,在MSA中,文本模态占据了举足轻重的地位,但同时也潜藏着风险——它可能诱导MSA模型错误地构建文本与情感标签之间虚假的相关性。
图1~
2直观展示了一个现象:在MOSEI数据集中,“movie”一词与“Negative”标签共现的频率异常偏高,这极易诱使模型陷入误区,错误地捕捉到二者间并不存在的依赖纽带。进一步地,
图1的测试环节暴露了这一问题的严重性:面对同样包含“movie”但实则表达积极情感的样本,模型因选择了伪相关路径,从而输出了错误的情感标签。为解决这一长期困扰业界的伪相关问题,学界已展开了多方面的探索,其中Panda等
[10]通过精心构建规模庞大的情感WEBEmo数据集,试图从源头上减少数据偏差,但此方法不可避免地伴随着高昂的时间与人力成本。面对这一挑战,另一批学者另辟蹊径,将因果推理的智慧引入机器学习领域。CLUE模型巧妙运用因果机器学习技术,旨在剥离文本模态的直接非因果性影响, 从而有效降低伪相关风险。然而,我们亦需审慎思考:文本模态中的正面影响,作为辅助模型识别情感的有效线索,实则不应被一概抹除。
针对上述挑战,本文创新性地提出了一种基于反事实文本去偏(counterfactual text debiasing, CFTB)的MSA模型,通过构建结构因果图,深入剖析了文本模态对模型预测的双重影响路径:一是直接且误导性的捷径,它构成了伪相关;二是间接但更为稳健的路径,该路径能够综合其他模态的信息,提炼出更为可靠的文本语义。在推理阶段,CFTB算法巧妙地构建了一个反事实场景,这一策略的核心在于从全效应中精准剥离文本模态的伪相关部分,同时保留其正面影响,再与间接影响协同作用,共同指导情感预测。此举不仅有效规避了伪相关带来的偏差,还促进了多模态信息间的深度融合与互补。综上,本文主要贡献有以下几方面。
2)设计并实现了CFTB算法,该算法为现有的MSA模型注入了新的活力,通过反事实推理这一先进方法,有效削弱了文本模态与标签之间的伪相关联系,降低了噪声干扰,实现了模型性能的显著提升。