欢迎访问陕西师范大学学报(自然科学版)官方网站!
人工智能专题 主持人:谢娟英

基于文本增强的共注意机制的多模态标签推荐

  • 冯皓楠 ,
  • 何智勇 ,
  • 马良荔 , *
展开
  • 海军工程大学 电子工程学院, 湖北 武汉 430000
*马良荔,女,教授,博士生导师,主要从事系统结构、系统可靠性等方面研究。E-mail:

Office editor: 宋轶文

收稿日期: 2022-02-03

  网络出版日期: 2023-09-28

基金资助

十三五预研项目(41412010801)

Multi-modal label recommendation based on text-enhanced co-attention mechanism

  • FENG Haonan ,
  • HE Zhiyong ,
  • MA Liangli , *
Expand
  • School of Electronic Engineering, Naval University of Engineering, Wuhan 430000, Hubei, China

Received date: 2022-02-03

  Online published: 2023-09-28

摘要

针对新型社交平台用户发布帖子时通常会使用标签来标记帖子的关键词或话题来提高自己在社交媒体中参与度的问题,使用了层级结构,从单词、短语和句子三个层级来提取文本特征。并且提出文本内容的汇总注意机制,将每个层级的语义内容总结为一个特征向量,然后提出一个文本增强的共注意模型,将每个层级的语义分别与图像模态进行语义融合。同时,考虑到不同用户使用标签的偏好习惯等各不相同,引入一个外部存储单元来记录每个用户的历史标签习惯,计算当前待推荐帖子与历史帖子之间的相似度影响向量,建立用户的个性化模块。在真实数据集上的实验结果表明,文中基于多模态帖子内容理解和个性化模块分析模型相比与其他模型,在精确率、召回率和F1分数上都有很大提升;提出的两个关于多模态内容理解的注意力机制和用户的个性化建模都对整体推荐效果有显著的贡献。

本文引用格式

冯皓楠 , 何智勇 , 马良荔 . 基于文本增强的共注意机制的多模态标签推荐[J]. 陕西师范大学学报(自然科学版), 2023 , 51(5) : 60 -66 . DOI: 10.15983/j.cnki.jsnu.2023027

Abstract

In new social platforms, users usually use hashtags to mark the keywords or topics of the posts when posting posts, which will increase their participation in social media. In this article, considering that the text of the user’s post can better express the user’s own thoughts, a hierarchical structure is used to extract text features from the three levels of words, phrases, and sentences, and propose a summary attention mechanism for the text content. The semantic content of each level is summarized as a feature vector, and then a text-enhanced common attention model is proposed to merge the semantics of each level with the image modal. At the same time, considering that different users have different hashtag preferences, an external storage unit is introduce to record the historical hashtag habits of each user, calculate the similarity influence vector between the current post to be recommended and the historical post, and establish the user personalized module. The overall hashtag recommendation results are generated based on the analysis of multi-modal post content understanding and personalized modules. Experimental results on real data sets show that our model has a great improvement in accuracy, recall and F1 score compared with other models, the two attention mechanisms for multi-modal content understanding and the user’s personalized modeling proposed in this paper all contribute significantly to the overall recommendation effect.

社交网络是产生于大数据时代的一类重要的互联网应用,新型社交媒体平台(如Twitter、Instagram、微博等)已经快速发展成为影响力广泛的新媒体平台。在此平台上,用户可以通过上传简短的文字和图片来记录生活或表达情感并将其分享给好友。此类社交平台还包含一种特定形式的元数据标签(hashtag),它是一串以“#”为前缀的字符,用于标记博文中的关键字或主题,标签在方便用户与其他人进行互动的同时也可以增强帖子的话题度。例如,在Instagram上,有至少一个标签的帖子比没有任何标签的帖子的用户参与度高出12.6%。同时,hashtag已经被证明在许多任务中都是十分有帮助的,包括情感分析[1]、信息检索[2]和主题提取[3]等。为了方便平台对标签的维护与管理,防止用户随意给博文添加标签造成海量标签数据冗余,在社交媒体平台上进行标签推荐是十分必要的。
在一篇博文的文本和图片的多模态信息中,文本模态占有主导地位,包含了用户想要表达的意思的主要描述信息,这也是许多标签推荐任务只使用文本内容进行推荐的原因,但同时图片模态中也包含了细微的附加信息。所以在对帖子的内容进行建模时,要更注重分析文本模态的信息,全面提取文本的语义信息。并且,图像和文本的相关性建模以及两者之间的交互作用对于更好地了解帖子的语义信息也至关重要,而这也会影响标签推荐的性能。
另外,由于马太效应的影响,多数用户的喜好会在多次迭代后逐渐成为所有用户的“喜好”,导致推荐结果可能丧失了对不同用户的个性化推荐,所以根据用户的特有属性(历史行为、相关偏好等)来给用户推荐可能感兴趣的标签也是本文的研究重点。由于年龄、性别等社会背景的影响,不同用户对相似的多模态内容可能有不同的想法与观点。换言之,面对同一个话题的讨论,不同的用户可能偏好使用不同的标签,这使得个人偏好是标签推荐任务中非常大的影响因素。
图1展示了Instagram的一个示例,文本中提到的bunny只在图片中占了很小的一部分,但是标签中却有#easterbunny,表明文本中常常会指出在图片中占比不重、但用户却十分关心的事物,所以对文本模态的着重分析和对用户的个性化建模十分有必要。同时,图片和文本中都能找到对标签#dog的描述和只能从图片中找到对标签#flower的描述,这也证明了图片模态对此任务也有一定作用。
图1 Instagram的一个示例

Fig.1 An example of Instagram

为了给新型社交媒体平台设计一种完整而有效的标签推荐方法,本文提出一个文本增强的共注意机制个性化标签推荐模型,该模型可以同时考虑到帖子中不同模态的信息和不同用户的个性化信息。

1 相关工作

近年来,有许多基于文本内容进行标签推荐的研究,随着BERT[4]在自然语言处理方面的成功,Kaviani等[5]将其应用于生成博文文本的嵌入向量中。Zhang等[6]注意到标签只与博文图像的特定区域相关。因此,他们提出了一个联合注意网络,结合文本和视觉信息来推荐标签。该网络能够同时利用图片和文本信息作为多模态特征,通过注意力机制融合图片注意力和文本注意力,产生图片注意力时,利用文本信息来进行指导;产生文本注意力时,利用图片信息进行指导,以达到提升精度的目的。这个方法明显的优点在于可以考虑到不同模态的数据信息。张素威[7]提出了一个基于异质注意力的图文融合标签推荐模型,既强化了跨模态的共性信息,也考虑了不同模态差异信息间的互补性。Ma等[8]也提出了共注意记忆网络(CoA-MN),合并标签的历史博文来表示这些标签,CoA-MN的结果优于基于分类的方法。
Peng等[9]提出了自适应神经记忆网络,使用卷积层编码博文,使用递归神经网络编码标签,并对用户过去的推文历史进行建模。Kou等[10]结合内容相似度、与使用相似标签的用户的协同过滤和话题兴趣3个特征的权重推荐标签。Javari等[11]从不同角度研究了话题标签推荐,建立了一个基于图表的具有代表性的用户和标签模型,利用神经网络协同过滤方法广义矩阵分解,将具有代表性的用户和标签投影到潜在空间中,并且设置一个关注权重来优化矩阵。Zhang等[12]将图像、文本以及用户习惯的影响集成到一个单一模型进行标签推荐。Alsini等[13]概述了社区检测算法,这些算法用于对志同道合的用户进行分组。文献[14]研究了基于标签使用、话题、关注者和提及率的4种关系对社区话题标签推荐绩效的影响,发现社会关系水平会影响话题标签推荐的效果。

2 模型

本文将任务定义为多标签分类问题。考虑到社交媒体平台数据的特殊性,我们首先提取帖子多模态内容的语义信息,采用层级结构从单词、短语和句子3个层次提取文本特征信息,再将每个层次的特征信息都通过文本汇总注意机制汇总为一个语义特征向量,然后将每个层级的语义特征向量与提取的图像特征向量融合,即文本增强的共注意机制。使用多层感知器(multi-layer perceptron,MLP)递归编码这3个层次的共注意特征,得到总的多模态内容的语义特征向量。另外,用户的个性化推荐模块中外部存储单元使用用户id进行索引,在用户的历史记录中随机采样一部分存储在外部存储单元。计算历史帖子与待推荐帖子之间的相似度影响向量。连接2个模块的输出向量可得全部的特征向量。进行归一化操作后,就可预测出模型推荐的标签。总体模型如图2所示。
图2 模型总体结构

Fig.2 The overall structure of the model

2.1 博文内容的特征提取

首先,对帖子的多模态内容进行建模。由于帖子内容中文本起主导作用,为了全面提取文本的语义信息,本文使用层次建模结构对文本的特征进行提取[15],即在3个层次上处理文本:单词层次、短语层次和句子层次,可以更聚焦于文本所表达的内容。在每个层次都通过注意力机制将文本内容汇总为一个语义特征向量,称之为文本内容的汇总注意机制TeA。例如,在单词层次上,将每个单词变成一个嵌入向量qi,得到Qw=[ q 1 w, q 2 w,…, q N w],其中N为文本的最大长度。同理, q t p q t R分别表示为t位置的短语嵌入和文本嵌入。层级结构的具体特征提取过程如图3所示。
图3 文本层次特征提取

Fig.3 Text hierarchical feature extraction

为了计算短语特征,对单词嵌入向量进行一维卷积,在每个词的位置用一字、两字和三字3种窗口大小的滤波器来计算单词向量的内积。对于第t个单词,其窗口大小为s的卷积输出为
q ^ s , t p=tanh( W c s q t : t + s - 1 w),
式中 W c s为权重参数,s∈{1,2,3}。单词级别的特征Qw在输入二元和三元语言模型卷积之前被适当地填充0,以保持卷积后序列的长度。
在得到卷积结果后,在每个单词位置的不同多元语言模型上应用最大池化方法来获得短语级特征
q t p=max( q ^ 1 , t p, q ^ 2 , t p, q ^ 3 , t p),
式中t∈{1,2,…,N}。再使用池化方法在每个时间步自适应地选择不同的语法特征,同时保持原始序列的长度和顺序。
最后,使用一个长短期记忆网络(long and short term memory network,LSTM)在最大池化之后编码短语级特征 q t p,其中t时刻LSTM的隐藏向量是它对应的句子级特征 q t s
对图像建模时,使用预先训练的VGG-16网络[16]。通过保留图片区域特征向量来构造图像的多个特征向量。因为VGG-16的最后一个池化层是7×7×512张量,对应7×7个区域,每个区域都由一个512维向量表示。每幅图像保持M=7×7=49个区域特征向量。图像的特征矩阵可以写成v*=[ v 1 *, v 2 *,…, v M *], v i *∈RD,i=1,2,…,M,D=512。为方便起见,在VGG网络后增加了一个全连通层,将每个D维区域特征向量转换成与文本特征向量具有相同维数的新向量。因此,当 v i *∈RD时,图像特征矩阵变为v=[v1,v2,…,vM],i=1,2,…,M

2.2 文本增强的注意机制模型

由于采用了与先前方法不同的建模方式,本文将文本汇总注意机制(TeA)应用于共注意机制[17](CoA)中,即将文本输入变成了3种不同层级的文本特征,并且在每个层级上与图像的注意力进行语义融合,称之为文本增强的机制(CoAtt)模型。模型简略为3个步骤(如图4所示):1)在每个层级使用TeA模型将文本内容汇总为单个向量 s ^;2)根据文本汇总表示 s ^引导图像注意;3)根据对应区域的图像特征引导文本注意。
图4 文本增强的共注意机制(CoAtt)

Fig.4 Text-enhanced co-attention mechanism

文本内容在经过不同层级的特征提取后,可以通过一个文本汇总注意机制TeA将每个层级特征表示为一个特征向量。例如,单词级的文本汇总注意向量如(3)式所示:
$\begin{array}{l}\boldsymbol{H}^{t}=\tanh \left(\boldsymbol{W}_{t} \boldsymbol{Q}^{w}\right), \\\boldsymbol{a}^{\iota}=\operatorname{softmax}\left(\boldsymbol{W}_{h t}^{\mathrm{T}} \boldsymbol{H}^{\iota}+\boldsymbol{b}_{h t}\right), \\\hat{\boldsymbol{s}}^{w}=\sum_{k=1}^{N_{t}} \boldsymbol{a}_{k}^{t} \boldsymbol{Q}_{k}^{w} 。\end{array}$
式中:Wt∈Rd×d;Wht∈Rd;bht∈R为参数; Q k w为矩阵Qw的第k列。
将文本汇总为单一向量 s ^之后,使用单层神经网络来组合 s ^和图像特征,然后使用softmax层来生成在文本引导下的图像注意分布。公式如式(4)所示:
$\begin{array}{l}h_{I}=\tanh \left(\boldsymbol{W}_{v_{I}} v_{I} \odot \boldsymbol{W}_{v_{T}} v_{T}\right), \\p_{I}=\operatorname{softmax}\left(\boldsymbol{W}_{p_{I}} h_{I}+\boldsymbol{b}_{p_{I}}\right) 。\end{array}$
其中:vI∈Rd×m;vT∈Rd; W v I W v T∈Rk×d; W p I∈Rk; b p I是参数;m=49;d是特征表示的维度,对应于每个区域的注意概率pI∈Rmm维向量。另外,使用☉表示图像特征矩阵和文本特征向量的组合,是将矩阵的每一列用向量连接而得。
基于每个图像区域i的注意概率pi,新的图像表示为图像向量的加权和,如式(5)所示:
v ˜ I= i pivi
然后,使用新的图像表示 v ˜ I引导文本的注意
$\begin{array}{l}\boldsymbol{h}_{T}=\tanh \left(\boldsymbol{W}_{\tilde{\boldsymbol{v}}_{I}} \tilde{\boldsymbol{v}}_{I} \odot \boldsymbol{W}_{T} \boldsymbol{v}_{T}\right), \\\boldsymbol{p}_{T}=\operatorname{softmax}\left(\boldsymbol{W}_{p_{T}} \boldsymbol{h}_{T}+\boldsymbol{b}_{p_{T}}\right), \\\hat{\boldsymbol{v}}_{T}=\sum_{i} \boldsymbol{p}_{i} \boldsymbol{v}_{i} 。\end{array}$
式中:vT∈Rd×T; v ^ T∈Rd; W v IWT∈Rk×d; W p T∈Rk; b p T是参数;T是文本最大长度;d是特征表示的维度。
最后,使用多层感知器对3个层级的共注意特征进行递归编码,得到总的帖子特征。如图5所示。
$\begin{array}{l}\boldsymbol{h}^{w}=\tanh \left(\boldsymbol{W}_{w}\left(\hat{\boldsymbol{q}}^{w}+\hat{\boldsymbol{v}}^{w}\right)\right), \\\boldsymbol{h}^{p}=\tanh \left(\boldsymbol{W}_{p}\left[\left(\hat{\boldsymbol{q}}^{p}+\hat{\boldsymbol{v}}^{p}\right), \boldsymbol{h}^{w}\right]\right), \\\boldsymbol{h}^{s}=\tanh \left(\boldsymbol{W}_{s}\left[\left(\hat{\boldsymbol{q}}^{s}+\hat{\boldsymbol{v}}^{s}\right), \boldsymbol{h}^{p}\right]\right), \\\boldsymbol{p}=\operatorname{softmax}\left(\boldsymbol{W}_{h} \boldsymbol{h}^{s}\right)\end{array}$
式中:WwWpWsWh是权重参数;[·]是对2个向量的串联运算。
图5 共注意特征编码

Fig.5 Co-attention feature encoding

2.3 用户的个性化推荐

第一步是随机抽取少量用户的历史帖子。首先分配一个内存单元来存储每个用户的习惯,这个内存单元可以使用用户id进行索引,相应的标签作为外部存储。在对每个用户采样L篇历史文章及其标签时,应将L限制为相对较小的数量,因为用户可能只发布了少量的博文。第二步是学习这些历史博文中用户使用标签的习惯。用户个性化建模的主要流程如图6所示。
图6 用户个性化建模

Fig.6 User personalized modeling

采用2.1节中所述的方法提取历史博文的特征,通过2.2节中所述的方法表示帖子的特征向量为 p ˜={ p ˜ i| p ˜ i∈Rd,i=1,2,…,L}。对于存储单元中的历史帖子,使用Ti表示第i个历史帖子的标签集。使用与文本特征提取相同的层级方法,首先将每一组标签Ti嵌入ti R d × N t中,其中Nt为标签集的最大长度,d为标签嵌入维数,为方便设为与词嵌入维数相等。再使用TeA将每个标签集汇总为一个向量,称为历史影响向量 t ˜ i。存储单元中的标签影响向量表示为{ t ˜| t ˜ i∈Rd,i=1,2,…,L}。然后,测量当前查询博文和历史博文之间的相似度
ri=tanh(p p ˜ i)。
式中:☉表示元素的乘法;ri表示当前查询帖子与第i个历史帖子的相关向量。结合所有相关向量,可得相似度矩阵r=[r1,r2,…,rL],进而可以计算出每个历史博文的权重
as=softmax( W T ss+bs)。
式中:Ws∈Rd;bs∈R是参数;as∈RL是一个包含历史文章权重的向量。最后,影响向量
t= i = 1 L a i s t ˜ i

3 实验

在实验环节,实验设置为Ubuntu 20.04、CPU i9-10900X、64 GB内存、NVIDIA GeForce RTX 3090,实验所需环境为Python3.6、TensorFlow1.4、Keras版本为2.1.5、Numpy版本为1.19、H5py、Scipy。

3.1 数据集

本实验使用文献[12]中从Instagram上收集的数据集。首先,随机选择15 000多名用户并抓取他们所有的帖子;其次,删除一些低频的标签和单词,并保留包含图像和文本以及至少一个标签的帖子,其中少于5个单词的帖子也会被删除;最后,如果用户在数据集中的文章少于20篇,删除该用户及其文章。最终的数据集包含7 497个用户的624 520条帖子,有3 896个独特的话题标签和212 000个不同的单词。

3.2 实验设置

模型训练使用随机梯度下降,优化函数使用Adam优化算法,dropout设置为0.75,batch_size设置为512,embedding_size设置为300,博文文本序列的最大长度为30,博文图片尺寸为224×224,并使用预先训练的VGG-16网络进行训练,博文标签的最大长度为48,外部存储的内存大小L=2。数据集中随机选取90%的数据作为训练集,剩下的10%作为测试集。
采用的评价指标包括精度(precision,记作Pr)、召回率(recall,记作Rc)和F1分数(记作F1)。例如,Prk表示每个帖子推荐使用K个标签时的精度值,其中K={1,3,5,7,9}。这3个指标的数值越高越好。

3.3 对比模型

CoA (Co-Attention)[6]是目前最先进的针对多模态帖子(包含文本和图像)的话题标签推荐方法。该模型提取帖子特征后利用协同注意机制进行跨模态融合,然后通过分类方法预测出推荐的标签。
MaCon[12]是一种结合了共注意力网络和用户个性化信息的多模态标签推荐方法。它采用并行协同注意的方法理解多模态帖子特征,并学习用户喜好习惯等信息以获得更好的推荐结果。

3.4 实验结果

表1中观察到,本文所提方法在所有3个评估指标上都明显优于其他对比模型。与CoA模型相比,当K在1到9之间变化时,本文方法在精度、召回率和F1分数方面分别可以提高12.6%~23.1%,9.6%~23.7%和11.6%~14.6%。与MaCon模型相比,当K在1到9之间变化时,本文方法在精度、召回率和F1分数方面分别可以提高4.6%~8.1%,4.0%~9.6%和4.7%~7.3%。这些显著的改进证明了本文方法的有效性。
表1 实验结果

Tab.1 Experimental results

K CoA MaCon 本文方法
Pr Rc F1 Pr Rc F1 Pr Rc F1
1 0.409 0.129 0.165 0.559 0.185 0.234 0.640 0.225 0.281
3 0.312 0.228 0.208 0.423 0.315 0.287 0.498 0.395 0.352
5 0.268 0.286 0.217 0.353 0.378 0.290 0.427 0.488 0.363
7 0.237 0.328 0.218 0.326 0.458 0.305 0.379 0.551 0.360
9 0.216 0.362 0.217 0.296 0.503 0.301 0.342 0.599 0.352
在比较方法中,MaCon方法比CoA方法的效果要好,这可能是由于MaCon方法对用户进行了个性化建模,说明了对用户个性化推荐的有效性。而在同样都有用户个性化建模的本文方法和MaCon方法中,本文方法的效果也有所提升,这主要是由于我们将文本内容进行了3个层级的提取,在每个层级上都进行了文本注意汇总,并与图片特征进行了文本增强的共注意特征融合,多方位地关注了图像的各个区域。总体来说,本文提出的文本汇总注意机制和文本增强的注意机制方法在帖子内容信息的提取方面非常有效,并且用户的个性化建模也对实验结果有所帮助。

4 结语

本文提出了一种文本增强的共注意机制,在社交媒体平台上进行多模态主题标签推荐任务。由于博文和图片在此任务中并不是同等重要的,文本在多模态内容中起主导作用,因此我们使用了文本层级特征提取。在每个层级都构建了文本内容汇总注意机制,以汇总文本在不同层级的语义特征。并且构建了文本增强的共注意机制,在3个层级上与图片特征进行融合。同时,还加入了用户的个性化建模,对用户历史数据随机采样并存入外部存储单元,计算待推荐帖子与历史帖子的相似度影响向量。实验结果表明,在采用的3个评价指标下,本文模型的性能优于现有2种对比模型(CoA和MaCon),这说明文本汇总机制中使用文本层级特征提取和在不同层级与图片特征融合的方法都对提取多模态特征起到了重要作用,同时用户的个性化模态也取得了很好的效果。
[1]
HASAN M, AGU E, RUNDENSTEINER E. Using hashtags as labels for supervised learning of emotions in twitter messages[C]// ACM SIGKDD Workshop on Health Informatics. New York: ACM, 2014.

[2]
HIGHFIELD T, LEAVER T. A methodology for mapping Instagram hashtags[J]. First Monday, 2015, 20(1):1-11.

[3]
LIM K W, BUNTINE W. Twitter opinion topic model:Extracting product opinions from tweets by leveraging hashtags and sentiment lexicon[C]// Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. New York: ACM, 2014:1319-1328.

[4]
DEVLIN J, CHANG M W, LEE K, et al. BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].[2022-01-04]. https://arxiv.org/abs/1810.04805.

[5]
KAVIANI M, RAHMANI H. EmHash:Hashtag Recommendation using Neural Network based on BERT Embedding[C]// 2020 6th International Conference on Web Research(ICWR).Tehran:IEEE, 2020:113-118.

[6]
ZHANG Q, WANG J W, HUANG H R, et al. Hashtag recommendation for multimodal microblog using co-attention network[C]// Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2017:3420-3426.

[7]
张素威. 社交网络多模态内容标签推荐技术研究[D]. 南京: 南京大学, 2020.

ZHANG S W. Research on hashtag recommendation for multimodal contents in social networks[D]. Nanjing: Nanjing University, 2020.

[8]
MA R F, QIU X P, ZHANG Q, et al. Co-attention memory network for multimodal microblog’s hashtag recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 33(2):388-400.

[9]
PENG M L, LIN Y S, ZENG L J, et al. Modeling the long-term post history for personalized hashtag recommendation[C]// China National Conference on Computational Linguistics. Cham: Springer International Publishing, 2019: 495-507.

[10]
KOU F F, DU J P, YANG C X, et al. Hashtag recommendation based on multi-features of microblogs[J]. Journal of Computer Science and Technology, 2018, 33(4):711-726.

DOI

[11]
JAVARI A, HE Z K, HUANG Z J, et al. Weakly supervised attention for hashtag recommendation using graph data[C]// Proceedings of the Web Conference 2020. New York: ACM, 2020:1038-1048.

[12]
ZHANG S W, YAO Y, XU F, et al. Hashtag recommendation for photo sharing services[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33:5805-5812.

DOI

[13]
ALSINI A, DATTA A, HUYNH D Q, et al. Community Aware Personalized Hashtag Recommendation in Social Networks[C]// Communications in Computer and Information Science. Singapore: Springer, 2019: 216-227.

[14]
ALSINI A, DATTA A, HUYNH D Q. On utilizing communities detected from social networks in hashtag recommendation[J]. IEEE Transactions on Computational Social Systems, 2020, 7(4):971-982.

DOI

[15]
LU J S, YANG J W, BATRA D, et al. Hierarchical question-image co-attention for visual question answering[EB/OL].[2022-04-03]. https://arxiv.org/abs/1606.00061.

[16]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL].[2022-04-03]. https://arxiv.org/abs/1409.1556.

[17]
SUKHBAATAR S, WESTON J, FERGUS R, et al. End-to-end memory networks[EB/OL].[2022-04-03]. https://arxiv.org/abs/1503.08895v4.

文章导航

/