摘要
现有谣言检测方法主要依赖文本语义特征和网络传播特征,但以短文本为主的源推文易导致语义特征不足,且用于提取传播特征的传播树易产生海量数据。为了解决上述问题,提出一种融合丰富语义和全局传播的谣言检测方法——多视图图神经网络。该模型利用源文本获取结构语义关系,借助外部知识提取潜在语义关系,通过源推文及其响应用户得到用户之间的全局传播关系,最后通过注意力融合机制自动学习不同视图的特征权重,实现信息自适应融合,提升谣言检测准确率。其中,采用Word2Vec对源推文的内容语义进行补充。实验结果表明:利用源文本、外部知识和响应用户分别构图,可有效捕获丰富语义信息和简洁全局传播关系;在公共数据集Twitter15和Twitter16上的性能优于一系列基线模型,准确率分别是90.2%和90.8%。结合消融实验分析,所提方法能够全面捕获源推文的丰富语义特征,且简洁有效地获取其全局传播关系,从而提高谣言检测的准确率。
Abstract
Existing rumor detection methods mainly rely on text semantic features and network propagation features, but the source tweets dominated by short texts can easily lead to insufficient semantic features, and the propagation tree used to extract propagation features can generate a large amount of data. To solve these problems, we proposed a rumor detection method, namely multi-view graph neural network, which integrated rich semantics and global propagation. This model used source texts to get structural semantic relationships, utilized external knowledge to extract potential semantic relationships, and got the global propagation relationship among users by source tweets and their response users. Finally, it automatically learned the feature weights of different views through the attention fusion mechanism, achieving adaptive information fusion and improving the accuracy of rumor detection. Besides, it adopted Word2Vec to supplement the content semantics of source tweets. Experimental results show that using source texts, external knowledge, and response users to construct graphs, respectively, can effectively capture rich semantic information and concise global propagation relationships. The model outperforms a series of baseline models on the public datasets Twitter15 and Twitter16, with the accuracy rates of 90.2% and 90.8%, respectively. The analysis results from the ablation experiment show that the proposed method can comprehensively capture rich semantic features of the source tweets and effectively obtain the global propagation relationship in a concise manner, so as to improve the accuracy of rumor detection.
互联网为人们提供了一个信息共享的平台,使用户能够及时、快捷地获取各类信息,这使得社交媒体逐渐取代传统媒介成为主流的信息获取渠道。由于社交媒体上的信息发布不受事实约束,社交平台成为谣言滋生与传播的重灾区。谣言是指缺乏事实依据的传闻,其广泛传播可能引发经济损失、政治舆论动荡、社会舆情混乱等不良后果[1]。例如,2016年美国总统大选期间,社交平台上广泛传播的谣言就对选举进程和结果产生了显著影响[2]。因此,自动、准确地检测社交媒体平台上的网络谣言,已成为当前研究热点。
传统的谣言检测方法侧重于对文本内容的研究,通过基于特征工程的监督分类器提取谣言文本信息的特征[3-5]。随着深度学习在自然语言处理领域的广泛运用,研究人员将神经网络引入谣言检测任务。Ma等[6]利用循环神经网络(RNN)对源推文的所有响应帖进行时间序列建模,以学习源推文文本及其响应文本的语义变化。这类方法仅仅关注了源文本的局部内容语义,但不同源文本之间的全局结构语义被证实具有重要价值[7]。Huang等[8]受到textGCN的启发,利用源推文及其文本内容捕获源文本的全局结构语义。然而,社交媒体上的谣言通常是短文本[9],容易导致数据稀疏和语义特征不足[10],因此,单一角度的语义信息难以全面表征谣言的文本特征。
相关学者在文本内容研究的基础上,开展了谣言传播结构的研究。Ma等[11]将传播树核思想引入谣言传播研究,用于捕获谣言检测的高阶传播模式;随后,Ma等[12]利用RNN开发一个树状结构神经网络,同时捕获文本语义和传播模式。近年来,图神经网络在各领域都有不错的表现[13],尤其在结构信息获取方面取得突破性进展,部分学者将其应用于谣言检测任务[14];Bian等[15]使用Bi-GCN模型捕获自上而下和自下而上的谣言传播结构,利用根节点增强策略强化语义表示;Lotfi等[16]为每个谣言的传播构建了回复树和用户图,利用图卷积网络(GCN)获取到内容信息和结构信息。上述方法通过研究单个谣言的传播过程,证实传播结构对提升谣言检测准确性具有重要作用,可与推文语义信息相互补充。
谣言在社交媒体上的传播并不是孤立存在,而是与其他事件传播过程存在关联,因此研究人员开始关注谣言之间的关系。Yuan等[17]提出了全局—局部注意力网络,从源文本和响应帖中捕获局部语义关系,从响应用户的传播行为中提取全局结构信息;Huang等利用源推文和响应用户构建了推文-词-用户的异构图注意力网络,捕获谣言的结构语义和传播特征。与基于文本内容和传播树的方法相比,这些方法考虑了谣言自身和谣言之间的文本关系与结构关系,提高了谣言检测的性能。但是谣言在社交网络中的传播具有跨度广、级联深的特点,会产生海量内容信息和结构信息,导致计算成本较高。
本文提出了一种融合丰富语义和全局传播的谣言检测方法——多视图图神经网络(multi-view graph neural networks,MVGNN),结合源推文的丰富语义表示和全局传播表示,实现社交媒体谣言检测。源推文的丰富语义包含内容语义、结构语义和潜在语义,分别由源文本、推文-词图和外部知识图获取。在语义层面,该模型全面捕获源推文的丰富语义特征;在传播层面,利用源推文和响应用户获取全局传播关系,提取简洁有效的全局传播特征。最后,采用多视图融合注意力机制动态学习3种嵌入表示的权重,实现节点信息自适应融合,提升谣言检测准确率。本研究的贡献如下:
1)提出融合丰富语义信息的谣言检测方法,可以同时获取源推文的内容语义、结构语义和潜在语义,不同语义之间相互补充和增强,解决了短文本导致的语义特征不足的问题。
2)仅利用源推文的文本信息、外部知识和响应用户信息,不涉及响应帖的文本内容,无需构建海量数据的传播树结构,通过多视图方式简洁高效地提取源推文不同角度的特征。
1 问题描述
为了直观地描述社交网络中的谣言检测问题,本文将推特事件作为研究对象,相关定义如下:
定义1 源推文:指某一推特事件最初发出的文本,不回复也不转发其他推文。定义源推文的集合为T={t1,t2,···,th},其中th表示第h个推特事件的源推文。
定义2 响应用户:指在社交网络中参与源推文传播的用户,该用户回复或转发了源推文或源推文相关的回复推文。定义响应用户的集合为U={u1,u2,···,um},其中um表示第m个参与响应推特事件的用户。
定义3 知识实体:利用TAGME实体链接方法[18]对所有的源推文文本进行实体抽取。定义抽取到的实体集合为K={k1,k2,···,ke},其中ke表示第e个实体。
定义4 实体的概念:利用YAGO图谱实现每个实体的isA关系抽取,得到实体的概念,定义概念集合为C={c1,c2,···,cl},其中cl表示第l个概念。
根据任务要求,本文将谣言检测任务视为四分类任务,4个标签分别是:真实谣言(true-rumors,TR)、虚假谣言(false-rumors,FR)、未经验证的谣言(unverified-rumors,UR)和非谣言(non-rumors,NR)。其目的是训练一个模型f(·)来预测给定信息的标签f(th)的概率值。
2 基于多视图的图神经网络谣言检测模型
本文提出融合丰富语义和全局传播关系的谣言检测方法——多视图图神经网络(MVGNN),如图1所示。以源推文为主体,分别构建结构语义视角、潜在语义视角和传播视角的图神经网络。具体来说,利用源文本构建结构语义图网络,采用图注意力网络(graph attention network,GAT)得到全局语义的结构特征;利用源文本和实体集合、概念集合构建外部知识图谱网络,然后采用图卷积网络(GCN)得到源推文的潜在语义特征;利用源推文和响应用户构建社交传播图网络,采用图注意力网络得到源推文在社交网络中的全局传播特征;最后,使用多视图注意力机制融合不同视图下的源推文节点表示,得到最终的源推文特征表示,将其输入到全连接层,通过计算损失函数值实现模型的参数优化,完成谣言检测任务。利用源文本的Word2Vec表示对语义特征进行增强。结构语义视图和潜在语义视图中的节点实例如图2所示。
图1MVGNN模型框架
Fig.1Framework of MVGNN model
图2语义视角下的节点实例
Fig.2Node instances from the semantic perspective
2.1 结构语义视图
该视图在语义结构层面全面获取源推文的结构语义表示。本小节利用源推文及其相关词汇集合构图,通过图注意力网络捕获源推文的结构语义关系。如图2(a)所示,该条源推文提取出9个用于构图的词汇。
结构语义图网络表示为GS=(VS,ES),其中Vs和Es表示该视图下的节点和边。节点集合Vs包括源推文集合T和源推文相关词汇集合W;边缘集合ES有两种类型:推文-词汇边缘Etw和词汇-词汇边缘Eww。其中Etw表示源推文th中出现了词汇wn,并由该单词的TF-IDF(术语频率-反向文档频率)值进行加权;Eww表示源推文th中一对单词的共现,并通过逐点互信息(PMI)[19]进行加权。
在该视图中,词汇节点的嵌入表示随机生成,利用词汇的嵌入表示来加权得到源推文节点的嵌入表示。获取结构语义视图下的节点初始嵌入XS,将其输入到GAT[20]学习结构语义视图中的节点嵌入向量。GAT利用自注意力机制学习节点之间的权重,从而实现节点的更新。本文利用多头注意力机制来学习节点i最终的稳定嵌入表示xGATi,表示如下:

(1)
式中:‖为级联操作;αki,j为多头注意力中的第k个注意力系数;Wk为对应的权重矩阵;K为多头注意力的数量;i∈{t1,t2,···,tH,w1,w2,···,wN},H为源推文总数,N为词汇总数。
结构语义图网络的初始节点表示XS输入到图注意力网络中,得到所有节点的最终表示X′S 为
(2)
式中:为第th个源推文节点的最终节点表示;为第wn个词汇节点的最终节点表示。
2.2 潜在语义视图
源文本的语义理解不仅局限于文本自身,还需要外部知识进行补充,是文本的潜在语义,其有助于判别谣言的准确性。如图2(b)所示,通过实体链接和概念抽取可知,FDA表示Food and Drug Administration(美国食品药品监督管理局),是美国的组织机构;KFC是总部在美国的跨国快餐连锁店,以贩卖鸡肉为主。因此,源推文的内容(随着变异的恶化,FDA从肯德基农场没收了数千只鸡)是合理的。该视图从外部知识角度获取源推文内容包含的潜在语义表示。本小节利用源推文及其包含的实体集合、概念集合进行构图,该图表示源推文的外部知识所产生的潜在语义信息。
外部知识图谱网络表示为GK=(VK,EK),其中VK和EK分别表示该视图下的节点和边。节点集合VK包括源推文集合T、源推文相关实体集合K和概念集合C;边缘集合EK有4种类型:推文-实体边Etk、实体-实体边Ekk、实体-概念边Ekc、概念-概念边Ecc。其中Etk表示源推文th中出现了实体ke,并由该实体的TF-IDF值进行加权;Ekk、Ekc和Ecc表示一对实体节点(或概念节点)的共现,并通过逐点互信息(PMI)进行加权。
在该视图中,源推文节点、实体节点和概念节点均随机初始化,获取潜在语义视图下的节点初始特征XK,将其输入到GCN[21]中,该网络在数据集中迭代传播消息。具体来说,第i层GCN的输出特征矩阵L(i)的计算公式为
(3)
式中:ρ是激活函数;是归一化的邻接矩阵;W(i)∈是该层的权重矩阵。L(0)=XK为GCN网络的输入特征矩阵。最终获取到潜在语义视图下的所有节点表示为

(4)
2.3 全局用户传播视图
该视图从传播角度获取源推文在社交网络中的全局传播结构表示。本小节利用与源推文传播相关的用户和源推文进行构图,该图表征源推文在社交网络中引发的用户响应传播行为。
全局用户传播图网络表示为GP=(VP,EP),其中VP和EP分别表示该视图下的节点和边。节点集合VP包括源推文集合T和参与源推文传播的用户集合U;边缘集合Ep只有一种类型:推文-用户边缘Etu,表示用户um转发或是回复源推文th的响应行为,并按该响应时间t的倒数值进行加权。
在该视图中,源推文节点和用户节点均随机初始化,获取传播视图下的节点初始特征XP,将其输入到图注意力网络学习传播视图中的节点嵌入向量。具体计算方式和2.1节中的图注意力网络相似。最终获取传播视图下含有全局传播结构关系的所有节点表示为

(5)
2.4 视图融合与谣言检测
1)视图融合
本文从不同角度对源推文进行构图,构建多视图网络,获取不同信息。为准确完成推特事件谣言检测任务,需融合3个视图所包含的信息。因此,提出多视图融合注意力机制学习不同视图的权重。给定3个视图的节点嵌入X′S,X′K和X′P作为输入,3个视图的权重计算如下:

(6)
式中attmulti-view表示计算多视图融合注意力的前馈神经网络。
为了学习不同视图的权重,首先通过非线性变换对不同视图中的节点表示进行转换,再计算变换后的节点表示与视图注意力向量的相似度,将其作为节点重要性的数值表示。此外,将各视图中所有节点的重要性取均值,得到该视图的重要性。结构语义视图、潜在语义视图和传播视图的重要性计算公式如下:

(7)
式中:Wview为权重矩阵,为视图注意力向量,二者被结构语义视图、潜在语义视图和传播视图共享。利用Softmax函数对3个视图的权重进行归一化处理,记为βS(K/P),计算公式如下:
(8)
利用学习到的视图权重系数,融合多视图中的源推文节点表示,得到源推文的最终节点表示为:
(9)

(10)
式中:H为源推文的总数;为φ视图中包含全局关系的源推文th的节点表示;X′φ为φ视图中包含全局关系的所有节点表示。
2)源推文的内容语义增强
源推文作为推特事件的主体,其内容包含的语义信息对谣言检测任务尤为重要。本文将语义信息分为内容本身的语义信息、内容之间由共有词汇产生的结构语义信息以及内容所关联的外部知识产生的潜在语义信息。在2.1和2.2小节中已经获取结构语义和潜在语义,此处对视图融合后的源推文表示进行内容特征增强,以强化源推文的语义表示。具体来说。利用Word2Vec获取到源文本的本身语义XWord2Vec,将其与公式(9)拼接,获取包含丰富语义和全局传播关系的源推文节点表示为

(11)
3)谣言检测
为了完成谣言检测任务,将具有丰富信息的源推文节点表示X′tweet输入到全连接层,并进行归一化处理,预测得到源推文的类别标签,公式如下:

(12)
为了训练模型的参数,使用交叉熵损失和正则化项作为模型的目标优化函数,形式如下:
(13)
式中:yh为第h条源推文的实际标签;λ为权衡系数;为用于防止过拟合的L2正则化项,θ为模型所有可训练参数。
3 实验
3.1 数据集和评价指标
为了评估谣言检测模型的准确性,使用真实公共数据集Twitter15和Twitter16。两个数据集分别包含了1 490个和818个推特事件,详细信息如表1所示。每个推特事件的源推文及其响应都以传播树的形式提供,根据传播树中的响应ID可以获取参与源推文传播的用户数据。每个推特事件已标注标签,分别为:非谣言( NR)、虚假谣言(FR)、真实谣言(TR)和未经验证的谣言(UR)。为了保证模型公平性,将数据集中10%的数据进行验证,其余数据按3∶1的比例划分为训练集和测试集。本文采用准确率(Accuracy,Acc)和各类别的F1值来评估模型的性能。
表1数据集统计
Tab.1Dataset statistics
3.2 基线模型
为了验证MVGNN模型的有效性,在Twitter数据集上进行了评测,并与一系列基线模型进行了对比。
1)DTR:基于决策树的排序模型,通过正则表达式对数据集进行短语查询以识别谣言。
2)DTC:基于决策树的模型,利用手工提取的特征训练用于识别谣言的决策树分类器。
3)BU-RvNN和TD-RvNN:基于传播树遍历的递归神经网络,用于捕获扩散/传播结构和语义信息。
4)Bi-GCN:双通道图卷积模型,作用于谣言传播树和扩散树,捕获传播结构和语义信息。
5)GLAN:异构图网络,捕获推文传播的局部语义关系和全局结构信息。
6)HGATRD:推文-词-用户异构图注意力网络,获取源推文结构语义和全局用户关系。
3.3 实验结果
本文模型由PyTorch实现,使用Adam算法优化模型参数,学习率设置为0.005,初始化词嵌入向量维度设置为300。图注意力网络的头数K设置为8,批量大小设置为64,dropout设置为0.3。
表2Twitter15数据集实验结果
Tab.2Experimental results of Twitter15 dataset
表3Twitter16数据集实验结果
Tab.3Experimental results of Twitter16 dataset
如表2和表3所示,基于深度学习的方法显著优于传统基于机器学习的方法,如DTR和DTC。因为基于机器学习的方法采用手工提取特征,容易导致特征信息的缺失;基于深度学习的方法可以从给定数据中自动学习有效特征表示。在深度学习模型中,BU-RvNN和TD-RvNN模型的效果相对较差,因其仅通过相邻叶节点加强树节点表示,虽能捕获谣言的传播模式,但源推文的内容信息较少。相较于RvNN模型,Bi-GCN利用GCN学习单个推文传播树的传播和扩散关系,通过根节点增强策略来补充语义信息,体现了图神经网络在获取传播结构上的优越性,且语义信息与传播信息相互补充,提升了谣言检测性能。GLAN和HGATRD考虑了整个社交平台上谣言之间的关联,对所有的源推文和参与传播的用户进行建模,准确率高于Bi-GCN。GLAN利用响应文本特征对源文本进行语义补充,捕获源推文传播的局部语义关系,再结合全局结构信息实现谣言检测。HGATRD利用源文本捕获全局结构语义,再融合源推文传播相关信息,其性能略优于GLAN,表明不同谣言之间的结构语义关系比谣言的局部语义关系更有利于谣言检测。本文提出的MVGNN模型充分考虑了源推文的相关语义信息,不仅包括结构语义和内容语义,还补充了潜在语义,而且仅使用响应用户的全局传播关系,通过多视图图神经网络捕获不同视角下的源推文特征。该模型在两个Twitter数据集上的表现均优于其他基线模型,准确率分别达到90.2%和90.8%,比最佳的基线模型分别提升了0.9%和1.2%,表明其能有效地捕获丰富的语义信息,高效地利用源推文之间的传播关系,发挥图神经网络在获取结构关系上的优势,有助于提高谣言检测的性能。
3.4 消融实验和单视图效果
为了验证全局传播关系和丰富语义在谣言检测中的有效性,在两个Twitter数据集上进行了多组消融实验,设置以下4种变体:(1)MVGNN w/o User,去除全局传播关系,仅利用源推文的丰富语义进行谣言检测;(2)MVGNN w/o Word2Vec&Entity,去除内容语义和潜在语义,仅利用源推文的结构语义和全局传播关系进行谣言检测;(3)MVGNN w/o Entity,去除潜在语义,利用源推文的结构语义、内容语义和全局传播关系进行谣言检测;(4)MVGNN w/o Word2Vec,去除内容语义,利用源推文的结构语义、潜在语义和全局传播关系进行谣言检测。消融实验结果如图3所示,该结果表明内容语义和潜在语义都对谣言检测的性能有积极的影响,且源推文的全局传播关系和丰富语义相互协作,有助于提高谣言检测的性能。
图3消融实验
Fig.3Ablation experiment
本文在2个Twitter数据集上检验了单视图状态下的检测准确率,实验结果如图4所示。结果表明,单视图状态下结构语义视图的准确率最高,潜在语义视图无法独立完成检测任务,因为外部知识提供的潜在语义是对文本语义的补充,难以独立实现谣言检测。对比实验结果可知,MVGNN有效融合了不同视图提供的信息,提升了谣言检测的准确率。
图4单视图效果
Fig.4Effect of single view
4 结语
本文提出了一种融合丰富语义和全局传播的谣言检测方法——多视图图神经网络(MVGNN),利用源推文的相关信息构建了多个图网络。在模型中,分别使用源文本、源推文中的实体和响应用户获取结构语义、潜在语义和全局传播关系,最后利用Word2Vec对源推文的内容语义进行补充,并设计多视图融合机制,有效地融合了不同视图下的源推文特征表示。实验表明,与其他方法相比,本文提出的MVGNN模型全面且充分地利用了源推文的丰富语义,表现出更好的谣言检测性能。未来研究将考虑引入单个谣言的传播信息,通过全局和局部相结合的方式来提升模型的谣言检测性能。

