摘要
异质图神经网络在数据挖掘、信息检索等领域得到了广泛应用。基于元路径的方法通过聚合元路径邻域信息来捕捉异质图的复合关系,但元路径的选取大多依赖先验知识,容易导致语义信息的丢失或覆盖;同时,特征聚合过程中使用注意力机制计算开销过大,而且随着网络加深或元路径变长易引发语义混淆。为了解决以上问题,提出融合多语义视图编码的异质图神经网络。首先,为目标节点类型选取固定长度的所有元路径,分别构造子图以提取相应的语义信息;采用轻量级均值聚合器获得不同元路径子图下的节点表示,并为每种类型的元路径学习特定的关系编码,与其节点表示相结合;随后,进行特征映射并融合不同语义视图下的节点特征,获得最终表示并应用于下游任务。在 5 个真实数据集上进行实验,结果表明,提出的模型能够更有效地捕捉异质图中的语义信息,提高节点表示性能,在节点分类和链接预测任务中的表现在大多数情况下优于主流基线模型。结合消融实验和参数灵敏度分析进一步验证了模型的有效性。
Abstract
Heterogeneous graph neural networks have been extensively applied in data mining, information retrieval, and related domains. The metapath-based approach captures composite relationships in heterogeneous graphs by aggregating metapath neighborhood information. However, the selection of metapaths predominantly relies on prior knowledge, which may lead to the loss or overwriting of semantic information. Additionally, the use of attention mechanisms in feature aggregation incurs substantial computational overhead, and semantic confusion may arise as the network deepens or metapaths lengthen. To address these issues, a heterogeneous graph neural network that integrates multi-semantic view encoding is proposed. Firstly, all metapaths of fixed length are selected for the target node type, and subgraphs are constructed to extract corresponding semantic information. A lightweight mean aggregator is employed to obtain node representation under different metapath subgraphs, and specific relation encodings are learned for each type of metapath to combine with node representation. Subsequently, feature mapping is carried out and node features from different semantic views are fused to derive the final representation, which is applied to downstream tasks. Experiments conducted on five real-world datasets demonstrate that the proposed model more effectively captures semantic information in heterogeneous graphs, enhances node representation performance, and outperforms mainstream baseline models in node classification and link prediction tasks in most cases. The effectiveness of the model is further validated through ablation studies and parameter sensitivity analyses.
Keywords
现实世界的许多应用场景都可以建模为异质信息网络,如社交网络、电子商务网络、生物网络等[1]。异质信息网络又称异质图,由多种类型节点及节点间的链接关系组成,能够直观、清晰地展示现实交互系统中多类型实体及其复杂关系,实现对现实应用场景更完整、更自然的抽象。异质图表示学习方法利用网络的拓扑结构、异质节点特征等信息,将节点嵌入到低维向量空间中,基于得到的低维稠密向量,快速计算网络结构和语义相关性[2],进而应用到节点聚类、社区检测、异常检测等数据挖掘任务中[3]。例如,在论文网络中,利用节点向量表示可以评估学术影响力、发现作者潜在的合作机会、捕捉不同领域的关联信息,为个性化学术推荐、研究趋势预测等实际场景提供支持。
图神经网络(GNN)是一种针对图数据的深度学习方法[4],但大多模型针对具有单一类型节点和边的同质图设计,通过邻域聚合捕获图的结构信息,难以处理除结构特征外还包含丰富语义的异质图。这促使研究者们探索异质图神经网络(HGNN),该模型专门用于处理包含多种类型节点和边的复杂图结构,能够将异质图的结构信息和语义信息整合到节点表示中,在异质图表示学习中取得了优异性能。异质图的结构通常具有语义相关性,选择不同关系时,异质图的结构可能发生显著变化。例如,在包含用户、帖子、话题等不同类型节点的社交网络中,用户节点基于关注、转发、回复关系的邻居节点可以是话题、帖子或其他用户,这些语义信息通过对应类型节点之间的链接关系得以体现。此外,不同类型关系的组合会形成更复杂的结构,这种高阶语义信息通常可以由元路径获取[5]。元路径是描述网络复合关系的特定类型节点和边的有序序列。例如,元路径“用户-帖子-话题”表示用户发布了属于某个话题的帖子,这种语义信息对于理解用户的兴趣和话题热度具有重要意义。
基于元路径的异质图神经网络通过设计聚合函数来捕获邻域信息:首先聚合元路径邻居节点特征生成语义向量,再融合不同元路径下的特征信息,最终生成嵌入向量。 Zhou 等[6] 对元路径和路径实例的个性化偏好进行建模,但元路径的选取受到主观判断和领域知识的限制,可能存在未被发现的有意义的元路径; Wang 等[7] 使用节点级和语义级注意力学习节点表示,但仅聚合与目标节点同类型的节点特征,导致信息损失; Fu 等[8] 进一步考虑了元路径的中间节点,但在聚合不同元路径下目标节点表示时存在重复计算问题; Xu 等考虑了不同类型元路径在传播过程中的相互作用,从而捕获整个元路径集的语义信息,但相同类型的元路径实例之间仍然缺少交互。此外,目前很多方法采用注意力机制聚合邻域节点特征以获得更新后的节点表示[9-11],但注意力机制的使用带来了过大的计算开销。例如,在基于元路径的模型 HAN 中,具有注意力模块的邻居聚合过程占用了 85% 以上的运行时间,成为 HGNN 在更大规模异质图上应用的速度瓶颈[12]。同时,与基于消息传递的同质图神经网络可能出现的过平滑现象类似,基于元路径的异质图神经网络也面临特征聚合的语义混淆问题[13]。随着网络层数、元路径长度及类型的增加,聚合后的节点表示难以有效区分特征。
为了克服上述局限性,本文提出一种融合多语义视图编码的异质图神经网络模型,通过聚合元路径子图特征和关系映射得到更有效的节点表示。该模型无需人工选择元路径,采用轻量级均值聚合器降低计算开销,同时,通过关系编码和特征映射缓解语义混淆问题,实现不同语义视图下节点特征的自适应聚合。
1 相关定义
1.1 异质图
异质图被定义为其中是节点集,是边集,为节点类型映射关系函数,为边类型映射关系函数。对于每一个节点都存在一种节点类型与其对应; 对于每一条边都存在一种边类型与其对应,其中图1(a)为本文使用的 DBLP 数据集所代表的论文网络,其本质为一种异质图,包含作者(Author,A)、论文(Paper,P)、会议(Conference,C)3 种类型的节点,节点间存在多种关系:作者和论文之间的撰写/ 被撰写关系,会议和论文之间的发表/ 被发表关系等。
1.2 元路径
异质图的丰富语义通常由元路径获取。元路径 P 可以表示一组连接多种类型节点的复合关系[14],其形式化定义为一系列节点类型的序列,即该路径定义了起始节点类型和终止节点类型之间的复合关系,该关系由路径上相邻节点类型间的关系组合而成,记为。图1( b)展示了元路径 PAP(表示不同论文由同一作者撰写)和元路径 APCPA(表示不同作者撰写的论文发表在同一会议)。元路径实例是按照元路径定义,从异质图中抽取的实际连续节点序列。
1.3 元路径子图
对于异质图中的节点是以节点类型为起点的元路径集合,对于给定的元路径节点 v 的元路径子图可以定义为表示由 P 对应的所有元路径实例构成的局部图结构。元路径子图本质上是从异质网络中抽取的子结构,以更全面地捕捉网络丰富的语义信息。图1(c)是以 Conference1 为起点、元路径 CPA 对应的子图,表示由不同作者参与撰写的论文发表在某会议上。相比重复挖掘多条元路径,子图捕获了完整的作者信息,同时降低了信息冗余度。
1.4 异质图嵌入
给定一个异质图异质图表示学习的目的是学习映射函数其中该函数将不同类型的节点全部映射到低维向量空间中,基于这些低维稠密向量完成网络分析任务。
图1异质图和元路径及子图示例
Fig.1Examples of heterogeneous graph, metapath and subgraph
2 融合多语义视图编码的异质图神经网络
本文提出一种融合多语义视图编码的异质图神经网络 SREP,模型框架如图2所示。具体流程为: 首先经过线性层进行节点特征转换; 根据预定义的固定长度选取目标节点类型对应的所有元路径,分别构造子图执行特征传播,采用轻量级均值聚合器获取不同元路径子图下的语义表示; 为每种元路径学习关系编码并添加到目标节点的语义表示中; 通过多层感知机进行节点表示的特征映射变换,增强表达能力; 最后融合不同语义视图下的目标节点表示,获得应用于下游任务的节点嵌入向量。
图2SREP 模型框架图
Fig.2SREP model framework diagram
2.1 模型阐述
1)节点特征转换
在异质图中,不同节点类型的属性具有不同的特征,且可能具有不同的特征向量维度。例如在电影网络中,电影节点可用电影类型、时长等特征来描述,演员节点可用姓名、性别等特征描述。为了消除属性信息的异质性,需要对节点特征向量进行线性变换,将其投影到相同的向量空间,并保持相同向量维度。类型为的节点 v 投影后的特征向量表示为
(1)
式中:是原始特征; 是对应节点类型可学习的参数化权重矩阵。
2)元路径子图构造
根据节点类型对应的元路径构造以目标节点 v 为中心的元路径子图 P v,描述了与目标节点通过元路径 P 对应的所有元路径实例连接形成的局部图结构。不同类型、长度的元路径表达了不同的语义信息。 GTN 使用小于特定长度的所有元路径提取信息,易出现语义重叠问题(例如图1(a)中元路径 APCPA 包含了元路径 PCP 中论文发表在会议上的信息)[15]。因此,为了减少短元路径被长元路径覆盖导致的信息冗余计算,同时避免元路径选取对人类先验知识的依赖,本文选取预定义固定长度的所有元路径[16]。以 DBLP 论文数据集为例,目标类型节点下的所有元路径如表1所示。
表1DBLP 数据集不同长度元路径统计
Tab.1Statistics of metapaths with different lengths for DBLP dataset
3)轻量级均值聚合器
为了在元路径子图中实现多路的消息传递,需要根据不同的元路径关系计算和聚合节点特征。为了减少计算开销,避免复杂的注意力运算,采用高效的均值计算方式整合不同语义关系特征,从子图中的元路径末端向目标节点分层逐跳聚合子图中所有节点特征,更全面地保留节点之间的结构和语义关系。为了加强不同元路径节点之间的交互,子图中相同关系类型节点间的特征传递是同时进行的,可避免仅聚合与目标节点同类型邻域节点造成的信息损失,提前进行元路径节点间的特征交互,并加快消息传递过程。最终子图中的特征信息沿元路径传递到目标节点,根据聚合后的结果和自身特征来更新节点表示。对于第 l 层的节点 v,基于元路径 P 的节点表示为
(2)
式中包含了目标节点 v 在元路径对应子图下的语义特征信息。
4)元路径关系编码器
轻量级均值聚合器虽然能降低计算开销,但可能会弱化节点的独特特征; 同时随着网络深度、元路径长度及类型的增加,目标节点重复聚合邻域特征可能导致语义混淆,增加节点区分难度。因此,在对元路径子图进行特征聚合之后,设计一组关系感知编码器,为目标节点对应的元路径学习关系编码并将其与目标节点表示结合,具体表示为
(3)
式中:; 为将关系编码添加到目标节点表示中。与为元路径中的每种类型关系单独学习编码表示不同[17],本文为整条元路径学习关系编码,并与对应元路径下的目标节点表示结合,以整合元路径节点全局特征并减少计算量。
5)特征映射
不同元路径下的语义向量可能存在维数差异或者位于不同的数据空间,因此利用多层感知机(MLP)设计特征映射层,为目标节点 v 对应元路径 P 下的语义表示学习映射变换关系,将融合了关系编码的语义向量映射到相同的特征空间。具体流程为:首先通过全连接前馈神经网络进行线性变换,随后接入 LeakyReLU 激活函数层和 Dropout 层,以提高模型的非线性表达能力和泛化能力,最后通过全连接层将输出变换成目标维度。特征映射层可表示为
(4)
6)语义融合
通过上述步骤,目标节点 v 获得一组不同元路径语义视图下的向量表示基于元路径的方法将这些向量进行融合,获得节点最终的表示。为了自适应地区分不同元路径关系的重要性,采用线性融合方式:将可学习的权重参数与相应元路径子图下的节点表示相乘,并将结果对应相加,得到节点最终表示,具体为
(5)
式中:是可学习的权重参数,反映了相应元路径的语义关系对最终节点表示的影响程度。
2.2 模型训练
为了对节点表示进行联合优化,为节点分类和链接预测任务设置相应的损失函数。
1)节点分类:对于节点分类任务,使用 softmax 函数进行归一化,采用标记节点集的真实标签和模型预测输出类别之间的交叉熵作为损失函数,表示为
(6)
式中:是带有标签的节点训练集; 是模型对节点 v 的预测概率向量; yv 是节点 v 的真实标签; C 代表节点类别个数。
2)链接预测:对于链接预测任务,通过构造正负样本将其转化为二分类任务,将图中存在的边都视为正样本(即正边),不存在的边都当作负样本(即负边),利用负采样策略[18] 解决数据不平衡问题,并使用二元交叉熵损失函数来训练 DistMult [19] 解码器,表示为
(7)
式中,σ 是 sigmoid 函数; 是一个可学习的对角矩阵; Ω 是正边的集合,即可观测到的边集; pn 是负边集合(u,v-)中 v- 服从的分布,(u,v-)即实际不存在的边。
SREP 训练流程如算法 1 所示。
3 实验
3.1 数据集
为了验证模型的有效性,广泛选取验证测试场景,在不同领域的 5 个异质图数据集上进行实验,包括在引文数据集 ACM、DBLP 和电影数据集 IMDB 上进行节点分类任务,在音乐数据集 LastFM 和生物医学数据集 PubMed 上进行链接预测任务。这些数据集模拟了现实生活的不同应用场景,能够全面评估模型在不同应用领域的性能表现。表2展示了各数据集的详细信息,训练集、验证集、测试集的划分遵循文献[16]的设置。
ACM 是从发表在 KDD 等会议上的论文构建而来的数据集,包含 3 025 篇论文、5 912 位作者、57 个主题以及 4 种类型的边。论文被划分为数据库、无线通信和数据挖掘 3 个类别,论文节点的特征由论文关键词的词袋表示,根据发表的会议对论文进行标记。
DBLP 是一个计算机科学文献网站数据集,包含 14 328 篇论文、4 057 位作者、20 个会议以及 4 种类型的边,作者的研究领域包括数据库、数据挖掘、机器学习和信息检索 4 个方面,每个作者的特征由其论文关键字的词袋表示来描述。
IMDB 是由一个互联网电影数据库构建的数据集,包含 4 661 部电影、5 841 位演员、2 270 位导演以及 4 种类型的边,电影被划分为动作、喜剧、戏剧 3 个类别,每部电影由关键字的词袋表示来描述。
LastFM 数据集来自音乐网站,收集了用户的收听信息,包含 1 892 个用户、17 632 位艺术家、1 088 个艺术家标签以及 5 种类型的边,该数据集使用独热编码作为初始节点特征表示。
PubMed 是从生物医学文献数据库构建的数据集,包含 13 561 个基因、20 163 种疾病、26 522 种化学品、2 863 个物种以及 16 种类型的边,通过在所有论文上计算并汇总词向量表示得到节点的特征。
表2数据集统计
Tab.2Statistics of datasets
3.2 评价指标
实验采用 Macro-F1 和 Micro-F1 作为节点分类任务的评价指标,其指标值越大代表分类性能越好,公式(8)和(9)给出了相关计算方法,其中包含了准确率( precision,Pre)和召回率( recall,Rec),表示为:
(8)
(9)
式中:T 表示类别集合; TP 表示预测正确的正样例; FP 表示预测错误的正样例; FN 表示预测错误的负样例。
链接预测被形式化为区分正边和负边的二元分类问题,通过判断给定的边是否存在于原始图中来评估模型性能。与 LPMPA [20] 一致,采用 AUROC(area under the receiver operating characteristic curve)和 AP(average precision)作为链接预测任务的评价指标。 AUROC 衡量了模型在不同阈值下对正负样本的区分能力,AP 衡量了模型在不同召回率下的平均准确率,指标值越大代表性能越好。
3.3 基线模型
选取以下 5 种基线模型与 SREP 进行比较,包括基于关系的异质图神经网络 HGT、RGCN 和基于元路径的异质图神经网络 HAN、SeHGNN、MECCH,其中 HGT、RGCN、HAN、SeHGNN 使用 DGL 库实现,MECCH 使用官方开源代码实现。
1)HGT:使用一种依赖于节点和边类型的异质互注意力机制来建模图的异质性,在消息聚合过程中为邻居节点分配不同的权重。
2)RGCN [21] :将图卷积网络用于关系数据建模,使用多个权重矩阵将节点表示投影到不同的关系空间。
3)HAN:使用节点级和语义级注意力分别学习邻居特征和语义信息,充分考虑节点和元路径的重要性。
4)SeHGNN:利用具有长元路径的单层结构扩展感受野以捕获语义信息,并使用基于 Transformer 的语义融合模块聚合元路径特征。
5)MECCH:提出了一种基于元路径上下文卷积的异质图神经网络,采用高效的一维卷积核学习不同元路径对下游任务的影响。
3.4 实验结果
本文的模型利用 PyTorch 框架实现,为了避免过拟合,采用早停法,并设置 patience 为 50,训练轮次为500,学习率为0. 005,随机失活率为0.5。为了公平地进行比较,所有模型设置相同的超参数并且数据预处理后的输入格式一致,通过多次运行取平均值得到实验结果。
表3为 SREP 在 ACM、DBLP、IMDB 数据集上与基线模型在节点分类中的对比结果,最优结果加粗显示,次优结果以下划线表示,数据集中仅部分标记节点被用于训练和验证。结果表明,SREP 始终优于基线模型,尤其在 ACM 上的 Macro-F1 和 Micro-F1 分别比最优基线模型 RGCN 高 0.117% 和 0.127%,证明了通过构建元路径子图提取语义信息的有效性。表4为 SREP 在 PubMed 和 LastFM 数据集上与基线模型的链接预测实验对比结果。可以看出,SREP 在 PubMed 数据集上优于其他基线模型,AUROC 和 AP 分别比最优基线模型 SeHGNN 高 8.802% 和6.475%,而在 LastFM 数据集上也取得次优结果。这是由于 PubMed 比 LastFM 包含了更多边类型,SREP 通过关系编码和特征映射能够更好地区分语义信息,学习到了更好的节点特征表示,性能提升更为明显。
表3节点分类实验结果
Tab.3Node classification experiment results
表4链接预测实验结果
Tab.4Link prediction experiment results
3.5 消融实验
为了验证 SREP 的有效性,对节点分类和链接预测任务进行了消融实验,设置 3 种变体:(1)SREP w / o MS,不使用元路径子图,在目标节点一定范围内不加限制地聚合所有类型节点;(2)SREP w/ o RE,从原始模型移除了关系编码;(3)SREP w / o FP,在原始模型基础上取消了特征映射。
在 ACM、DBLP 和 IMDB 数据集上针对节点分类任务的消融实验结果如图3所示,其中,在 DBLP 数据集上选择 SREP w / o MS 进行实验时超出内存限制,因此只显示另外两种变体实验结果。结果表明,移除任何一种组件,Macro-F1 和 Micro-F1 都有 1.2% 到 7.1% 的下降。在 ACM 和 IMDB 上随机选择节点聚合特征时模型效果下降明显,说明了利用元路径子图获取语义信息的有效性,利用本文提出的方法能够避免聚合节点特征时出现语义混淆。移除特征映射和关系编码后模型效果也都有不同程度的下降。
图3节点分类消融实验结果
Fig.3Ablation experiment results of node classification
在 PubMed 和 LastFM 数据集上针对链接预测任务的消融实验结果如图4所示。结果表明,在 LastFM 数据集上原始模型的效果略低于 SREP w / o RE,这可能是数据分布差异导致的,但实验结果仍高于其他两种变体。在 PubMed 数据集上,原始模型效果明显高于所有变体,在移除关系编码后 AUROC 和 AP 都有 2.7% 左右的下降,进一步说明关系编码对区分不同元路径语义信息的作用。此外,在移除特征映射后评价指标出现 4.1% 左右的显著下降,表明将不同类型节点表示映射到相同特征空间,能够得到更有效的节点表示。
图4链接预测消融实验结果
Fig.4Ablation experiment results of link prediction
3.6 参数灵敏度分析
本文针对 SREP 在 IMDB 数据集上的节点分类任务进行了参数灵敏度分析,研究了元路径长度、特征映射层维度和模型网络层数对节点表示的影响。
1)元路径长度
SREP 选取固定长度的所有元路径构造子图提取语义信息,较短的元路径可以捕捉节点之间的直接关联性,较长的元路径则能够扩大信息的传播范围,因此元路径长度的选取对节点表示性能有着重要影响。图5(a)为选取不同元路径长度的实验结果,可以看出,IMDB 数据集的最佳元路径长度为 5。当进一步增加元路径长度,提取的子图结构和特征更加复杂,不同的节点可能会连接到相同的元路径,这意味着元路径子图无法为每个节点捕获有意义的特征,包含更多的噪声和冗余信息,导致节点表示性能下降。
2)特征映射层维度
为了将不同语义空间下的节点向量映射到相同特征空间,增强模型的表达能力,SREP 将节点表示输入到一个特征映射层。较高的特征映射层维度有助于捕捉输入特征的信息并提高模型学习能力,但是维度过高会出现过拟合的问题,同时计算的复杂度增加。图5(b)为不同关系编码维度的实验结果,结果显示,最佳映射层维度是 64,随着维度进一步增加,模型性能近乎线性下降。
3)网络层数
SREP 模型的一个网络层包含了子图构造、关系编码、特征映射等不同的操作,深层网络通常可以更好地捕捉数据中的复杂模式和结构,进而提高特征提取能力,但模型的复杂度也相应提高,增加训练难度和计算成本。由于不同数据集的数据分布和类别不平衡,最佳网络层数往往不同。图5(c)为不同网络层数的实验结果,结果显示,在 IMDB 数据集上的节点分类任务中,模型最佳网络层数为 1,随着网络层数进一步增加,学习到的节点表示更加难以区分,导致模型效果明显下降。
图5参数灵敏度分析
Fig.5Parameter sensitivity analysis
4 结语
本文提出了一种融合多语义视图编码的异质图神经网络 SREP,通过融合元路径子图特征和关系映射学习更有效的节点表示。针对大多数现有 HGNN 存在的元路径需要人工选取、特征聚合过程存在计算冗余、使用注意力计算复杂度高的问题,利用预定义的固定长度选取所有元路径并构造相应子图提取语义信息,采用轻量级均值聚合器在元路径子图上聚合节点特征,并通过为元路径学习关系编码表示和特征映射来缓解语义混淆问题。在 5 个真实数据集开展实验,与主流基线模型进行比较和分析,结果表明,本文提出的模型在节点分类和链接预测任务中的表现都有提升,并结合消融实验和参数灵敏度分析说明了模型的设置能够提高节点表示性能,有效地捕获异质图的语义信息。未来的研究将考虑网络的动态变化对节点表示的影响,融合网络的异质性和动态性进一步提升节点表示性能。

