南京大学PASA大数据实验室论文被数据挖掘领域和信息检索顶级会议CIKM 2022录用

近日,南京大学PASA大数据实验室在异质性图表征学习方向的论文“Towards Self-supervised Learning on Graphs with Heterophily”被国际数据挖掘和信息检索领域顶级会议CIKM 2022 长文录用,该论文是异质性图表征学习和自监督学习相结合的研究成果。论文工作主要由PASA大数据实验室研究生陈竞帆、祁一帆完成,指导教师为朱光辉博士。

CIKM 2022录用论文

CIKM 2022会议的全称是31st ACM International Conference on Information and Knowledge Management(第31届ACM国际信息与知识管理大会),将于2022年10月17日至21日在美国乔治亚州首府亚特兰大召开。CIKM是数据挖掘和信息检索领域最权威的国际顶级学术会议之一,在业界具有良好的声誉,并入选至中国计算机学会(CCF)推荐 B 类国际会议列表。

近年来,基于消息传递机制的图卷积神经网络(Graph Convolution Neural Network, GCN)在节点分类、图分类以及链接预测等图机器学习任务中取得了巨大的成功。然而,图卷积神经网络基于同质性假设,在异质性图上的效果不尽人意。最近提出的异质性图神经网络虽然减少了对同质性假设的依赖,但这些方法都是在有监督场景下实现的,非常依赖标签信息。受到自监督学习(Self-supervised Learning)技术启发,本次录用论文从原始特征和广义邻居出发,提出了自监督异质性图节点表征学习框架HGRL。具体的,论文设计了两个有效的预设任务作为自监督目标。首先,研究设计了原始特征保留任务,通过最大化节点表征与其原始特征之间的互信息来保留原始特征的信息。其次,研究设计了广义邻居捕获任务,通过可学习的参数调整多层邻居的权重,最大化节点表征与广义邻居的互信息。最后,论文借鉴图结构学习领域的成果,使用参数化和非参数化两种方式重构图的邻接矩阵作为数据增强。在异质性图数据集上的实验结果表明,论文提出的方法HGRL在节点分类与节点聚类任务上取得了目前最优的性能,并且在同质性图数据集上也取得了具有竞争力的性能。此外,论文提出的方法在计算速度和显存占用上相比其他模型具有显著的优势。

基于自监督学习的异质性图节点表征学习框架总体流程