信息网络表示学习的研究进展

阅读量:1429
杨成,刘知远,唐建

引言

网络是表达对象之间复杂联系的重要形式,在我们的日常生活与工作中无处不在。例如,微信和微博等社交媒体构成了人与人之间的社交网络,互联网上数以百亿计的页面构成了网页之间的网络,运输交通构成了城市之间的物流网络……。在当今信息社会中,很多网络的节点除了互相连接之外,还包含丰富的文本等外部信息,形成典型的复杂信息网络。由于复杂信息网络广泛存在,对这类网络信息进行研究与分析,具有非常大的学术意义和非常高的应用价值。

信息网络的表示学习研究

伴随着大规模信息网络的发展,如何设计快速有效的分析算法,以数值化地表示网络的语义信息,成为研究者致力追求的事业。传统的方法一般采用高维稀疏向量的形式,通过建立邻接矩阵来表示网络结构,并在此基础上设计各类分析算法。而这种高维稀疏表示,往往需要较多的计算空间与时间,随着网络规模的不断增长,其可扩展性较差。此外,这种表示方案还面临较为严重的数据稀疏问题。

随着以深度学习(deep learning)为代表的表示学习技术在自然语言处理等领域的高速发展和广泛应用,研究者们也开始探索面向信息网络的低维稠密的向量表示方案,即类似于自然语言处理中的词向量表示,把网络节点也映射到一个低维向量空间中。从直觉上来看,信息网络中拓扑结构越相似的节点在该向量空间中的距离越相近。我们一般采用余弦距离或欧氏距离来计算两个节点向量的相似度。图1是网络表示学习的代表算法DeepWalk [1] 通过学习得到的网络节点表示的示意图。从图1可以看出,在原网络中结构相似的节点在低维向量空间中也会比较相近。

网络节点的低维向量包含了关于这些节点的丰富拓扑和语义信息,可以将其作为节点的特征向量,有效应用于相关分析任务中。例如,可以把节点向量送入支持向量机等分类器中,以实现节点分类,也可以作为欧氏空间中的点坐标用于网络结构可视化。网络节点表示是连接原始网络信息和相关网络分析任务的重要桥梁,而基于低维稠密向量的数值化表示能够充分发挥相关机器学习算法的建模优势,如图2所示。

面向信息网络的表示学习研究,旨在探索复杂网络中节点之间的复杂关联,有效融合网络结构与节点外部信息,建立更具区分能力与表达能力的网络表示方案。近几年来,网络表示学习吸引了广大研究者的兴趣,取得了很多显著成果,有力地推进了网络分析技术与应用的发展。

网络表示学习的主要进展

根据所采用的技术,网络表示学习方法可大致分为以下几类。

1. 基于特征向量的算法

这类方法通过计算大规模邻接矩阵的特征向量来建立节点的低维向量表示。早期经典的网络表示学习算法均属于此类,例如拉普拉斯特征表(Laplacian Eigenmap) [2]等方法。然而,由于大规模矩阵特征向量的计算时间与空间复杂度都很高,因此难以有效应用于大规模网络数据,而且也很难考虑丰富的节点外部信息。

2. 基于神经网络的算法

近年来,深度神经网络的研究在自然语言处理和计算机视觉等领域取得了突飞猛进的进展。虽然基于梯度下降的参数更新方法无法保证总是得到最优解,但是基于神经网络的表示学习模型往往能够更加快速有效地从大规模数据中学习得到对象的语义表示。

受到词向量学习技术word2vec[3]的启发,2014DeepWalk算法[1]首次将神经网络技术用于网络表示学习。DeepWalk首先根据网络结构进行随机游走获得节点序列,然后将节点序列类比为文本序列,利用word2vec中的Skip-Gram技术自动学习这些节点的向量表示,使中心节点预测其前后节点的概率最大化。与基于邻接矩阵的传统方法相比,DeepWalk采用随机游走序列的优势在于:随机游走序列上的表示学习过程只依赖于局部信息,计算效率较高,非常适用于多线程或分布式计算。其次,随机游走序列建模能够有效缓解基于0-1二值邻接矩阵方法的数据稀疏问题。

基于神经网络的另一个代表性网络表示学习算法是LINE [4]算法,它适用于大规模有向带权图的网络表示学习。LINE算法提出,利用节点间的连边对两点间的第一级相似度关系进行建模,利用没有直接连边的两个节点的共同邻居对两点间的第二级相似度关系进行建模。第一级关系等价于对网络邻接矩阵的建模。由于真实网络中的连边往往非常稀疏,因此需要进一步对第二级相似度关系建模作为有效的补充。

DeepWalkLINE为起点,近年来涌现出了大量改进网络表示学习效果的创新成果,如多层深度模型[5]等。对网络表示学习研究的详细信息有兴趣的读者可以参阅相关综述文章[6]。网络表示学习的关键改进方向之一是在网络结构之外,即如何进一步考虑信息网络中的节点外部信息。

3. 考虑节点外部信息的算法

真实世界中的信息网络节点往往同时包含丰富的外部信息,例如文本信息、标签类别以及图像信息等。如何充分利用这些外部信息,是网络表示学习面临的重要挑战。最近涌现了一系列考虑网络节点的文本信息[7]、标签信息[8, 9]等外部信息的模型,也有研究者从异质信息网络的角度进行建模[10],实现无监督或半监督的网络表示学习,有效提升了网络表示的区分能力与效果。

会员登录后可下载全文

中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任。
读完这篇文章后,您心情如何?

作者介绍

杨成

刘知远

  • CCF高级会员,CCCF编委
  • 清华大学计算机系助理教授
  • 研究方向:自然语言处理、知识图谱和社会计算
  • liuzy@tsinghua.edu.cn

唐建

  • 加拿大蒙特利尔大学助理教授
  • 研究方向:深度学习、网络表示学习、自然语言处理和推荐系统
  • tangjianpku@gmail.com