全图表征学习的研究进展

阅读量:268
唐建
PDF在线浏览 下载本文    表征学习图结构

引言

图(网络)是一种表达对象之间复杂关系的通用数据结构,在计算机科学、社会科学、经济学、化学以及生物信息学等多个学科和领域中都大量存在。例如,网页之间的超链接关系构成了整个互联网;人们在脸书、微信以及微博等社交媒体上的好友或者关注关系构成了社会网络;学术论文之间的引用关系构成了引用网络;化学中不同的分子结构构成了大量结构不同的网络结构数据,等等。网络结构数据涉及广泛的应用。例如,在社交网络上预测两个用户是否会成为好友关系,在用户-商品网络上为用户推荐喜欢的商品,预测每个分子结构的化学属性等等。

这些应用的本质都是在图结构数据上进行的预测。对于预测任务,近年来以深度学习(deep learning)为代表的表征学习方法在语音识别、图像理解以及机器翻译等任务上取得了巨大的成功。这些方法通过设计多层的非线性神经网络从原始数据提取有效特征,整个模型建立在从数据的原始输入到目标任务的最终输出,实现了端到端的学习。由于深度学习等表征学习方法在多个领域的有效性,近年来涌现了大量的致力于面向网络结构数据的表征学习的工作。对于网络数据,传统的表示方法通常是邻接矩阵,并在此基础上设计机器学习算法。但是这种表示方法面临严重的高维以及数据稀疏性问题,不利于在网络结构上进行机器学习算法的计算。

网络表征学习

深度学习网络表征学习算法的目标是获得网络的低维稠密表示。对于大规模网络(如社会网络),网络表征学习的目标是把网络中的每个节点表示成为一个低维稠密的向量并且保证在这个低维空间上能够很好地保留网络的拓扑结构(见图1)。节点表示能够当作节点的特征用于节点分类、节点聚类、网络可视化、链接预测等不同的任务。受到词向量学习技术word2vec的启发,近年来产生了大量高效的网络节点表示算法,最经典的算法包括DeepWalk [1]LINE [2]以及node2vec [3]等。这些算法本质上是通过保留网络的局部结构性来估计节点的表示。

由于学术界、工业界的广泛关注,网络节点表示已经取得了显著的进展,目前越来越多的研究开始转向整个网络(全图)的表示。与节点表示不同,整个网络表示的目标是将整个网络表示成一个低维向量,与其类似的还有保证具有相似结构的网络特征表示。这类方法具有大量的应用。例如,新药研发需要预测每个新研发出来的医药分子结构的性质,每个分子结构本质上也是一个图结构,通过学习分子结构的特征表示,有助于更有效地预测分子的性质。

由于不同网络的结构不同,学习整个网络的表示非常困难。传统的卷积神经网络(Convolutional Neural Network, CNN)主要适用于图像这类具有固定的二维网格结构的数据,递归神经网络(Recurrent Neural Network, RNN)主要适用于语音、自然语言处理序列数据。本文将系统地介绍如何拓展这些方法来学习任意网络结构的特征表示的一些最新工作。

会员登录后可下载全文

中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任。
读完这篇文章后,您心情如何?

作者介绍

唐建

  • 加拿大蒙特利尔大学助理教授
  • 研究方向:深度学习、网络表示学习、自然语言处理和推荐系统
  • tangjianpku@gmail.com