引言
网络分析技术在具有网络结构的现代信息系统中得到了极其广泛的应用,例如社区发现、链接预测和节点分类等。寻找节点的低维向量表示,即网络表征学习,被研究人员认为可以更高效地提取网络中有用的信息。现有的网络表征学习方法往往关注于网络拓扑结构的深度挖掘,而现实系统中越来越多的节点属性信息被观察和记录,例如微信中不仅有朋友关系,还包含丰富的朋友圈信息以及个人属性。如何同时提取网络结构和节点属性中的有用信息来学习统一的低维向量表示,成为一个具有广大前景的研究课题。我们将其建模为属性网络表征学习(attributed network embedding),其构建的联合低维向量包含更全面的语义信息,具有重大的学术意义和广泛的应用价值。
属性网络表征学习
属性网络[1~3]不仅包含点与点之间复杂的拓扑结构,还拥有丰富的节点属性信息,例如对节点的文字描述、与节点相关的评论以及节点特有的图片。属性网络被广泛用于对现代信息系统的建模,微博和微信网络都是典型的例子。属性网络的普适性和灵活性使其具有重要的研究意义和应用价值。
网络表征学习[4,5]旨在将网络中的每个节点表示为低维向量,使其原网络的拓扑信息被高效地保存于学习到的向量中。传统的网络表达形式为邻接矩阵,高维度和数据稀疏问题使其在大数据环境下难以推广。网络表征学习将邻接矩阵映射至低维的连续向量,很好地解决了上述问题。核心思想是驱使在原网络中拥有相似拓扑结构的节点,在新构建的低维空间中也拥有相似的向量表示。构建的低维向量可作为节点的特征向量,被广泛地运用于基因分析、市场营销、异常检测[3]等诸多实际场景。
图1 微博网络中节点拥有丰富的属性信息
属性网络表征学习[1,3,6]旨在将系统中每个节点的属性信息及其拓扑结构,同时映射至一个联合的低维向量。属性网络中的节点有各自独有的属性,例如用户“人民日报”发布的内容多与新闻相关,如图1所示。同质性和社会影响等社会科学理论表明,网络结构和节点属性往往相互作用和影响。拥有相似网络关系的节点,往往也拥有相似的属性。新构建的联合向量,即矩阵H的行,融合了拓扑信息和节点属性,可用于进一步提升分类、聚类、推荐等诸多网络分析技术的性能。
属性网络表征学习可以更全面地探索信息系统,但也带来了新的挑战。首先,不断增长的网络规模和高维度的节点属性对算法的可扩展性提出了更高的要求[4,6]。现实系统中的节点数量动辄上百万,其包含的节点属性信息也十分庞大。其次,网络结构和节点属性的异质性使得两类信息难以有效地融合[1,7]。从内容到形式,节点属性与拓扑信息截然不同,如何高效地从这些异质信息中提取同质的有用信息,是属性网络表征学习的核心课题之一。与异质信息网络分析[7]相比,属性网络表征学习的信息融合程度更高,普适性更强。前者将异质信息表示为包含不同类型节点或者链接的网络,然后进行分析;后者允许异质信息为文本或图片等不同形式,并将其融合至统一的低维向量表示。
大数据环境下的属性网络分析
大数据的特征通常被归纳为“3V”,即高容量(volume)、高速度(velocity)、多种类(variety)。我们将依次从这三个角度探索大数据环境下的解决属性网络表征学习的方法。
图2 大规模属性网络表征学习架构AANE的流程 图,绿色代表需要求取的变量,H为联合向量表示,Z是H的拷贝,优化时轮流计算Z和H,它们会收敛至相等
大规模属性网络表征学习。当数据规模较大时,分布式算法是常用的解决方案之一,大规模属性网络表征学习架构AANE[6]就是典型的例子。如图2所示,AANE主要有三大核心思想:(1)为解决异质性问题,AANE根据每个节点的属性信息,计算出节点与节点之间的相似度矩阵S。该矩阵和网络结构都描述了节点之间关系的密切程度,所以它们为同质信息。(2)为实现信息融合,AANE将矩阵S进行对称分解,同时驱使相连的节点拥有相似的低维向量,来求取联合的向量表示H。(3)为提高扩展性,AANE将整个优化过程分解为2n(n为节点总个数)个简单的独立子问题,并将它们分配给不同的处理器,每个处理器只须计算局部的节点属性相似度。AANE只须几次循环就能收敛至近优解,其时间复杂度为O(n2/t),其中t为处理器的个数。AANE的大部分时间用在了节点属性相似度S的计算上。
动态属性网络表征学习。现实中,属性网络往往是随时间而变化的,新的关系不断建立,新的节点不断加入,新的内容不断产生并体现在节点属性中。另一方面,节点可能退出网络,节点属性可以被修改或者删除。如何有效地为这些动态属性网络进行建模分析,是极具现实意义的研究课题。架构DANE[3]采用离线算法和在线算法相结合的方式,极大地降低了学习动态属性网络表示所需的时间。DANE采取的策略可归纳为两点。其一,采用离线算法获取初始t时刻属性网络的向量表示。通过谱嵌入(spectral embedding)技术将网络结构和节点属性分别映射至低维表示YA和YX,然后将这两个低维表示联合映射至一个统一的低维表示,并使它与YA, YX之间的相关系数最大化。其二,在分析t+1时刻的属性网络时,根据该时刻的网络变化和节点属性变化局部更新网络结构的低维表示YA和节点属性的低维表示YX。矩阵摄动理论(matrix perturbation theory)帮助DANE极大地降低了这一更新过程的复杂度。由此,动态的联合低维向量表示可以由被不断更新的YA和YX映射而得。
属性网络表征学习与多种类信息融合。属性网络有效地表述了信息系统中最主要的两类信息,与此同时,大数据的多样性为属性网络表征学习带来了更多的机遇和挑战。标签信息和消极关系(edges with a negative sign) 就是典型的例子。
现实属性网络中,一类重要且充裕的数据是标签。例如,豆瓣用户可以加入不同的小组来寻找兴趣相同的用户,同一个小组内的用户往往互相关注,交流频繁,并倾向于分享相似主题的日记。发表于同一学术期刊或者会议的文章,内容往往高度相关,并频繁引用该期刊或者会议上已发表的其他文章。诸如豆瓣小组、学术期刊、会议之类的标签信息,和属性网络息息相关,相互影响着彼此的形成。但另一方面,标签和属性网络具有截然不同的信息形式,前者多为离散的信息高度浓缩的低维数据,后者为具有网络结构的高维数据,两者难以有效地融合。基于这些观察,架构LANE[1]将标签信息融入了属性网络表征学习,成功构建了性能更好的低维向量表示。其核心思想有两点:(1)为克服标签信息、网络结构和节点属性三者间的异质性,LANE根据这三类信息分别计算出节点的相似度矩阵,并运用谱嵌入技术将三个相似度矩阵映射至三个低维表示。(2)以协方差作为矩阵相关性的度量,LANE最大化地将这三个低维表示中相关的有用信息统一映射至最终的联合低维向量表示H。LANE使用了一个综合的目标方程来同步实现上述两个核心思想。
另一类被大量记录下的数据是消极关系。在诸如消费者评论网站Epinions.com、科技资讯网站Slashdot.org、维基百科投票网站之类的信息系统中,节点之间不仅有积极的关系,还有消极的关系,例如不信任、讨厌、反对等,此类型网络被定义为符号网络(signed network)。符号网络能更深入地描述节点之间微妙复杂的关系,为进一步提升属性网络表征学习带来了可能。架构SNEA[8]基于社会心理学中的结构平衡理论(structural balance theory)解决了符号网络与节点属性信息融合的问题。其核心思想是:(1)驱使未连接的节点的向量表示间的距离比有积极关系的节点的向量表示间的距离更远,但又比有消极关系的节点的向量表示间的距离更近。(2)有积极或者消极关系的节点趋向于拥有相似的属性。因此,SNEA将具有相似属性的节点映射至距离相近的低维向量。
业界应用
工业界当前所面临的许多数据处理问题,都可以建模为属性网络来进行分析。我们以大数据公司阿里巴巴为例,就数据资产管理、反作弊和异构数据源自然人识别等几个非常重要的应用展开讨论。
数据资产管理。阿里有超过1EB1的数据资产,300多万张数据表,如何划分数据版图,成为了一个棘手的问题。阿里的解决方案是基于元数据知识图谱构建属性网络,再结合知识推理算法[9,10],对所有数据表进行资产分类,从而实现全域数据资产的管理。阿里根据集团财报中提示的几大核心业务方向,将数据版图划分为电子商务、大文娱、云计算、物流数据、金融支付、交通出行、物联网、人工智能、社交、移动互联、广告营销和非业务数据等。属性网络的构建与分析帮助阿里将数据分类的综合准确率从55%提高到了88%。
反作弊。互联网欺诈手段层出不穷,例如羊毛党、刷单客、黄牛党、骗贷套现、职业秒杀。互联网黑产已经越来越呈现专业化、团伙化、地域化的特点,花样繁复令人震惊。这些不法分子非法攫取利益,伤害了正常商家、用户的权益,破坏了互联网行业的生态。例如,截至2016年7月底,优步(Uber)在中国市场上投入了大约20亿美元,其中大部分用于市场补贴。Uber估计在中国市场的虚假订单比例为10%,浪费的资金至少为2亿美元,而业界对其虚假订单比例的估计为40%。对业务安全的忽视导致Uber在中国市场的拓展不利。阿里巴巴同样深受互联网黑产的毒害,反作弊成为其重要任务之一。将数据建模为属性网络,阿里每天可以额外抓取几千万台高可信作弊设备。以流量反作弊为例,如果单纯考虑每条流量,很容易造成漏抓。构建一个全局的属性网络后,可疑流量被聚合,在同一个集合内的信息被相互借鉴和增强,从而提高了模型的可信度。
图3 阿里巴巴数据生态系统
异构数据源自然人识别。几乎所有的互联网企业对于用户身份的识别和追踪都有强烈的需求。精准识别用户身份后,企业可以收集用户个性化的行为和身份数据,例如商品浏览记录、视频播放历史、常去的餐厅等,从而实现对搜索、广告、推荐等场景的精准、个性化的展现。如图3所示,阿里的业务生态体系多样,数据来源非常丰富,给数据联通带来了极大的挑战。有别于谷歌、脸书或者微信的天然账号体系系统,阿里的每一个数据源都几乎有不同的账号,APP的数据采集也有多方渠道和多个标准。这是一个巨型的网络,有超过1000亿个节点,数百亿条边。结合节点属性信息,阿里从这些异构数据源中识别出了10亿多高质量自然人,有效地支持了搜索、广告等30多个核心业务。
总结与展望
属性网络表征学习为庞大而复杂的信息系统与强大的网络分析技术之间的联接提供了桥梁。其高效性、普适性、灵活性引起了广泛关注。属性网络表征学习方兴未艾,很多研究课题有待探索。
更大规模的属性网络与更高效率的算法。规模不断增长的信息系统与总量不断累积的数据,让实际应用对更高效率算法的需求从未间断。已有的属性网络表征学习算法大多利用节点属性相似度S来处理异质性,不可避免地要花费大量时间来计算S。如何运用并行计算[6]、随机梯度下降[2]、负采样[4]、局部优化等加速算法进一步提高表示学习的效率,是一个有广泛应用前景的课题。
更多的数据类型与更强大的算法。除网络结构和节点属性外,现实系统中还有多个类型的信息亟待开发和利用。例如,微信朋友圈中被记录的空间信息、无处不在的时间信息、蕴含在文字间的情感信息。这些信息为提升联合低维向量H的性能提供了机遇。如何构建更强大的属性网络表征学习算法来整合更多类型的信息,是当前面临的主要挑战之一。
结合相关领域知识的分析方法。相关领域的知识与经验可以帮助机器探索数据中的隐藏信息。结合这些专业的知识,属性网络表征学习可以被进一步提升。例如架构NEEC[11]通过将专家的认知转化为新的网络链接,成功提升了联合低维向量H的性能。基于解释的学习(explanation-based learning)与人在回路(human-in-the-loop)等领域的研究表明,相关领域专家的参与可以进一步提高机器学习的性能。NEEC精心设计了少量的、简单的、系统的问题,来询问领域专家。原型理论(prototype theory)使得这些问题可以高效地捕获领域知识。专家的答案被建模为新的链接,被直接加入原网络结构中,因此NEEC可用于提升不同的网络表征学习算法。NEEC的提出为结合领域知识的分析方法带来了启示。
参考文献
[1] Huang X, Li J, Hu X. Label Informed Attributed Network Embedding[C]// Proceedings of the Tenth ACM International Conference on Web Search and Data Mining. ACM, 2017:731-739.
[2] Liu N, Huang X, Hu X. Accelerated Local Anomaly Detection via Resolving Attributed Networks[C]// Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence. 2017:2337-2343.
[3] Li J, Dani H, Hu X, et al. Attributed Network Embedding for Learning in a Dynamic Environment[C] // Proceedings of the ACM International Conference on Information and Knowledge Management. 2017:387-396.
[4] Tang J, Qu M, Wang M, et al. LINE: Large-scale Information Network Embedding[C] // Proceedings of the International World Wide Web Conference. 2015, 2:1067-1077.
[5] Cui P, Wang X, Pei J, et al. A Survey on Network Embedding. arXiv preprint arXiv:1711.08752 (2017).
[6] Huang X, Li J, Hu X. Accelerated Attributed Network Embedding[C]// Proceedings of the 2017 SIAM International Conference on Data Mining. 2017:633-641.
[7] Shi C, Li Y, Zhang J, et al. A Survey of Heterogeneous Information Network Analysis[J]. IEEE Transactions on Knowledge & Data Engineering, 2015, 29(1):17-37.
[8] Wang S, Aggarwal C, Tang J, et al. Attributed Signed Network Embedding[C]// Proceedings of the ACM International Conference on Information and Knowledge Management. 2017:137-146.
[9] Ni L, Cohen W W. Relational retrieval using a combination of path-constrained random walks[M]. Kluwer Academic Publishers, 2010: 53-67.
[10] Bordes A, Usunier N, Garcia-Duran A, et al. Translating Embeddings for Modeling Multi-relational Data[J]. Advances in Neural Information Processing Systems, 2013:2787-2795.
[11] Huang X, Song Q, Li J, Hu X. Exploring Expert Cognition for Attributed Network Embedding[C]// Proceedings of the ACM International Conference on Web Search and Data Mining. ACM Press, 2018.
所有评论仅代表网友意见