近十年,在线社交网络发展迅速。截至2017年6月,成立于2004年的脸书(Facebook)的月活跃用户数已经达到20亿,成为名副其实的世界人口最大“国”,其中手机端日活跃用户数达到15.7亿,每天花在Facebook上的时间超过264亿分钟。老牌微博推特(Twitter)的月活跃用户数保持在3.2亿,日活跃用户数达1亿(截至2017年8月),虽然较鼎盛时期有所下降,但其依然保持活力。
而新兴的以图片分享为主的社交工具Instagram月活跃用户数超过7亿,日活跃用户数达4亿(截至2017年4月)。同样基于图片的社交工具Snapchat月活跃用户数也超过3亿,日活跃用户数达1.73亿(截至2017年8月)。国内在线社交网络起步也不晚,腾讯的“常青树”社交工具QQ目前依然保持8.61亿月活跃用户(截至2017年8月),新兴起的社交工具微信月活跃用户数超过9.6亿(截至2017年8月)。新浪微博最新发布的数据表明,其用户数已经超过Twitter,达到3.4亿(截至2017年5月)。今日头条的日活跃用户平均每天在线时间达到70分钟。一个初步统计表明,每个网络用户平均加入8个在线社交网络,超过2/3的网民通过社交网络来和朋友、家人以及商业伙伴保持联系。所有这些数据显示:在线社交网络已经成为连接网络信息空间和人类物理世界不可或缺的桥梁(Online to Offline, O2O)。这种连接不仅带来了大(社交)数据,还给传统社会网络分析和数据挖掘带来了全新的挑战。如何应对这些挑战,亟需新的科学理论体系和计算方法来帮助理解在线社交网络的形成和演化机理,以及网络用户行为对互联网络发展的深层影响。
哈佛大学的戴维·拉泽尔(David Lazer)、麻省理工学院(MIT)的阿莱克斯·彭特兰(Alex Pentlan)、Facebook的拉达·阿达米克(Lada Adamic)和美国东北大学的艾伯特-拉斯洛·巴拉巴斯(Albert-László Barabási)等人于2009年在《科学》(Science)上发表了题为“Computational Social Science”的文章,从计算学与社会学、物理学、心理学、管理学等多学科融合,定义了计算社会学的核心问题:“A field is emerging that leverages the capacity to collect and analyze data at a scale that may reveal patterns of individual and group behaviors”。该定义强调了大社交数据分析以及揭示个体和群体行为模式是计算社会学的主要任务。2012年,詹姆斯·贾尔斯(James Giles)在《自然》(Nature)上也发表了一篇类似观点的文章。
图1 社会网络科学简史(该图源自微软研究院Yuxiao Dong博士)
本期专题以社会网络计算为主题,重点探讨社会网络科学中的计算问题。相关研究可以追溯到早期物理学、社会学、图论以及数学。图1列出了以近30~60年为主的相关研究。社会网络计算早期主要源自社会学和数学,例如20世纪40~50年代美国社会学奠基人、统计学会院士保罗·拉扎斯菲尔德(Paul Lazarsfeld)提出的同质性(homophily)和两阶段信息传播理论(two-step flow),基本上奠定了当前社会学中的社会关系形成和信息传播模型基础;而数学方面沃尔夫奖获得者保罗·埃尔德什(Paul Erdős)与匈牙利科学院院士阿尔弗雷德·莱利(Alfréd Rényi)等人提出的随机图(random graph),为后来网络形成模型的研究奠定了数学基础。70年代美国艺术与科学院院士马克·格兰诺维特(Mark Granovetter)提出的弱连接(weak ties)理论成为后期研究社会关系形成的基础,也促成了后来结构洞理论(structural hole)的诞生,同时格兰诺维特还将该理论引入到了经济学。90年代社会网络研究百花齐放。社会学方面,美国艺术与科学院院士罗纳德·伯特(Ronald Burt)提出的结构洞理论,将社会网络和社会资本有机结合起来,从此社会学和管理科学有了一个高效的结合点;物理学方面,几大巨头:邓肯·瓦茨(Duncan J. Watts)和美国艺术与科学院院士史蒂文·斯托加茨(Steven Strogatz)以及美国物理学会院士艾伯特-拉斯洛·巴拉巴斯分别提出了小世界模型(small world)和无尺度网络(scale-free),这两个模型可以看做是对埃尔德什与莱利的随机图的扩展,但更重要的是奠定了近代网络生成模型的基石。同期还有两个重要的计算机学科成果,一个是美国三院(科学院/工程院/艺术科学院)院士乔恩·克莱因伯格(Jon Kleinberg)的网络分析算法HITS,另一个是谷歌创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)发明的PageRank算法,两个算法均成为后来网络分析的重要工具。进入21世纪,尤其是随着大社交数据的到来,计算机学科的重要性日益凸显,但更重要的是各个学科的加速交叉融合:米歇尔·格文(Michelle Girvan)和马克·纽曼(Mark Newman)提出的社区发现(community detection)很快吸引了大批计算机学家和物理学家的关注;乔恩·克莱因伯格等人提出的影响力最大化(influence maximization)和链路预测(link prediction)分别成为近代网络传播研究和网络关系研究的理论基础。近5年,随着深度学习的兴起,网络科学与深度学习的融合成为一个热点。
社会网络科学正处在一个蓬勃发展的时期,大社交数据的到来必然带来相关学科的深入交叉融合。本期专题以社会网络计算为主题,重点探讨社会网络科学中的计算问题,邀请国内外专家撰稿介绍近年来该学科相关的发展趋势。
清华大学计算机系副教授唐杰和浙江大学计算机系助理教授杨洋等撰写的《社交网络中的用户影响力研究》一文,对社会影响力研究的理论模型进行了全面细致的分析,介绍了影响力的存在性证明和传播模型,并指出了社会影响力在实际应用系统中的作用。
中国科学院计算技术研究所研究员沈华伟、博士生曹婍和北京大学副教授宋国杰等,针对信息传播建模撰写了《在线社交媒体中信息传播的建模与预测》,介绍了网络信息传播的线性阈值模型和独立级联模型,分析了传播网络推断、影响力最大化和信息传播预测等问题,指出日益增长的社交网络规模给信息传播建模带来的时间和空间上的难题,如何填补传播建模和传播预测之间的空缺,是未来亟待解决的问题。
北京邮电大学教授石川、美国加州大学洛杉矶分校(UCLA)助理教授孙怡舟(Yizhou Sun)和伊利诺伊大学芝加哥分校(UIC)讲席教授菲利普·俞(Philip S. Yu)联合撰写了《异质信息网络的研究现状和未来发展》,介绍了异质信息网络的概念及其对社会网络计算的重要性,对领域研究脉络进行了梳理;通过实例阐述了异质信息网络分析的基本思路和特点。
清华大学计算机系博士生杨成、助理教授刘知远和加拿大蒙特利尔大学商学院以及深度学习研究中心助理教授唐建撰写了《信息网络表示学习的研究进展》。网络表示学习是近年来深度学习快速发展带来的表示学习浪潮在网络科学中的应用。该文介绍了网络表示学习的基本概念以及近年的主要研究进展。文章指出网络表示学习方兴未艾,仍有很多关键问题亟待解决。例如,已有的网络表示学习技术大多为通用模型,没有考虑后续应用的特定需求。
中国人民大学副教授赵鑫和哈尔滨工业大学助理研究员丁效撰写的《浅析推荐系统中的用户画像构建与应用》,则专注网络个体,分析个性化和信息推送的重要性,介绍了主要的用户画像构建方法,以及如何在推荐系统中应用构建的用户画像信息。
杭州师范大学教授吕琳媛团队撰写的《学术影响力评价方法:回顾与展望》回顾了历史以来学术评审到评价以及学术影响力的分析方法。专门针对学术网络介绍了网络分析对学术网络中的论文价值衡量、期刊的影响力以及科研人员的业绩考核与晋升甚至到诺贝尔奖的评选的影响。其研究结果还可以作为双一流高校的排名和国家创新能力的评估指标。
在线社会网络将人与人连接在一起,加速了信息传播和人与人的交互速度,形成了互联网环境下大众参与、群体智慧汇聚的开放平台。每个人都可以释放出不曾有过的创造力与价值,造就“社会智能”。社会网络计算从计算社会科学的角度,融合了计算机科学、社会学、认知学、网络科学等多学科思想,带来了巨大的理论和应用创新机遇。我国在相关学科的基础研究和技术积累、研究基地和队伍建设方面日益成熟,为大社交数据分析和挖掘的基础理论及其应用研究提供了良好的学科基础。未来,随着在线社交网络的迅猛发展,针对其产生的海量社交数据,采用交叉科学的研究方法,建立体现社会智能的系统,用深入的社会网络计算的基础理论和方法,揭示社会网络现象的本质,必将加速和推动计算机科学的理论和应用的发展。
所有评论仅代表网友意见