社会影响力是社会网络中的个体由于社会地位、社会联系以及社会财富等因素,改变他人思想、行为或情感的能力。社会影响力在人们生活中无处不在。小到看一场电影、大到选择学校和工作,人们的各种选择与决策无不受到家人、同学、同事、朋友甚至普通大众的影响。伴随着社会网络平台的蓬勃发展,包括社交网站(如Facebook、LinkedIn、人人网),微博(Twitter、新浪微博),以及社交购物网站(Amazon、淘宝)等,社会网络规模与用户历史行为数据都呈爆炸式增长。在社会网络中对社会影响力进行深入分析与度量,已经引起了大量的关注。因为社会影响力是社会网络中促使个人情绪变化、观点改变或者行为发生的一个重要因素。深入分析社会影响力,可以揭示网络信息传播的原动力和本质特征,对于推动电子购物的发展、激发新型政治活动、提高舆论监控能力以及加强社会学与信息学在大数据环境下的交叉合作等都具有广泛的现实意义。
社会影响力的研究在电子商务、新型政治活动、信息传播等领域有着广泛的应用价值。调查表明,84%的消费者认为自己的购物行为完全或者一定程度上会被家人、同事以及朋友的购物习惯与行为所影响;72%的消费者认为读到其他人的正面评价可以增加自己对商品的信任度,且平均2~6个正面评价就可以提升56%的信任度;58%的消费者会分享自己的购物经验,同时向他人咨询商品使用情况的反馈意见。朋友或他人的购物行为直接或间接地影响了人们的购物行为。对于企业来说,可以利用用户之间的影响力规律,选择有影响力的用户来帮助商品推广。在商业竞争日趋激烈的今天,谁率先掌握了人与人之间社会影响力的规律,就可以在市场营销中占据制高点。此外,Ipsos MORI调查机构和伦敦大学国王学院共同调研表明:1/3的年轻人认为社交媒体会影响他们的政治投票决定。
用户影响力有多种表现形式,具体包括同伴压力(peer pressure),即两位个体用户之间的影响;从众影响力,指个体用户受到群体用户的影响,从而使个体用户的行为尽可能地与群体保持一致;意见领袖——少数影响力较大的用户——对群体用户的影响。如何在大规模社交网络中对不同表现形式、不同维度的社会影响力进行量化,是近年来的一大研究热点。
在线社交网络的兴起通过“低成本替代”的方式,让人们可以用比传统社交中更低的沟通成本相互结识、交流、共享知识、分享生活中的点滴。这种用户之间的多方向、高频率、多维度的互动,使得用户影响力及其在网络中的传播过程更为复杂。而理解用户之间的影响力及其在社交网络中的传播过程,有助于我们更好地改善国民生活,同时对舆情监控、智能商务、用户个性化推荐等应用均有重要价值。
影响力存在验证
社交影响力的研究最早于20世纪中叶在社会学、心理学等领域展开。最初的研究主要侧重于验证社会影响力的存在性,例如检验用户的发帖或购物等行为是否和其他用户的发帖和购物行为之间存在互相影响的因果关系。1951年,著名心理学家所罗门·阿希(Solomon Asch)设计并开展了著名的Asch实验。约200名大学生分为8人一组先后参加了实验。实验设计人向每一组学生展示了两张卡片,如图1(a)所示。第一张卡片画着一条直线,第二张卡片画着三条直线,分别标注A、B、C。然后,实验设计人逐一询问参加实验的学生:A、B、C三条直线中哪一条的长度和第一张卡片中的直线最接近?答案显然是C。然而,令人大跌眼镜的是,大部分学生给出了错误的答案。原因在于,在每个实验组中,仅有一名学生是真正的实验对象,其余七人则被要求故意说出同一个错误的答案。而真实的实验对象总是最后一个被问及问题。这个实验的真实目的,是验证真实实验对象是否会受到之前回答错误答案的学生的影响。结果显示,约74%的参与人会“从众”地选择和多数人的答案保持一致,尽管那个答案是明显错误的。
图1 用于验证从众影响力的Asch实验
随着在线社交网络的兴起,海量的用户数据和用户平台为社会影响力的研究提供了崭新而便捷的舞台。例如,2012年美国大选期间,加州大学罗伯特·邦德(Robert Bond)等人在脸书(Facebook)上进行了一组用于验证好友之间影响力的实验[1]。在实验中,脸书上所有年龄超过18岁且拥有总统投票权的用户被随机分成了三组。其中,“信息组”的用户被推送了一条鼓励该用户参与线下总统投票的信息,并收到了一个显示周围最近投票点的链接,用户界面上还有一个可以点击的“我已经投票”按钮,以及用于显示脸书上已经参与投票的用户数的计数器;“社交组”的用户也会收到同样的信息,不同的是,他们的界面上还会显示不超过六位已经参加投票的好友的头像;而“控制组”的用户则不会收到任何信息。各组用户收到的信息界面如图2(a)所示。
图2 在Facebook上开展的社会影响力实验
实验表明,“社交组”用户比“信息组”用户更有可能点击“我已经投票”的按钮(+2.08%)。此外,“社交组”用户实际去投票的概率比控制组高0.39%,如图2(b)所示。该实验结果表明:(1)在线社交网络的信息可以影响用户的线下行为;(2)包含用户社交关系的信息更有影响力。这个工作发表在2012年的《自然》杂志上。
另一个发表在2013年《科学》杂志上的研究工作是在一个新闻网站上进行的实验。该网站上的用户可以评论新闻,也可以对其他用户发表的评论“点赞”或“反对”。评论收到一次“点赞”会加1分,收到一次“反对”会减1分,最终每一条评论都会有一个分值。在实验中,约10万条评论被分成了三个对照组,第一个对照组中的帖子被手工增加了1分,第二个对照组中的帖子被手工减少了1分,最后一个对照组没有进行改动。之后对评论的分数进行了统计。结果表明,被手工减少分数的评论会收到更多的“点赞”,体现了其他用户修正被人为降低分数的意愿;相对地,人们没有太大的意愿去降低被人为提高的分数。该实验进一步测试并验证了存在好友关系的用户之间互相打高分的概率(9.2%)高于互相不喜欢的用户(2.7%),从而进一步验证了用户之间的好友关系与用户影响力权重的关联关系。
影响力传播模型
用户之间的影响力会从一个用户传播到另一个用户,从而在社交网络中蔓延开来。如何量化影响力在网络中的传播过程也是重要的研究课题。最早的影响力模型可以追溯到19世纪20年代的传染病学领域,以生物学家科马克(Kemack)和麦肯德里克(McKendrick)所提出的传染病模型SIR为例,对疾病在人群中的传染过程进行建模。SIR模型假设每一个自然人会经历易感染阶段、感染阶段和康复阶段,通过一组动态方程描述不同时期处于不同状态的人口数量。在此基础上,一系列扩展模型如SIS、SEIR、SEIS均被广泛应用于不同类型的传染病之中。
上述传染病模型皆为确定性模型,另一类在计算机领域更为广泛应用的是概率模型。其中,最著名的是独立级联(Independent Cascade, IC)模型[3]和线性阈值(Linear Threshold, LT)模型[4]。两者给定的都是一个图,其中结点表示用户,结点之间的边表示用户之间的关系。独立级联模型假设边上均有一个[0,1]区间内的参数pij,表示结点vi成功影响vj的概率。模型假设每位用户存在两种状态:激活状态和非激活状态。在第一个时间片,除了少数“种子用户”外,其余大部分用户处于非激活状态。处于激活状态的用户会有一次机会将周围的一度邻居“激活”,其成功的概率为对应边上的权重。一旦一位用户被激活,他也会尝试激活自己的邻居。而在LT 模型中,除了边上的权重外,每个结点还存在一个对应的阈值。对于处于非激活状态的用户v,如果其周围已被激活的好友的边权和达到了阈值,则该用户就会在下一个时间点变成激活状态。图3展示了IC 模型中信息的传播过程。这两个不同的过程反映出,IC 是以消息发送者为中心的模型,而LT 是以消息接收者为中心的模型。
图3 IC模型影响力传播过程示意图
以上述两类模型为基础,衍生出了众多影响力模型及相关应用。例如,嘎鲁巴(Galuba)等人[5] 和戈亚尔(Goyal)等人[6]将LT 模型应用于预测信息的转发过程。他们的模型依赖三种信息:信息自身的“感染度”,用户之间的影响力,以及一位用户推送消息的倾向度。他们以最开始的传播过程作为训练集,用梯度下降法对LT模型的参数进行估计。然而,最终的结果表明,该模型并不能重现比较好的传播过程。为了提升性能,萨伊托(Saito)等人[7]对IC和LT模型中影响力传播时间的同步性假设(即所有的消息传递均在1个单位时间内完成)做了松弛,提出了异步模型AsIC和AsIL。他们在模型中的每条边上增加了时间延迟参数。例如,在IC模型中,一位用户在时间t被激活后,并不一定在时间t+1便试图影响并激活周围的好友,而是存在一个更长的时间延迟,这样的假设更符合实际数据。他们还提出了一种基于极大似然法的参数估计方法[8,9],根据用户的属性和作为训练集的信息传播过程,用最大期望(Expectation Maximization, EM)算法对模型参数进行估计。
基于这些影响力模型,肯普(Kemp)等人提出了影响力最大化问题[10]:在网络中选K个用户作为最初的“种子用户”,使得网络中最终被激活的用户数可以达到最大。例如,一家公司想在微博上进行产品营销,该公司可以通过赠送试用产品等方式,激励K个用户先转发产品广告,这些转发会激发别的用户转发和传播,由此达到推广目的。其中K的取值则取决于公司的预算、试用产品数量等限制。
影响力度量算法
个体之间的影响力是影响力传播模型的重要参数。例如,独立级联模型中的激活概率表征了个体之间的影响力大小。在对个体之间的影响力进行度量时,值得注意的一点是,个体之间的影响力与个体之间的同质性(或相似性)密切相关。它们之间的关系是:两个个体之间的相似性越强,则它们越容易做出建立相互之间关系的选择(selection);反之,有关系的两个个体,互相之间的影响力会导致他们的相似性越来越强。这两者永远是交织在一起,不好区分。霍姆(Holme) 和纽曼(Newman)提出一个生成模型来平衡选择与影响过程[11]。基本思想是每次迭代时要么为两个节点之间建立关系(选择过程),要么将一个节点的属性变换为与其某个邻居节点相同的属性(影响过程)。克兰德尔(Crandall) 等人提出一个更全面的生成模型来刻画一个人的行为。其基本思想是一个人的行为决策既取决于其本身的历史行为分布,又取决于邻居的行为分布,还取决于大众的行为分布[12]。斯克里普斯(Scripps) 等人明确给出了相似性与影响力的数学定义[13]。由于相似性与影响力紧密交织在一起,区分的难度很大,因此,除了以检测影响力为根本目标的研究,一般对这两者不做特别区分。
当同时给定社会网络结构与用户行为数据时,个体之间影响力估计的基本思想是,两个历史上经常在较短的时间间隔内发生相同行为的用户与那些很少在较短时间内发生相同行为的用户相比,互相之间的影响力更强。个体之间影响力度量的主要方法包括频度统计法与最大似然法。最大似然法基于一个给定的影响力传播模型得到一次传播结果的似然度,然后通过最大化似然度来求解影响力传播模型中的参数——即个体之间的影响力大小。然而,最大似然法一般很难得到一个精确解,需要对似然函数做变换并采用近似迭代方法求解,增加了计算的复杂度。因此,一些研究者直接对给定数据进行频度统计来度量个体之间的影响力。例如,唐(Tang)等人[14]提出了话题驱动的影响力模型。在学术网络中,对研究者在不同话题、不同领域中的影响力大小进行量化学习。杨(Yang)等人[15]进一步研究了扮演不同社会角色用户的影响力模式的异同。图4展示了意见领袖、结构洞用户[16]和普通用户在微博上影响周围邻居转发自己帖子的概率。图中的横坐标表示一个用户周围已经转发一个帖子且扮演不同社会角色的好友数,纵坐标表示该用户被好友影响也转发这个帖子的概率。可以看出,当只有1位好友进行转发时,意见领袖的影响力是普通用户的12倍之多;当意见领袖人数增加到2~3个时,其影响力出现了明显的下降。这体现了信息过载——当有多位意见领袖在一个社区中转发一条信息时,这条信息会变得人尽皆知,使得其他用户缺失推送一条人尽皆知的信息的动力。然而,随着意见领袖人数的继续增加,其对好友的影响力又一次出现了增长。这种现象表明,当有超过4位意见领袖转发一条信息时,就形成一种社会规范(social norm)。相比之下,结构洞用户(桥接不同社区的用户)对其他用户的影响是随着人数的增加而线性增长的。基于这些分析,杨等人提出了社会角色感知的传播模型RAIN,该模型将对用户的社会角色挖掘与影响力传播过程的建模放在一个统一的框架中,使两个任务相辅相成,互相提高精准度。
社会影响力的主要应用场景包括广告推荐、链接预测与用户行为预测等。例如,给定影响力传播模型以及网络中用户之间的影响力大小,便可以从整个网络中挑选出影响力最大的初始用户,为其提供商品体验的机会,使其将体验感受传播出去,影响最多的用户购买该商品,这也是影响力最大化的目标所在。另一方面,倘若在链接预测以及用户行为预测中考虑其他用户的影响效应,则有可能达到更精确的预测效果。
图4 扮演不同社会角色的用户对周围邻居的影响模式
以用户行为预测为例,方(Fang)等人对游戏玩家之间的影响力进行量化,预测玩家的付费行为,从而使国内著名赛车游戏QQ飞车的道具收入增加了9.4%[17]。邱(Qiu) 等人将影响力结构特性用于加入微信群组的行为预测[18]。张(Zhang)等人将影响力结构特性应用于微博数据上对用户转发行为进行预测[19]。具体到转发预测,已有大量工作研究人们转发微博的原因与机理。例如博伊德(Boyd)等人对转发原因做了深入的分析。该研究主要使用调查问卷的方式,因此其结果有待于在大规模真实数据上做验证[20]。不同的研究从不同的角色对转发原因进行解释,例如,一些研究重点分析了帖子内容对于转发概率的影响。纳威德(Naveed)等人训练了一个机器学习模型来学习从帖子内容中抽取特征的权重。他们发现那些包含hashtag、URL 以及用户名的帖子更容易被转发[21]。马可斯卡西(Macskassy) 等人给每个帖子打一个标签,并将一个用户发表或转发所有帖子的标签组合在一起当做该用户的兴趣[22]。其中标签空间来源是维基百科的目录。他们尝试了四种不同的模型,发现两个用户兴趣越相似,越有可能互相转发对方的帖子。还有一些研究从话题的流行度,社会关系的强度,以及发布者的社会地位等角度来研究转发的概率。
除此之外,影响力在广告推荐、专家发现等方面也有广泛的应用。
小结与展望
本文对社交网络中用户影响力及其传播过程的相关研究进行了简要概述。本文首先回顾了社会学家对影响力存在性的验证实验,以及在线社交网络兴起后,计算机科学家所设计并实施的一系列影响力分析。随后,本文介绍了量化影响力及其传播过程的模型,并对相关应用进行了阐述。用户影响力建模近年来吸引了大量研究者的关注,也取得了颇丰的成果。然而用户影响力建模仍存在众多挑战与尚未解决的问题,例如本文所介绍的所有模型,均假设网络的结构并不会发生变化。亦即用户及用户之间的关系不会随着时间的推移而增多或减少。然而,现实应用中,网络结构往往是随着时间变化而变化的。如何在动态网络中对用户影响力进行建模,是未来工作的另一大挑战。 ■
参考文献:
[1] Bond R M, Fariss C J, Jones J J, et al. A 61-million-person experiment in social influence and political mobilization[J]. Nature, 2012, 489: 295-298.
[2] Muchnik L, Aral S, Taylor S J. Social Influence Bias: A Randomized Experiment[J]. Science, 2013, 341(6146): 647-651.
[3] Goldenberg J, Libai B, Muller E. Talk of the network: A complex systems look at the underlying process of word-of-mouth[J]. Marketing letters, 2001, 12(3): 211-223.
[4] Granovetter M. Threshold models of collective behavior[J]. American journal of sociology, 1978, 83(6):1420-1443.
[5] Galuba W, Aberer K, Chakraborty D, et al. Outtweeting the twitterers-predicting information cascades in microblogs[C]// WOSN’10, 2010, 10: 3-11.
[6] Goyal A, Bonchi F, Lakshmanan L. Learning influence probabilities in social networks[C]// WSDM’10, 2010: 241-250.
[7] Saito K, Ohara K, Yamagishi Y, et al. Learning diffusion probability based on node attributes in social networks[C]// Proceedings of the 19th international conference on Foundations of intelligent systems, 2011, 6804: 153-162.
[8] Saito K, Nakano R, Kimura M. Prediction of information diffusion probabilities for independent cascade model[C]// Proceedings of the 12th international conference on Knowledge-Based Intelligent Information and Engineering Systems, 2008, 5179: 67-75.
[9] Kimura M, Saito K, Ohara K, et al. Learning information diffusion model in a social network for predicting influence of nodes[J]. Intelligent Data Analysis, 2011, 15(4): 633-652.
[10]Kempe D, Kleinberg J, Tardos É. Maximizing the spread of influence through a social network[C]// KDD’03, 2003, 137-146.
[11]Holme P, Newman M E. Nonequilibrium phase transition in the coevolution of networks and opinions[J]. Physical Review E, 2006, 74(5):056108.
[12]Crandall D, Cosley D, Huttenlocher D, et al. Feedback effects between similarity and socialinfluence in online communities[C]//KDD’08, 2008: 160-168.
[13]Scripps J, Tan P N, Esfahanian A H. Measuring the effects of preprocessing decisions and network forces in dynamic network analysis[C]//KDD’2009, 2009: 747-756.
[14]Tang J, Sun J, Wang C, et al. Social Influence Analysis in Large-scale Networks[C]//Proceedings of the Fifteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'09), 2009: 807-816.
[15]Yang Y, Tang J, Leung C, et al. RAIN: Social Role-Aware Information Diffusion[C]//In AAAI’15, 2015: 367-373.
[16]Lou T, Tang J. Mining structural hole spanners through information diffusion in social networks[C]//WWW’13, 2013, 825-836.
[17]Fang Z, Zhou X, Tang J, et al. Modeling Paying Behavior in Online Social Networks[C]//Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management, CIKM'14,2014: 411-420.
[18]Qiu J, Li Y, Tang J, et al. The lifecycle and cascade of wechat social messaging groups[C]// WWW’16, 2016.
[19]Zhang J, Liu B, Tang J, et al. Social influence locality for modeling retweeting behaviors[C]//IJCAI’13, 2013: 2761-2767.
[20]Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C]//HICSS’10, 2010: 1-10.
[21]Naveed N, Gottron T, Jérôme, et al. Bad news travel fast: A content-based analysis of interestingness on twitter[C]//WebSci’11, 2011.
[22]Macskassy S A, Michelson M. Why do people retweet? anti-homophily wins the day![C]// ICWSM, 2011.
所有评论仅代表网友意见