
摘要
通过社交媒体传播的信息日益增多,从而迫使这些网络的用户去竞争关注度和影响力——以便借助这些力量让其他人帮助传播信息。对Twitter内信息传播的一次大型试验显示,大部分用户扮演的是消极信息消费者的角色,并且不向网络中转发内容。因此,个人如果想要变得有影响力,就必须不仅要保持别人对自己的关注度,还需要克服用户消极性。基于用户信息转发活动,我们开发了一个算法用于判断用户的影响力以及其消极度。对一个250万用户数据集的评估显示,我们的影响力判断方法能很好地预测URL点击,将其他数种未将用户消极性纳入详尽考虑的方法抛在身后。我们还详尽地展示了高欢迎度并不是高影响力的充分条件,反之亦然。
1.前言
社交媒体的爆炸式增长让数以百万计的人有机会在一个几年前根本无法相像的层级上创建并分享内容。对这些社交网站的参与反映在无数的观点、新闻和产品评论在如Facebook、Digg 和Twitter上不断地贴出并讨论。考虑到如此广泛的内容生产和消费,很自然需要将自家的信息传递给联系度很高的人,以便能在社交网站中传播得更远。这在Twitter——互联网上增长最快的社交网站——上尤其明显,这样广告公司和名人的注意焦点让他们急切地想要利用这一巨大的新媒介。结果,想法、观点以及产品与其他所有内容共同去争夺用户社区中稀缺的关注。尽管所有这些互动的发生看起来似乎很混乱,但一些特定的主题仍会得到极大的关注,然后蹿升到榜首——也就是受欢迎度,并为新趋势以及社区的公众议程作出贡献。在一个众包占据主导地位仍旧是一个未解问题的世界里,这一切是怎么发生的?不过在人们之中有一个巨大的共识,信息变革的两个方面似乎在决定哪些内容会获得极大关注上很重要。
一个方面是社交网站中已有用户的受欢迎程度和状态,这一方面是以粉丝形式的关注度来衡量的。粉丝们将在他们的链接加入自己的账户中以便接受他们生产的内容。另一个方面是他们所行使的影响力,这是由他们的内容在网络中的实际传播来决定的。这种影响力由多种因素决定,比如他们信息对他们的粉丝的新奇程度以及能引起的共鸣程度,还有如他们创造的内容的质量和频率。和这些同等重要的是网络中成员的消极程度,这也是传播过程中很难跨过的槛。这样就得出了以下知识:从病毒营销的角度来看,网络中有影响力的人和最活跃的人在传播一个观点时极其重要,在确定主宰公共议程的主题上也是如此。
在本论文中,我们分析了网络链接随时间推移而在Twitter中的传播,以便了解用户如何获得关注以及他们的影响力是如何被决定的。我们使用社交网络的被动性概念设计出了一个通用模式,并开发除了一套类似于 HITS算法的高效算法[14]来衡量在此网络中所有用户的影响力。我们衡量影响力的方法既利用了网络的结构性特征,也将用户之间的扩散 行为纳入了考虑范围。因此一个用户的影响力不仅仅取决于他的受众大小,而且也取决于其受众的被动性。这和之前一些主要根据个人数据如follower人数或锐推数来衡量影响力的方法 [7]。
经过密集评估,我们得出结论此影响力模型性能要比其他如PageRank、H-index、follower人数和锐推数来衡量影响力的方法优越。另外,此算法还具有良好的预测性,能提前预测一个链接得到点击的最大值。我们还提供案例研究,展示通过我们算法得出的最具影响力用户。从结果中我们得出了一个重要的结论:受欢迎程度和影响力的交叉相当弱,最有影响力的用户并不一定都是最受欢迎的人。而且,当我们研究高被动性的节点时,我们发现,这些节点之中的绝大多数是广告账户(spammer)和机器人。这显示我们的算法还可以用于自动用户分类以及在线内容过滤。
2.相关工作
关于社会网络中信息和影响力传播的研究在近几年内特别活跃,此领域与社会学、传播学、市场学、政治学和物理学迥然不同。较早的研究聚焦于无标度网络及他们的成员因特定主题形成的亲和力对信息传播的产生的影响 [6]。其他的讨论在社会网络中关键影响人物[12, 11, 8, 5, 10]的存在情况,关键影响人物是指那些对此网络中全局信息传播负责的人。这种研究强调高度联系的个体作为信息在社交网络传播中的关键要素的价值。
Huberman他们[2]对Twitter上的社交互动进行了研究,结果显示使用度的推动过程是一个隐藏在朋友和follower之下的离散网络,这个过程中的大部分链接都是无意义的互动。Jansen他们 [3] 则审视了twitter作为口头广告的机制。他们研究了一些特定的品牌和产品,并检查了消息发布的结构以及用户情感的变化。Galuba他们[4]提出了一个传播模式,预测用户们根据过往用户活动历史将发在推中发哪些链接。
还有些之前的研究专注于社交影响和社交传播。Agarwal他们[8]检视了在确认博客圈内有影响力的博主上的问题。他们发现最有影响力的博主并不一定是最活跃的。 Aral他们[9]将跟风效应(effect of homophily)和作为传播刺激因素的影响力区分了开来。而在对twitter内部影响力的研究上,Cha他们[7]比较了三种不同的影响力测定方法:入度(Indegree)、锐推数以及用户提及数。他们发现,当锐推数和提及数关联较好时,用户的入度和这两种方法的关联就不好。基于此,他们假设follower人数也许并不是衡量影响力的好方法。在另一方面,Weng他们[5]提出了一个话题敏感度型PageRank方法(topic-sensitive PageRank measure)来衡量Twitter中的影响力。他们的方法是基于在他们的数据集中观察到的follower关系中出现的高度互惠,他们将此归于跟风。然而,其他工作[7]显示出,总体上来看,互惠在Twitter中比例很低,并且与Weng他们工作的假设相矛盾。
3.Twitter
3.1 Twitter的背景资料
3.2 数据集
Twitter提供一个搜索API用于提取包含特定关键词的推。为了获取本次试验所需的数据集,我们自2009年9月10日开始持续不断地向Twitter API请求了300个小时包含字符串http的推。这让我们获得了2200万条带链接的推,我们估计这些推占据当时 Twitter上所有活动的十五分之一。我们从这些推中抽取除了1500万个唯一链接,并检查了它们的可用格式;我们将其中通过bit.ly或tinyurl.com等短址服务缩短的网址复原为原始格式。每当我们遇到独立用户ID时,我们都会请求Twitter API以获得该用户的元数据,特别是用户的follower和用户follow的人数。最终结果是一个按时间戳排列的包含关注某个链接的用户的完整社交图景的数据集。
用户图景:用户图景包括那些发的推出现在我们所搜集的数据集中的人。比如:在那300小时的观察期内发布了至少一条包含链接的公开推的用户。那些在自己的推中并没有提及链接或选择将自己的Twitter信息私密的用户不会出现在我们的社交图景之中。
对于每一个新遇见的用户ID,它们的follower数只会提取一次。我们的数据集不会抓取观察期内用户图景中发生的变化。
4. IP算法
被动性的证据。用户从其他用户那里接受到的信息也许永远也没看见或者选择忽略。我们对此情况的发生程度进行了量化(图4)。平均一个Twitter用户遇到318个链接才会转推其中一个,这个值相对较低。转推率在用户之间差别很大,少数最活跃用户在Twitter的信息传播中起到了很重要的作用。这显示,信息扩散模型要精确,则用户被动性水平就应该纳入考虑范围之内。

假设。许多人将Twitter用于向别人传播自己的观点、知识或观点。一个有趣并且重要的问题是:有可能辨认出那些非常善于向不仅是自己的follower、而且向整个社交网络中一大半的用户传播自己内容的用户吗?获取用户之间双向影响关系的信息要相对容易。比如,在Twitter中,可以通过测量用户B转推用户A的次数来衡量用户A对用户B的影响。然而,不是非常清楚如何利用这种双向影响信息来精确地获取每一个用户对整个网络的相对影响。为了回答这个问题,我们设计了一个算法(IP)赋予每一个用户一个相对影响分和一个被动分。用户的被动分衡量的是其他用户影响他的难度。我们假设一个用户的影响力取决于他影响的听众的数量和质量。基本上,我们的模型提出了以下假设:
1.一个用户的影响分取决于他影响的人数以及他们的被动性。
2.一个用户的影响分取决于他影响的人有多专注。专注度根据一个用户和其他用户相比给予另一个用户的关注来衡量。
3.一个用户的被动分取决于对展示在他面前,但并没有对他成功施加影响的那些影响。
4.一个用户的被动分取决于他同其他人相比拒绝其他用户影响的次数。
运行
略
产生输入图景
略
5. 评估
略
5.1 计算
略
5.2 作为关注度重合的影响
任何一种衡量影响的方法都必然是一种主观的方法。在这种情况下,对影响力的好的衡量方法应该能对被有影响力的用户提及的链接能吸引多少关注并在社交网络中的传播具有极好的预测性。我们会认为由影响力大的用户传播的链接会吸引许多关注和用户点击。因此,对关注的可行的预测方法就是链接被点击的次数。
点击数据。 Bit.ly是一个链接短址服务,可以记录每一个被缩短的链接的点击次数。对于我们在推中发现的3.2兆Bit.ly链接数据,我们请求了Bit.ly API以获得这些链接的点击数。
链接流量重合。通过使用链接点击数据,我们考虑了多种不同的用户属性,测试了此方法能多好地预测粘贴的链接在被用户接收到以后能获得的关注(图3)。需要提出的是,没有一种影响力衡量方法能准确地预测点击数。主要原因是因为一个链接所获得的关注不仅仅是用户提到这个链接所产生的影响在起作用,而且还有许多其他因素影响,包括链接本身的各种变形以及更重要的是,这个链接是否在除Twitter以外的其他地方被提起过——这也是点击数据中不可预测性的最大来源。我们收集的点击数据代表这些链接的所有点击。
这么多因素可能会影响Bit.ly的点击数,这可能让我们不能精确地预测这些点击数。然而,这些点击数的上限在很大程度上都能预测到。为了消除例外情况,我们检视了随着测量影响力行为的增加,99.9%的点击是如何变得不同的。
follower数。衡量 Twitter影响力最便利最常用的方法就是一个用户拥有的follower数。正如图3(a)所示,一个已知链接的普通发布者所拥有的follower数对预测这个链接能得到多少点击影响很弱。

平均follower数vs链接点击数
锐推数。当用户发布链接时,他们发布的内容可能会被其他用户锐推。每一条锐推都赋予了该链接的原始用户(或者锐推用户得知的链接的来源用户)以信用。一个用户在锐推中被赋予信用的次数被认为是一种好的衡量影响力的方法。[7]然而,图3(b)显示,一个用户在过去被多少次锐推过对预测该用户发布这个链接能得到多少点击的影响很弱。

用户平均睿推数vs链接点击数
PageRank。图3(c)显示,那些推了一个特定链接的用户的平均PR值和该链接能得到的点击数重合得并不好。IP算法和PageRank的主要区别之一是,IP算法将用户影响的人的被动性纳入了考虑范围,而PageRank则没有。IP-影响要比PageRank早预测链接受欢迎度上更好。这暗示影响那些难以影响的用户,而不是简单地影响许多用户,要对用户发推的最终受欢迎程度起到积极影响。

平均用户PR vs 链接点击数
Hirsch指数。图3(d)显示,尽管在科学界,Hirsch指数在预测高完成度上表现很好,但在Twitter中,其和链接的受欢迎程度重合得并不好。这可能反映出科学界的关注扮演了对称性角色,因为那些对其他人工作表示关注的人在同一个领域内寻求关注。因此,引用在成功发表论文中扮演了战略性角色,因为作者们的期望是引用者们和作者们会要求自己的工作和同事得到关注。而在社交媒体中,这样的对称性并不存在,因此转发一条信息到网络中所做的决策缺少这种特别的战略价值。

平均用户Hirsch指数 vs 链接点击数
IP-影响分值。正如图3(e)所示,那些推了一个特定链接的用户的平均PR影响分值能决定该链接所能得到的最大点击数。由于IP算法在计算用户影响力时从没有考虑过链接点击数,我们发现在平均IP影响力和链接最终受欢迎度(由点击数来衡量)之间存在极其明显的联系。这种联系在对算法的评估上非常公平,也显示了IP-影响分值的力量。例如,正如图3(e)所示,假如一群用户的平均IP-影响分值非常高,我们就能以99.9%的精度估计出他们发出的链接不会超过10万点击。而在另一方面,如果一群用户的平均IP-影响分值非常低,我们也能以99.9%的精度估计出他们发出的同样的链接不会超过100个点击。

用户平均IP-影响分值 vs 链接点击数,输入了锐推图景
更进一步的是,图4显示,一个用户的IP-影响分值和他所拥有的follower数重合得并不好。这显示出一个人的受欢迎程度和其对其他人影响之间有趣的关系。特别是,这张图显示了在Twitter上有许多follower并不意味着有相应的影响力让follower去点击链接。

6. IP 算法可适性
略
7.案例研究
正如我们之前提到的,IP算法的一个重要用途就是通过用户的相对影响力进行排名。在此部分,我们展示基于影响力、被动性以及follower数而给予Twitter用户的一系列排名。
最具影响力的人。表1显示了整个Twitter网络中最具影响力的用户。我们只排列出了前10名,前10名被政治、技术以及社交媒体等新闻服务商所占据。这些用户发布的许多链接都被其他用户转发了,从而让它们的影响力非常大。

最具IP-影响力的用户(在此期间至少发布过10个链接)
最被动。表2显示了整个Twitter网络中最被动的用户。被动用户指那些follow许多人,但锐推极少自己消费的信息。有趣的是,机器人账户(自动收集来自网络中任何用户的关键词或特定内容)、暂停账号(极有可能是垃圾广告)以及那些极其频繁发布消息的用户是最被动的用户。由于机器人账户“吸收”所有已知的推,并且只转发特定的推,因此这些账户转发的信息在其接收的信息中只占很少一部分。这解释了为什么IP算法给予这些账户如此高的被动分。这还点出了IP算法的新用法:自动识别包括集合者和垃圾广告的机器人用户。

最具IP-被动性的用户
有许多follower但影响力最小的用户。我们已经展示了,一个人得到的关注量并不能很好地预测他们在传播自己的信息时的影响力。为了进一步解释这一点,在表3中我们展示了一些被许多人fo但拥有的影响力却相对较低的用户。这些用户非常受欢迎,并且有数百万人关注,但并并不能将自己的信息传播得很远。大多数情况中,他们的信息被他们的follower消费了,但并不认为重要到要去转发。

有许多follower但影响力最小的用户
拥有最少follower但影响力最大的用户。我们还能识别出拥有很少follower但影响力很大的用户。表4显示了那些follower少于10万的影响力最大的用户。我们在数据收集过程中发现,这一类用户中的一些人运营锐推竞赛运营得非常好,那些转发他们带有链接的推的人将有机会赢得奖品。而且,还有一群从Twitdraw.com上发消息的用户,这些人在Twitdraw.com画画,然后发到Twitter上去。由于这些画质量很高,因此尽管这些人没有多少follower,但他们的消息能在Twitter传播很远。其他有趣的用户比如地方政客和政治漫画家也在这个列表中。IP-影响力衡量方法让我们发现了用户们发布的有趣内容,这些内容被像follower这样的受欢迎排名所埋没了。

拥有最少follower但影响力最大的用户
8.讨论
略
9.结论
考虑到社交媒体日益增长的受欢迎程度,个人,政府和公司投入了巨大精力来让自己的想法,政策,产品和评论在社交网络中传播以获得关注。但社交媒体下的极大网络让这些话题中的任何一个都不能得到足够多的关注来变为最热话题。由于这种限制,部分内容生产者自然转向针对那些被认为有影响力的个人,因为这些个人拥有数目庞大的follower,本项实验显示,受欢迎度和影响力的重合要比预计的弱。这显示要想让信息在网络中传播,个人需要转发其他用户的消息,并且必须积极地互动而非被动地阅读消息,个人应该停止再继续这么做。更进一步的是,犹豫我们衡量影响力的方法不只是针对Twitter,它还适用于其他社交网络。这为发现其他网络中有影响力的能在同一种媒介中接触更多人——而不管其受欢迎程度——的个人提供了可能。
引用资料:
[1] Jure Leskovec, Lada A. Adamic and Bernardo A.Huberman. The dynamics of viral marketing. In Proceedings of the 7th ACM Conference on Electronic Commerce, 2006.
[2] Bernardo A. Huberman, Daniel M. Romero, and Fang Wu. Social networks that matter: Twitter under the microscope. First Monday, 14(1), Jan 2009.
[3] B. Jansen, M. Zhang, K. Sobel, and A. Chowdury.Twitter power: Tweets as electronic word of mouth.Journal of the American Society for Information Science and Technology, 2009.
[4] Wojciech Galuba, Karl Aberer, Dipanjan Chakraborty,Zoran Despotovic, Wolfgang Kellerer Outtweeting the Twitterers - Predicting Information Cascades in Microblogs 3rd Workshop on Online Social Networks,WOSN, 2010)
[5] Jianshu Weng and Ee-Peng Lim and Jing Jiang and Qi He. TwitterRank: nding topic-sensitive in uential twitterers. WSDM, 2010.
[6] Fang Wu, Bernardo A. Huberman, Lada Adamic and Josh Tyler. Information Flow in Social Groups. Physica A, Vol 337, 327-335, 2004.
[7] Meeyoung Cha and Hamed Haddadi and Fabricio Benevenuto and Krishna P. Gummadi. Measuring User In uence in Twitter: The Million Follower Fallacy. 4th International AAAI Conference on Weblogs and Social Media (ICWSM), 2010.
[8] Nitin Agarwal and Huan Liu and Lei Tang and Philip S. Yu. Identifying the In uential Bloggers in a Community. WSDM, 2008.
[9] Sinan Aral, Lev Muchnik and Arun Sundararajan. Distinguishing in uence-based contagion from homophily-driven diusion in dynamic networks.Proceedings of the National Academy of Sciences, Vol.106 (51), pp. 21544-21549, 2009.
[10] Duncan J. Watts and Peter Sheridan Dodds.In uentials, Networks, and Public Opinion Formation.Journal of Consumer Research, Vol. 34 (4), pp.441-458, 2007.
[11] Amit Goyal, Francesco Bonchi and Laks V.S.Lakshmanan. Learning In uence Probabilities In Social Networks. WSDM, 2010.
[12] P. Domingos and M. Richardson. Mining the network value of customers. SIGKDD, 2001.
[13] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, Vol 30, 1-7, 1998.
[14] Jon Kleinberg. Authoritative sources in a hyperlinked
environment. Journal of the ACM 46 (5): 604 -632,1999.
[15] Boyd Danah, Scott Golder, and Gilad Lotan. Tweet,
Tweet, Retweet: Conversational Aspects of Retweeting on Twitter. HICSS-43. IEEE 2010.
[16] Jorge E. Hirsch. An index to quantify an individual's
scientic research output. Proceedings of the National
Academy of Sciences 102(46): 16569 -16572, 2005.
在线地址
summer对本文翻译亦有贡献