社交网络分析起源于社会学家使用数学与图论的方法研究社会群组中人与人之间的交互关系,如中心性分析、凝聚子群分析、社会结构分析等,最著名的莫过于美国社会心理学家Stanley Milgram的”六度分离理论”。传统的社会网络分析重点研究的是社会网络分析的概念以及通过社会网络分析研究社会结构对人、组织的影响,但是由于天然的地域限制,网络的大小受到一定的限制。
随着互联网的出现,特别是社交网站的迅速崛起,国外的Facebook、Twitter、Linked,国内的人人、微博等,互联网赋予了社交网络分析前所未有的机遇和新的挑战。首先,互联网打破了地域的限制,无论来自任何地方都可以通过互联网发生联系,目前Facebook有超过10亿的用户,他们来自全球,相互成为好友;其次,获得研究数据变得非常容易,社交网站拥有大量的用户数据,这些数据对社会网络分析来说就是宝贵的财富,以前从未有过,这也是目前社会网络分析在互联网爆发的主要原因;再次,相比于单一的人与人之间的交互关系,社交网站有着丰富的多媒体信息,除了用户关系,还有文本、图片、视频等内容。
但是数据不是信息,面对社交网站上的海量数据,需要有新的方法处理大数据,并从海量数据中挖掘出有价值的信息;同时应用社交网站的用户信息还面临这隐私保护的问题。
本文从社会网络分析的角度分析新浪微博名人帐号的关注网络,通过中介中心性分析关注网络中的控制网络信息流动的中心人物,并且使用Modularity(模块、群组)算法将关注网络划分为不同群组,最后我们使用Gephi可视化微博名人的关注网络。
相关理论简介
中介中心性
中介中心性(Betweenness Centrality)是处于网络中的点的中心性/重要程度的一种度量方式,网络中点的中介中心性直观的定义为“该点处于其他点最短路径上的次数”,处于这样位置上的点对路径上的信息传输具有一定的控制(阻止、掩饰、歪曲)能力。因此在同一个网络中,哪一个点的中介中心性越高,该点在网络中对信息的控制能力就越强,相反,中介中心性低,对信息的控制也就低。
如果希望了解中介中心性的详细内容,可参考Wikipedia上的词条Betweenness Centrality,和我的的上两篇文章A Set of Measures of Centrality Based on Betweenness与A Kinda Betweenness Centrality Algorithm。
网络群组
网络群组(Modularity)是社会网络分析中用于分析网络结构的一种方法。根据一个群组内部比群组外部具有更高密度的联结的原则,它将网络分成不同的群组(通常也叫群(groups)、族群(clusters)或者社群(communities)),通常用来侦测网络的社群结构。
更多群组的信息请参考Wikipedia词条Modularity.
数据来源
数据收集
本文所使用的数据来源于新浪微博的用户关注信息,一共收集了30999个新浪微博用户的关注信息,去重后被关注的用户数量为3,940,891位。
以下是收集数据的概述:
数据收集时间:2013.3.18~2013.4.2
原始数据:包含两部分,一部分是用户信息,另一部分是用户的关注信息
用户信息:用户信息从用户的/info页面上收集
用户关注信息:用户关注信息从用户的/follow页面逐页收集
数据预处理
首先,我们定义微博名人为:在我们所收集的数据中,被关注的次数大于等于1000;然后利用上小节中收集的数据,使用Hadoop将数据处理为:”用户, 关注用户”的形式。对于如何在Hadoop中使用Filter处理数据可以参考我的文章Adding Filter in Hadoop Mapper Class;最后我们获得了一个包含218,071个节点,677,268条边的微薄名人(有向)关注网络。
需要注意的是在下面的分析中,由于计算资源的有限,我们在Hadoop获得的结果上,进一步将节点数缩小到100个,相应的边的数量为4820。这一步骤是由限制名人网络中节点入度为178实现的。
微博名人关注网络分析
中介中心性和群组分析
下表列出了中介中心性Top20的微博名人(数据保留小数点后两位)。可以看出在我们的数据集中老沉(新浪执行副总裁、总编辑陈彤)、薛蛮子(著名天使投资人)和徐小平(真格基金创始人、新东方联合创始人)名列前三,李开复中心性值排在第七,为108.16;有11个账户的中介中心性值超过100,他们在网络中处于最短路径上的次数大于100。
排名 | 微博帐号 | 中介中心性值 | 群组 |
1 | 老沉 | 188.31 | 0 |
2 | 薛蛮子 | 156.74 | 2 |
3 | 徐小平 | 142.70 | 0 |
4 | 王利芬 | 127.67 | 0 |
5 | 正和岛刘东华 | 124.40 | 0 |
6 | 封新城 | 119.40 | 2 |
7 | 李开复 | 108.16 | 0 |
8 | 巴曙松 | 104.45 | 1 |
9 | 作业本 | 103.95 | 2 |
10 | 刘春 | 101.13 | 1 |
11 | 张力奋 | 100.36 | 1 |
12 | 王冉 | 99.05 | 0 |
13 | 财经网 | 97.46 | 1 |
14 | 华尔街日报中文网 | 94.45 | 0 |
15 | 李承鹏 | 88.33 | 2 |
16 | 王克勤 | 84.17 | 2 |
17 | 韩寒 | 79.72 | 2 |
18 | 章立凡 | 76.93 | 2 |
19 | 南都周刊 | 75.87 | 0 |
20 | 钱钢 | 75.75 | 2 |
上表中“群组”列给出了中心性Top20微博名人的群组分类,将他们大致分为三个群组:
+ 互联网+青年导师,
+ 新闻媒体相关,和
+ 新知识分子。
更直观的分类请参看下小节的可视化分析。
可视化分析
我们使用Gephi对微博名人关注网络数据进行可视化分析。如下图所示:
图中节点大小代表中介中心性的大小,节点的颜色代表相应的群组,相同的节点颜色表示处于同一个群组,从图中可以清楚的看到群组的分布情况。
动态交互网络:
动态交互网络/Interactive Dynamic Network
结束语
本文运用社会网络分析方法,通过中介中心性和群组两个维度,对微博名人的关注网络进行了分析,通过分析我们得出了微博名人中介中心性,并且将微博名人的关注网络划分为了三个群组。
虽然本文作者设想将本文作为大数据
来进行分析,但是由于计算资源的有限,只能将分析的节点数一再降低;本文中对名人界定以数据集中被关注数量进行度量,更加准确的度量应该以现实微博中用户的被关注数量。
如何在MapReduce框架下进行社交网络分析,将会是一个很价值的主题。
最后,由于本文使用的数据是SINA微博用户数据的很小一部分,文中的排名和可视化网络并非SINA微博真实情况的反映,结论仅供参考。
---EOF---