H-index 其实更广泛的应用于学术论文评价,其定义为:

h 代表 “高引用次数”(high citations),一名科研人员的 h 指数是指他至多有 h 篇论文分别被引用了至少 h 次。

约在半年前,小编就和一位老师打趣地说这东西能不能用于评价微博用户的影响力。定义相应可以改为:

一名微博用户的 h 指数是指他至多有 h 个粉丝数超过 h 的粉丝。

怎奈后来抓数据奇慢无比,遂放弃。

转过年来,春天都到了,Rweibo 这个包也出来好久了,不动手试试多少有点痒痒。新浪微博的 API 对于测试帐号限制较多,一小时只有 150 次请求机会。唉,只能无耻的多帐号多 API 一个个抓。就算这样,到最后在有限的时间之内小编也只成功的抓取了一百多个用户的信息,勉强绘就了一张微博的 H-index 指数与粉丝数的关系图。

当然,一切的第一步自然是以小编自己的帐号为测试中心。前段时间涨了不少粉丝,貌似却不怎么互动。所以小编有理由认为自己的 H-index 可能偏低。结果证明,在小编的近 1100 粉丝之中,只有 287 人的粉丝数超过了 287。这样,小编的 H-index 就华丽丽的定格在 287 了。

然后小编好奇呀,那些跟我差不多的人,他们的情况是怎么样呢?于是从自己的粉丝中(我只能直接影响到这些人嘛)上下选了一下,粉丝数 > 500 且小于 2000 的显然是个不错的对比范围 (受限于新浪微博 API 的控制,力不从心呀)。

不一会儿,数据抓完了。然后算算 H-index,就有了下面这张图:

新浪微博用户影响力H-index指数

新浪微博用户影响力 H-index 指数

巧的或者不巧的,小编我正好在线性回归线上面。标准用户呀!然后一橫一竖,就可以分出来跟我相比的四群人:

  • 左上:粉丝小于 1095 但 h-index 大于 287。这群人得好好关注呀,高质量的圈子!
  • 左下:粉丝小于 1095 大于等于 500,h-index 小于 287。不过大部分人还是在回归线附近的,所以大家发展趋势还是很好的。那些远远甩开回归线的,是新来的童鞋呢还是僵尸粉呢?
  • 右上:粉丝大于 1095 且 H-index 大于 287,不用说了,大牛云集的区域!各种羡慕。
  • 右下:粉丝大于 1095 但 H-index 小于 287。喂,那些离回归线远远的童鞋,你们是不是买僵尸粉啦?坦白从宽哦。虽然新浪不一定检测的出来你的僵尸粉,但是你们的嫌疑大大滴!比如那个 “xx 书友会”,哼你关注我的第一天我就开始怀疑你了,一直苦无证据,如今,嘻嘻…

碎碎念的细节

  1. 新浪微博的 API 如果只是自己玩玩,还是比较好用的,至少比爬虫要快一点点… 而且权限稍微大一点点(比如粉丝可以抓全而不用受限于显示页面)。

  2. 如果希望抓全粉丝,就不能用 friendships/followers 而是要用直接抓 ID 的 friendships/followers/ids.

  3. 其实可以递归的继续定义高阶 H-index,比如二阶,定义为有 h2 个粉丝的(一阶)h-index 大于 h2… 对于粉丝动辄过万的大 V 来说,递归几次可能更有意思。吾等小玩意儿就不用了。

  4. 然后附上这张图的原始数据… 大家的微博 ID 我就不隐藏了,都可以直接搜到… 按 h-index 指数排序哦。

weibo_name followers_count h-index
崔婧 Janet 1534 634
Gideon_Ge 1682 515
数据逻辑 1663 508
blogkid 1409 448
董友良_飘香一剑 1334 436
数据鱼_谢宇 1887 425
黠之大者 1706 420
bicloud 笑西西 1352 407
super00011127 1270 380
MINI 金石头 1803 378
长颈鹿 27 1106 362
G_will 1113 360
Sevennick 1357 348
Leo 在梧桐山下 642 344
王昕 - CALL 谁谁 OFFER 1090 339
波波头一头 1216 337
晓帆目标 130 斤 806 329
科隆王子 Original 1139 327
指间战争 989 326
小刚 C 898 311
谢益辉 1511 311
安泰科宏观部 1133 310
jia 华_伪学术 664 305
老马 - InSydney 849 301
洛川有机好苹果 1082 297
P-Jackie 967 296
身边汇康康 1253 295
pepsidav 785 292
jiangfeng_scir 871 285
王函大帆船 929 284
万幸_Wonder 746 282
cloud_wei 965 279
数据挖掘 racoon 737 278
DATA309 846 277
左根永 690 277
猎头王俊宏 925 275
林小妖系小球童 700 274
rxjia 942 272
lijian001 1387 271
大雁_sysu 627 271
汪琨 1987 1054 270
许亮_在路上 914 268
TT 小和子 742 264
TerryMANG 931 262
李响_ICT_NLP 656 261
李直 840 252
AnnaPatio 641 252
七桃 ple 853 249
william_ou 720 249
雁起平沙 675 243
上海芒果商务咨询 1472 243
叶茂亮 592 243
Jordi_Liang 637 239
天天向上的胖子 671 238
爱宇直 - 抠脚不闻非君子 748 238
邓一硕 804 236
月亮先生 Zsir 381 236
taishanfan 729 233
智博是老青年 1005 224
ivanlauCOM 679 222
Puriney 1180 218
陈筱歪 1025 215
百变小倩 1314 863 214
达斯托洛夫斯基 661 213
Deer 一只鹿 1070 208
Delphiyeh 898 206
飞鱼姬 Sindy 417 202
mlzboy 1252 200
top 糊涂虫 441 199
爱美丽高 670 196
罗小妮_focus 467 195
thinkfan 619 191
無限追云 438 191
默尔根 454 189
黎胖 373 188
发现神回复_Denny 400 184
忙碌的灵麟 855 184
谭卫国 Forest 619 180
乐美家的乐子 785 180
刘坤林 Jason 617 179
omgpumelo 652 179
sirius 486 176
Fancy_zju 488 175
晨曦彩虹 740 173
田宪允 588 171
对半切开的奇异果 1106 167
八爪鱼 Rainie 485 164
唐吉_诃德 607 162
can_sunny 734 159
LeprechaunTon 478 157
女鬼小倩 554 153
Nefeli 要过正常人的生活 602 146
猪头开 Lucas 403 140
elemenTY 690 139
彤言彤趣 577 136
左后卫左后卫 377 136
soulwangh 414 136
不动点 - 432 133
Gossip_Nathen 425 133
我是小志童鞋 1271 126
yangleicq 320 124
nsol 397 115
毛毛虫_Oak 618 112
心卧缘 323 111
十九向日葵 1371 110
codememory 385 110
薛定谔的粥稀稀 357 100
雪中炭忐 d 662 88
Preec 314 87
呼和浩特书友会 1298 65

最后附上一段短小精悍的代码。lijian 哥的 Rweibo 包真是给力!

发表 / 查看评论