H-index 其实更广泛的应用于学术论文评价,其定义为:
h 代表 “高引用次数”(high citations),一名科研人员的 h 指数是指他至多有 h 篇论文分别被引用了至少 h 次。
约在半年前,小编就和一位老师打趣地说这东西能不能用于评价微博用户的影响力。定义相应可以改为:
一名微博用户的 h 指数是指他至多有 h 个粉丝数超过 h 的粉丝。
怎奈后来抓数据奇慢无比,遂放弃。
转过年来,春天都到了,Rweibo 这个包也出来好久了,不动手试试多少有点痒痒。新浪微博的 API 对于测试帐号限制较多,一小时只有 150 次请求机会。唉,只能无耻的多帐号多 API 一个个抓。就算这样,到最后在有限的时间之内小编也只成功的抓取了一百多个用户的信息,勉强绘就了一张微博的 H-index 指数与粉丝数的关系图。
当然,一切的第一步自然是以小编自己的帐号为测试中心。前段时间涨了不少粉丝,貌似却不怎么互动。所以小编有理由认为自己的 H-index 可能偏低。结果证明,在小编的近 1100 粉丝之中,只有 287 人的粉丝数超过了 287。这样,小编的 H-index 就华丽丽的定格在 287 了。
然后小编好奇呀,那些跟我差不多的人,他们的情况是怎么样呢?于是从自己的粉丝中(我只能直接影响到这些人嘛)上下选了一下,粉丝数 > 500 且小于 2000 的显然是个不错的对比范围 (受限于新浪微博 API 的控制,力不从心呀)。
不一会儿,数据抓完了。然后算算 H-index,就有了下面这张图:
新浪微博用户影响力 H-index 指数
巧的或者不巧的,小编我正好在线性回归线上面。标准用户呀!然后一橫一竖,就可以分出来跟我相比的四群人:
- 左上:粉丝小于 1095 但 h-index 大于 287。这群人得好好关注呀,高质量的圈子!
- 左下:粉丝小于 1095 大于等于 500,h-index 小于 287。不过大部分人还是在回归线附近的,所以大家发展趋势还是很好的。那些远远甩开回归线的,是新来的童鞋呢还是僵尸粉呢?
- 右上:粉丝大于 1095 且 H-index 大于 287,不用说了,大牛云集的区域!各种羡慕。
- 右下:粉丝大于 1095 但 H-index 小于 287。喂,那些离回归线远远的童鞋,你们是不是买僵尸粉啦?坦白从宽哦。虽然新浪不一定检测的出来你的僵尸粉,但是你们的嫌疑大大滴!比如那个 “xx 书友会”,哼你关注我的第一天我就开始怀疑你了,一直苦无证据,如今,嘻嘻…
碎碎念的细节
-
新浪微博的 API 如果只是自己玩玩,还是比较好用的,至少比爬虫要快一点点… 而且权限稍微大一点点(比如粉丝可以抓全而不用受限于显示页面)。
-
如果希望抓全粉丝,就不能用 friendships/followers 而是要用直接抓 ID 的 friendships/followers/ids.
-
其实可以递归的继续定义高阶 H-index,比如二阶,定义为有 h2 个粉丝的(一阶)h-index 大于 h2… 对于粉丝动辄过万的大 V 来说,递归几次可能更有意思。吾等小玩意儿就不用了。
-
然后附上这张图的原始数据… 大家的微博 ID 我就不隐藏了,都可以直接搜到… 按 h-index 指数排序哦。
weibo_name | followers_count | h-index |
---|---|---|
崔婧 Janet | 1534 | 634 |
Gideon_Ge | 1682 | 515 |
数据逻辑 | 1663 | 508 |
blogkid | 1409 | 448 |
董友良_飘香一剑 | 1334 | 436 |
数据鱼_谢宇 | 1887 | 425 |
黠之大者 | 1706 | 420 |
bicloud 笑西西 | 1352 | 407 |
super00011127 | 1270 | 380 |
MINI 金石头 | 1803 | 378 |
长颈鹿 27 | 1106 | 362 |
G_will | 1113 | 360 |
Sevennick | 1357 | 348 |
Leo 在梧桐山下 | 642 | 344 |
王昕 - CALL 谁谁 OFFER | 1090 | 339 |
波波头一头 | 1216 | 337 |
晓帆目标 130 斤 | 806 | 329 |
科隆王子 Original | 1139 | 327 |
指间战争 | 989 | 326 |
小刚 C | 898 | 311 |
谢益辉 | 1511 | 311 |
安泰科宏观部 | 1133 | 310 |
jia 华_伪学术 | 664 | 305 |
老马 - InSydney | 849 | 301 |
洛川有机好苹果 | 1082 | 297 |
P-Jackie | 967 | 296 |
身边汇康康 | 1253 | 295 |
pepsidav | 785 | 292 |
jiangfeng_scir | 871 | 285 |
王函大帆船 | 929 | 284 |
万幸_Wonder | 746 | 282 |
cloud_wei | 965 | 279 |
数据挖掘 racoon | 737 | 278 |
DATA309 | 846 | 277 |
左根永 | 690 | 277 |
猎头王俊宏 | 925 | 275 |
林小妖系小球童 | 700 | 274 |
rxjia | 942 | 272 |
lijian001 | 1387 | 271 |
大雁_sysu | 627 | 271 |
汪琨 1987 | 1054 | 270 |
许亮_在路上 | 914 | 268 |
TT 小和子 | 742 | 264 |
TerryMANG | 931 | 262 |
李响_ICT_NLP | 656 | 261 |
李直 | 840 | 252 |
AnnaPatio | 641 | 252 |
七桃 ple | 853 | 249 |
william_ou | 720 | 249 |
雁起平沙 | 675 | 243 |
上海芒果商务咨询 | 1472 | 243 |
叶茂亮 | 592 | 243 |
Jordi_Liang | 637 | 239 |
天天向上的胖子 | 671 | 238 |
爱宇直 - 抠脚不闻非君子 | 748 | 238 |
邓一硕 | 804 | 236 |
月亮先生 Zsir | 381 | 236 |
taishanfan | 729 | 233 |
智博是老青年 | 1005 | 224 |
ivanlauCOM | 679 | 222 |
Puriney | 1180 | 218 |
陈筱歪 | 1025 | 215 |
百变小倩 1314 | 863 | 214 |
达斯托洛夫斯基 | 661 | 213 |
Deer 一只鹿 | 1070 | 208 |
Delphiyeh | 898 | 206 |
飞鱼姬 Sindy | 417 | 202 |
mlzboy | 1252 | 200 |
top 糊涂虫 | 441 | 199 |
爱美丽高 | 670 | 196 |
罗小妮_focus | 467 | 195 |
thinkfan | 619 | 191 |
無限追云 | 438 | 191 |
默尔根 | 454 | 189 |
黎胖 | 373 | 188 |
发现神回复_Denny | 400 | 184 |
忙碌的灵麟 | 855 | 184 |
谭卫国 Forest | 619 | 180 |
乐美家的乐子 | 785 | 180 |
刘坤林 Jason | 617 | 179 |
omgpumelo | 652 | 179 |
sirius | 486 | 176 |
Fancy_zju | 488 | 175 |
晨曦彩虹 | 740 | 173 |
田宪允 | 588 | 171 |
对半切开的奇异果 | 1106 | 167 |
八爪鱼 Rainie | 485 | 164 |
唐吉_诃德 | 607 | 162 |
can_sunny | 734 | 159 |
LeprechaunTon | 478 | 157 |
女鬼小倩 | 554 | 153 |
Nefeli 要过正常人的生活 | 602 | 146 |
猪头开 Lucas | 403 | 140 |
elemenTY | 690 | 139 |
彤言彤趣 | 577 | 136 |
左后卫左后卫 | 377 | 136 |
soulwangh | 414 | 136 |
不动点 - | 432 | 133 |
Gossip_Nathen | 425 | 133 |
我是小志童鞋 | 1271 | 126 |
yangleicq | 320 | 124 |
nsol | 397 | 115 |
毛毛虫_Oak | 618 | 112 |
心卧缘 | 323 | 111 |
十九向日葵 | 1371 | 110 |
codememory | 385 | 110 |
薛定谔的粥稀稀 | 357 | 100 |
雪中炭忐 d | 662 | 88 |
Preec | 314 | 87 |
呼和浩特书友会 | 1298 | 65 |
最后附上一段短小精悍的代码。lijian 哥的 Rweibo 包真是给力!
发表 / 查看评论