Rweibo配图

近两年来微博这东西越来越火了,已经逐渐成了最主流的网络舆论平台。对于最近的网络热点问题大家一定是深有体会,作为统计门人,肯定很多人技痒不已,希望能进一步地探究很多事情背后的秘密……

好在几个主流的微博平台都提供了 API,各种语言的 SDK 应运而生,而真正的分析利器 R 的 SDK 一直没有,这里不卖关子了,直接发布一个 R 的 SDK,参见:Rweibo 中文主页

本项目在 R-Forge 上开发,最新的信息发布在 Rweibo 中文主页上。目前的版本全部基于新浪微博,毕竟是现在最火的微博,其实几个微博的 API 平台大同小异,和 twitter 的也类似,都来自于同样的开源平台,略作改动也能支持腾讯微博等。本文就只拿新浪微博举例。

CRAN 上有一个 twitteR 包,之前普通权限还可以用的时候有些接口可以和新浪的 API 通用,新浪废掉普通权限只留 OAuth 之后,我就放弃了 twitteR,开始开发 Rweibo(当前版本的 twitteR 已经可以支持 OAuth,不过很多接口的细节和新浪微博还是不一样)。

在这里,我先介绍一下授权机制以及 OAuth,这个搞定后整个微博的 API 就仅仅只是传一下参数调用 GET 和 POST 方法而已。最早的微博开放平台的授权方式是普通授权,通过 HTTP 的头信息来传递用户的信息,这种方式不是很安全,在非 HTTPS 的情况下密码可能会被窃听,对于开发者和使用者来说都是比较危险的。后来新浪就直接停用了这种方式,采用目前流行的 OAuth。

OAuth 看上去很玄乎,其实道理非常简单。拿微博开放平台来说,开发者希望能开发一个应用,让不同的用户使用,每个用户都有自己的微博帐号信息,他们不希望在使用的过程中被开发者知道,同时开发者的这个应用的帐号密码也不希望被别的用户知道,不然就会被同行拿去乱来。这样一来,就需要一种授权机制,能够使得开发者和用户都信得过,就好象在淘宝买东西一样,买家和卖家都基于一个可信的第三方平台。对于新浪微博来说,双方都信任新浪,只要能确认所处的网站是真的新浪微博,就不会有问题。先是开发者将自己的 App Key 和 App Secret 发送到一个请求地址,新浪微博验证无误后,返回请求的 Token,其实相当于是加密过的开发者信息,将这个信息发送到授权地址,可以完成用户的授权。用户在授权的页面可以输入自己的微博帐号,这些信息只有新浪知道,然后会返回一个验证码,用户输入这个验证码之后进行再次确认。开发者将之前自己的 Token 信息以及用户的这个验证码一起发送到一个访问地址,经过确认后,新浪微博觉得双方都是可信的,而且彼此也都不知道对方的信息,就会返回一个访问的 Token 以及密码,这就好比是一把钥匙,开发者只要存着这把钥匙,下次如果再对该用户做某些操作时就不需要再征求他的同意了,除非用户主动废除这把钥匙。以上的过程就是 OAuth 授权的过程。

我最开始是利用 JAVA 版本的 OAuth 库,通过 rJava 实现,后来 CRAN 上的 ROAuth 成熟之后又改用 ROAuth,在 twitte 上使用没问题,在新浪微博上调用 POST 时会有问题,而且对于中文的 POST,新浪的开放平台需要编码两次,因此需要对这个包进行改写。当前版本的 Rweibo 已经不再依赖于 ROAuth,直接使用 RCurl 实现整个授权过程,但是仍然借鉴了大部分的 ROAuth 包的内容,在这里对作者表示感谢。

安装 Rweibo 可以参见 Rweibo 中文主页,里面有详细的介绍。使用时首先需要有一个微博帐号,点击 “应用”,选定 “微博开放平台”,在弹出页面选择 “我是开发者”,然后创建一个普通应用,填好基本信息之后在应用的详情中填上相应的内容,就可以成功创建一个新的应用,将会得到一个 App Key 和 App Secret,在 Rweibo 中使用 registerApp 函数,输入这两个信息以及该应用的名称(自己随便起个英文名字即可,不一定要与新浪应用的名字相同),就可以在 R 中注册该应用的信息。

利用 createOAuth 函数可以创建一个 OAuth 对象,如果是第一次使用,将会自动进行授权。比方说我注册了一个应用叫做 test,我需要授权给我的微博帐号 lijiao001 或者我的马甲 Rweibo,那么将会在 R 的界面中完成一个授权的交互过程,如果我用 lijianoo1 的帐号来操作,那么授权成功后,就可以调用各类函数读取这个帐号的信息或者用该帐号来发微博。一个简单的操作过程如下所示:

registerApp("GDdmIQH6jh", "MCD8BKwGdgPHv", app_name = "test")  # 在R中注册新的应用
roauth <- createOAuth("test", "lijian001")  # 创建OAuth对象
timeline.Friends(roauth, list(count = 5))  # 获取好友及自己的前5条最新微博
timeline.CommentsList(roauth, list(id = 14762313082))  # 获取某条微博的评论列表
timeline.Comments(roauth, list(count = 5))  # 获取自己发送及收到的评论
timeline.Repost(roauth, list(id = 14761105585, count = 5))  # 获取某ID微博的转发情况
timeline.Mentions(roauth, list(count = 5))  # 获取@了当前用户的微博列表
timeline.User(roauth, list(screen_name = "rweibo", count = 5))  # 获取某用户的信息
access.update(roauth, list(status = "hello world"))  # 发一条微博
search.Content(roauth, list(q = "Rweibo"))  # 根据关键词搜索微博内

目前版本的 Rweibo 实现了所有的 timeline 接口以及搜索、查询用户等接口,利用这些接口已经可以取到大部分能够用来分析的信息了。至于其他一些操作的接口,将会在后续的版本中实现。大家有什么建议也可以提给我,我将会在后续的版本中修改。

另外值得注意的是,我们申请的应用都是最低权限的,因为新浪目前对接口访问权限控制得比较严,只有成为合作开发者才能有很大的权限,而这些主要都是针对应用的需求而不是分析的需求。普通的权限一小时只能访问 150 次,其中发微博的操作只能在 30 次以内。对于一些操作,每次取出的信息条目也会有限制,20 条到 200 条不等。没办法对某个关键词一次把所有的东西搜索出来或者将某条微博的转发信息一次抓取出来。但是这些难不倒我们,微博 API 是基于轮询的协议,两分钟左右取一次足矣,对于要分析的内容,我们完全可以设置一个任务,每隔两分钟取一下增量,时间一长就会得到我们想要的大量的数据了。

至于这些内容可以如何进行分析,就需要大家的聪明才智了。我最近想做的一件事情就是研究一下微博的转发规律。很多热点事件通常都会有几条转得极热的微博,如果能够得到转发的规律,就像传染病的规律一样,找到一些关键的节点,对于我们研究微博舆情是非常有用的。

发表 / 查看评论