主题:Dato:从数据科学到智能应用(Dato: From Data Science to Intelligent Applications)
嘉宾:顾海杰
主办:统计之都
场地:北京大学
组织:张心雨、王健桥、冯璟烁、魏太云
纪要:冯璟烁
简介:第31期沙龙(北京)与2015年10月31日在北京大学顺利举办。本次嘉宾是Dato的联合创始人兼首席数据科学家顾海杰先生,研究方向主要为大规模图的机器学习问题(machine learning on big graph)以及大规模图的表示与分割(big graph representation and partitioning)。Dato公司原名GraphLab,成立于2013年。Dato公司的目标是加速智能应用的普及,大幅度提高生产力。
本次沙龙主要分享了智能应用(Intelligent Applications)的应用领域与创建过程,并基于Dato的实践介绍了Dato产品在智能应用创建中的能力与SFrame等创新。
本次沙龙的主要内容:
顾海杰先生首先展示了一项来自O’Reilly的调查。调查显示了2015年Data Science产业在全球的薪资水平,Data Science的平均薪资已经超过Programming与Computer Science。原因在于各类著名的大型公司(LinkedIn,Uber等)背后,都拥有一套智能的应用(Intelligent apps),智能应用已经成为目前数据应用的主要战地之一。
紧接着,顾海杰先生列举了4个智能应用的例子,形象地向参会者们展现了Intelligent Apps的广泛应用:
- 识别图片中内容,精确识别图片中出物种;
- 基于图片相似性的相似推荐,介绍的重点词语高亮标注(可用于购物网站的应用);
- 基于协同模型的推荐系统(例如电影的推荐,甚至也可以是基于两人的偏好给出渐变的推荐路径)
- 基于文本的情感分析(例如基于用户评论的推荐)
在此之后,顾海杰先生具体就模型建立的过程与大家进行了分享。
在模型建立中,首先需要获取数据,对数据进行探索(exploration)与处理,在exploration的基础上创建模型,之后则再对模型进行评判、增加/减少变量、调整等。顾海杰先生将这个流程(Modeling Pipeline)概括为:Ingest, Transform, Model, Deploy.
而对于Intelligent Application,顾海杰先生介绍,整个流程后还需要将模型放入服务器端,之后通过不断得到的用户反馈,可以对模型进行实施监督。在此基础上,则可以对模型重新进行deploy,不断地修正改进模型。因此,智能应用的整个流程应当是有用户参与的一个循环结构。顾海杰先生介绍,Dato的主要产品正是分别对应于模型建立(GraphLab Create)与模型服务器部署(Dato Predictive Services)两个核心阶段的。
稍后,顾海杰先生展示了一段Python代码,展示了一个智能app的创建过程——搞笑分类器(Yelp Funny Classifier)。
代码的主要逻辑是针对文本进行学习,通过统计词频与vote结果(funny数)得到一些文本中的特征(影响其funny或不funny)。代码的目标是输入一个新评论,可以对其是否funny做出预测(0 ~ 1),最后再将这个模型部署到云端。
顾海杰先生介绍,Dato的产品(GraphLab Create)可以将许多代码整合成为一个简单的函数(如在数据清理上,模型的选择与建立上),在代码中直接调用可以大大简化编写过程,同时可以让人员较少的工作组快速提高生产力。另一方面,GraphLab可以让数据在外存上处理,突破系统内存限制,极大提高运算速度。而Dato Predictive Services则帮助简化了上线部署的流程,可以解决该过程中繁琐的API数据架构和优化过程等。
最后,顾海杰先生简要介绍了Dato运用的SFrame与SGraph的数据结构。SFrame是一种基于外存的表结构。其特点是数据列向存储,从而可以大大提高计算速度。SGraph则为一种在SFrame基础上的结构,主要针对图的处理。
在分享之后,顾海杰先生就现场参会者们提出的疑问进行了细致的解答,也在沙龙结束后与热心的参会者继续讨论,本次沙龙圆满结束。
本次沙龙ppt地址
发表/查看评论