主题：工业系统大数据分析方法及其应用案例

嘉宾：刘恺博

主办：统计之都

场地：北京大学

组织：闫晗常象宇王高斌

纪要：王高斌

简介：第 35 期沙龙（北京）与 2016 年 1 月 9 日在北京大学顺利举办。主持人为人大本科生闫晗，嘉宾刘恺博，现任美国威士康星大学麦迪逊分校的助理教授。刘恺博于 2009 年毕业于香港科技大学工业与工程管理专业，2011 年和 2013 年分别获得美国佐治亚理工学院（Georgia Tech）统计学硕士、工业与系统工程博士学位（系统信息学和控制方向）。刘恺博博士的研究兴趣主要是工业工程背景下的系统信息学和大数据分析，重点通过数据融合的方法研究制造业、服务系统中的系统过程建模、质量监测、诊断与寿命预测等。他的三篇文章曾先后获得运筹学和管理科学学会（INFORMS）、工业与系统工程研究学会（ISERC）的最佳论文。他于 2012 年获得了美国工业工程学会（IIE）的学术奖金（the Gilbreth Memorial Fellowship）， 2013 年获得了美国质量协会 (ASQ) 的奖学金（the Richard A. Freund International Scholarship）， 2014 年获得了美国工业工程学会（IIE）的最佳博士论文奖（第二名）。他的研究获得了美国和中国国家自然科学基金 (National Science Foundation) 的资助。有关于刘恺博博士的其他信息，可以从他的主页了解更多: http://kaibo.ie.wisc.edu/index.html

第一部分：简介

1, 今天要演讲的内容：数据融合的方法对系统进行监测

2, 研究领域：

（1）传感器的分布融合设计

（2）系统运营进行评估

3，接下来主要报告的是作者的两篇论文。

4，大数据的四个基本特征：Volume Velocity Variety Veracity。

5，数据分析的三个领域：

（1）描述性统计分析（高维下的可视化）

（2）预测分析

（3）决策分析（Prescriptive Analysis )

第二部分：第一篇论文

论文内容：数据融合的方法进行退化分析

1，几个名词解释

（1）退化（汽车从出厂到报废的过程，人从生到死的过程）

（2）退化信号（表现个体退化过程的可测量的信号，一般为传感器）

（3）退化线：表示失效时间的一个阈值

（4）在线的寿命预测（Real-Time Prognostics）

t 时刻时，在我们知道 0-t 时刻的传感器的数据，我们会领用 Bayes 的方法来预测接下来的传感器数据。

2，刘博士论文的创新点

传统的在线寿命预测是通过检测一个指标来分析失效时间的，

刘博士采用的方式是采用数据融合的方法将多个传感信号综合为一个指标（称之为复合健康指数），用该指标来预测失效时间。一个个体有多个传感信号，每个传感信号又随着时间而变化，因此这是一个时间序列的。

例子：用 800 台传感器监测一台液压机，一共有 20 台机子，而每台监测器的指标又会随时间而变化。

那么，我们如何将 800 台传感器的的数据，融合为一个指标（复合健康指数），从而来预测其失效时间。

我们希望我们提出的复合健康指数应该具有的性质：

（1）健康指数是单调的（坏掉了就是坏掉了） —- 工业上的考虑

（2）在相同的条件下，不同单元的失效阈值（通过健康指数度量的）的方差应该尽可能小 —生命预测的考虑

根据上面两个性质，来将我们的的问题转化为一个有约束的优化问题。（即在上面的两个限制条件下，求综合健康指数中各个指标的权重）

案例研究：

100 台机子知道失效时间的；另外 100 台机子不知道失效时间。

每台机子有 21 个传感器

融合的方法：第一考虑 21 个指标化为一个指标；第二还要考虑不同的指标的 time series 的频率不同；第三，缺失数据的处理

此外，我们还可以通过核方法将线性融合扩展为非线性融合。

第三部分：

论文内容：可适应性的抽样方法（adaptive sampling）来进行高维数据的在线监测

研究动机：

问题一：生产线的监测中，有限的传感器应该放在哪些位置

问题二：火山爆发预测中，有限的可使用传感器应该开哪些个

问题三：如何监测太阳黑子一天监测的数据有 10tb。

接下来我们以问题三为例来进行说明：

（1）在监测太阳黑子的问题中，我们可获取的数据是卫星拍摄的图片（将图片中的每个像素点看做一个传感器的话，可以将一张图片看做 6 万多个传感器的数据，即有 6 万多个像素点）

（2）但由于一天产生的数据大概有 10 个 TB，而由于处理数据量的限制，我们不可能去处理所有的数据。

（3）大部分的选择方法是在时间轴上选择，即选取某些时间点上的图像上的所有像素点来监测太阳黑子；而我们的方法是在空间轴上选择，即选取所有的图像用于监测，但是每张图像上只选取部分像素点，比如从 6 万多个像素点中选取 2000 个。（这两种方法处理的数据量都一样）

我们提出的方法分为两个步骤：

（1）建造局部的统计值（即用每个像素点的灰度值构建统计量）

（2）如何预测总体的值，以及采样方法。

第四部分：

主要介绍了 Industrial Engineering EAR(IERA) 和小型的 social network。

最后，刘恺博老师就现场参会者们提出的疑问进行了细致的解答，大家积极热情地讨论，本次沙龙圆满结束。

COS 沙龙第 35 期（北京）纪要

统计之都

主题：工业系统大数据分析方法及其应用案例

第一部分：简介

第二部分：第一篇论文

第三部分：

第四部分：