这周连续进行了两场活动演讲,一是智联网&LPWAN干货交流暨新书发布会,另一个是首届全球人工智能产品应用博览会上由树根互联组织的工业互联网产业链应用发展高峰论坛。
在看似无关的两个活动中,会议演讲者都提到了一个共同的话题:工业大数据。虽然它听起来老生常谈,但如果仔细分析当下这个时点,围绕在其左右的很多约束条件发生变化,则不免牵动工业大数据的内涵和外延随之变化。
工业大数据正乘着多个此起彼伏的浪潮而实现借力变革,如:传感器变得无处不在,物联网平台的计算和承载能力不断增强,AI人工智能等技术让数据分析更为高效,活跃的IoT生态圈让越来越多的企业尝试通过APP微服务的方式将数据价值变现。
敏感的你一定也会感觉到,随着物联网数据的激增以及运算能力的提升,工业大数据正在真正的进入落地阶段。
IoT数据量逐步逼近并终将超越互联网,根据Gartner的报告,全球IoT数据量以每年59%的速度递增,管理海量数据是一个极大的挑战。但与如何管理数据相比,更迫切的需求是如何利用工业大数据解决问题?IoT总数据作为工业大数据的资源池,承载和激发了工业大数据的发展。如何让工业大数据创造价值?如何把握工业大数据的机会?哪些工具可以使用?有哪些案例可以借鉴?关于这些问题和困惑,很多IoT圈内人都在持续进行思考和实践。
围绕工业大数据,我身边的许多良师益友——宝钢前首席研究员郭朝晖,海尔前高级副总裁兼CIO、兮易控股集团董事长陈广乾,虽然主修天体物理但以编程为乐的50岁程序员、涛思数据创始人陶建辉,持续观察IoT趋势的研华科技战略投资兼行销总监王宇…他们都奋战在工业大数据的一线,具备近距离观察感受其变革的近水优势。
在出差返程的高铁上,利用这段“胶囊”般的真空时光,不妨把最近这段时间我与上述好友关于工业大数据的观点精华和收获进行梳理,呈现给你。
①工业大数据的定义与特征
工业界普遍对大数据寄予厚望,但工业大数据并不是救赎工业制造本身的“仙丹”。郭朝晖提到的例子很形象,他到寺里参观,老方丈说:“各位来寺里拜佛,是要自己把事情想明白。拜佛就是拜自己,自己想不明白,佛也帮不了你。”同样,想做好大数据分析,自己也要把问题想清楚,自己想不清楚,数据也没法帮你解答。
按照我们一般理解,大数据分为工业大数据和互联网大数据,目前无论是技术还是应用,领先的都是互联网大数据,狭义的大数据也更多说的是互联网大数据。
工业大数据更多的是借鉴了互联网大数据的概念,又结合了IoT物联网的技术,把面向个人用户的“行为”数据分析与思维模式进行扩展,并应用到了企业领域。
进一步细分,按照不同行业,可以将工业大数据分为公共事业大数据、交通大数据、物流大数据、零售大数据、医疗大数据、石油化工大数据等类别。按照不同用途,又可以分为工控大数据、经营大数据、产品大数据、场景大数据等形态。
郭朝晖认同工业大数据的如下特点,他认为这几个观点明显强于常被借鉴的大数据“4V”观点,即规模性(Volume)、多样性(Varity)、高速性(Velocity)和价值性(Value)。其中从“因果关系”到“相关关系”这个特点应该辩证理解,只在一定情况下成立,要注意约束条件,避免人云亦云。
②工业大数据与互联网大数据的区别
工业大数据绝大多数是时序数据,与我们通常所讲的互联网大数据有不少差异。
首先,工业大数据源自企业内部,而非互联网个人用户;其次,数据采集方式更多依赖传感器,而非用户行为或录入数据;第三,数据服务对象是企业,而不是个人;第四,就技术而言,传统的企业IT技术已无法提供相应的分析应用,需要借鉴和采用互联网大数据领域成熟的技术;最后,工业大数据让企业改变了原先对数据的看法,使得那些看似无用的、直接丢弃的数据重新得到了重视,并且切实改进了企业的生产、销售、服务等流程。
王宇将工业大数据与互联网大数据的区别进行了如下提炼。
做个总结:
工业大数据注重特征背后的物理意义以及特征之间关联性的机理逻辑,而互联网大数据则倾向于依赖统计学工具挖掘属性之间的相关性。
互联网大数据侧重于人的行为数据采集的全面性,工业大数据侧重于设备数据采集的全面性,即面向应用要求具有尽可能全面的使用样本,以覆盖工业过程中的各类变化条件,保证从数据中能够提取出反映对象真实状态的全面性信息。
由于工业通讯频率普遍在毫秒量级,工业大数据对预测和分析结果的容错率远远比互联网大数据低得多。
③工业大数据之工控大数据
我认为工控大数据是工业大数据中非常特殊的一类,因此单独进行阐述。
制造业领域的生产相关数据,我们姑且把它称为工控大数据,虽然它并不符合通常意义上大数据的标准,但仍旧可以借鉴互联网大数据的技术,创造崭新价值。
来自GE统计,现在工业企业内部由机器产生的数据量是非常庞大的,以TB来计。由于前期很多技术原因,以及对数据采集不够重视,我们并没有充分利用这些数据,利用率不到2%。如何提升工控大数据的利用率,关系到智能化水平,这是工业企业面临的最大挑战和难题之一。
如果给出详细定义,工控大数据是指在工业领域的工厂内部,通过传感器等物联网技术进行数据采集、传输得来的数据,由于数据量巨大,传统的信息技术已无法对相应的数据进行处理、分析、展示,而在传统工业信息化技术的基础上借鉴了互联网大数据的技术,提出的新型的基于数据驱动的工业信息化技术及其应用。
工控大数据尤其注重数据质量,怎样才能把工控大数据的质量控制好?郭朝晖的经验告诉我们,如果一项数据不与业务结合,数据出多少问题都没人知道。所以工控大数据,必须首先让这些数据“有用”。数据有用了,数据质量才会持续改进,数据质量高了,才有被利用的基础,推动智能化才划算。
郭朝晖在宝钢利用工控大数据指导产品设计,取得了很好的应用效果。传统的钢铁产品设计依靠实验和生产试验,每次生产实验失败可能会损失上百万元。郭朝晖他们历时10年,分析了上百万条数据,摸索出力学性能的规律,适合于绝大多数热轧产品的设计,杜绝了实验失败的连锁损失。
工控大数据的意义并不在于有多“大”,真正有意思的是数据都变得在线了。
那么在线之后,工控大数据该如何发挥价值?郭朝晖的观点是工控大数据的价值在于行业知识的复用。
工控大数据让你知道过去谁还遇到了类似的问题,你把别人的解决方法从历史中找出来,按照别人的成功办法去学,去借鉴已有案例处理类似的新问题,并再次形成对已有知识的补充和精进。
在工控大数据背景下,只要案例足够多,就能够找到可以借鉴的先例。通过知识的提炼,可以把个性问题转化成共性问题,进而完成知识的共享。
作为工业大数据的一个类型,郭朝晖总结了关于工控大数据的几个原则性认识:
工控大数据的本质是以数据形式呈现的“信息”或者“知识”,而不是没有关联的数据。“知识”在时空上具有更强的通用性和连续性。
工控大数据的核心价值是知识的重用。大数据带来的好处是,知识获得的成本低、范围广、质量高。智能化使得知识在人机之间共享,促进了知识价值体现。知识价值的提高,会让人们值得花更大的力气去发现价值,形成大数据工作的良性循环,让知识工作的价值暴增。
从知识来源的角度来看,最好的做法是数据就是知识,其次是让数据中的信息很容易提炼出知识。从知识的角度来看,数据的准备过程,比分析过程更加重要。
数据分析是知识获取的过程。但是获取什么知识,服从于业务的需求,所有需要用到数据分析的地方,首要任务和工作重点,是理清业务需求的脉络和逻辑,把业务需求转化成一个便于分析的数学问题,而不是随便拿一堆数据乱分析。
最初的大数据关注数据的二次应用,数据来源服从于一次应用的需求。但随着工控大数据的发展,二次应用本身变得非常重要,一次应用和二次应用的界限会变得模糊。
④工业大数据在企业落地的逻辑与方法
伴随传感器采集的数据越来越多,IoT领域越来越多的参数被纳入考虑的范畴,数据之间的关联关系持续增强,而这些新型关联关系,将会激发全新的模型和视野。
数据分析是一种探索活动,陈广乾通过多年的教训和经验总结,形成了一套工业大数据在企业落地的逻辑与方法。
他在海尔时就主导大数据相关项目,并且知道不是所有的数据都是大数据。社会数据早就有,质量数据也早就有,关键是这堆数据里,能否通过分析深度数据,形成新的数据模型,来实现新的价值组合?利用这些综合的算法分析,找出什么样企业、什么样的数据,适合什么样的模型,是他做工业大数据分析的一个基本方法论。
他首先解决的是工业数据难于理解的问题。工业对象的系统性明显,复杂程度高,对数据分析的质量要求高。而深入理解各个工业,则要花费太长时间。
他在和清华、北大等大数据领域的博士沟通时了解到,虽然博士们对数据算法有很深的研究,但是却找不到数据后面的业务含义,原因是他们欠缺业务模型训练。而业务模型训练是非常重要的,它是具体行业问题的“解铃人”。
接着,将业务模型建立起来以后再做算法,算法形成后,回过头来检测与实际业务需求的差别。实施的过程本就是不断调整的过程,不断训练模型,一直到这个模型能解决业务问题,能产生实际效果,形成一个闭环的循环。
以陈广乾带领团队完成的工程机械大数据项目为例,根据下面他们绘制的工程机械经销商业务全景图,利用工业大数据分析,他们完成了代表性企业的运营优化任务,最终的项目绩效相当亮眼:
项目成功预测工程机械老客户6亿元的潜在金额流失,其中重度流失2.8亿元,中度流失2.3亿元,潜度流失0.9亿元。
项目成功挖掘工程机械新客户8.2亿元销售机会,其中大型机2.2亿元,中型机3.5亿元,小型机2.5亿元。
基于销售网格,项目全面支持1,000名现有员工实现20亿元的债权逾期管控。
所以这是基于前端的用户标签如:相似性、消费行为的聚类性、分群性来做算法,这是基于算法模型。
⑤专供工业大数据的时序数据库
在工业大数据存储领域,除了传统的关系型数据库和分布式数据库以外,还有一种类型的数据库是非常必要和实用,就是时序数据库,工控领域也称其为实时数据库。
由于IoT领域几乎全部传感数据和控制数据都是时序数据,陶建辉总结了工业大数据的时序空间特性。
时序数据库并不单单只是一个数据库,而是一个系统,包括对各类工业接口的数据采集、压缩、存储、检索、实时计算,基于监测数据的反馈及控制功能等。
时序数据库的出现,主要是为了解决关系型数据库不太擅长的领域,包括:
1、海量数据的实时读写操作:工业监控数据要求采集速度和响应速度均是毫秒级的,一个大型企业几万甚至几十万监测点都是常有的事情,这么大容量的高频数据,如果用关系数据库进行存储,很难进行每秒几十万次的数据的读写操作。
2、大容量数据的存储:由于数据采集是海量的监控数据,如果用传统数据库存储,将会占用大量空间。如用关系数据库保存10,000个监测点,每个监测点每秒钟采集一次双精度数的数据,需要5-6TB空间,如果考虑其它因素再建立索引,则需15-20TB空间。时序数据库采用专门的压缩算法,存储量能够缩小到1/40,因此只需500GB的空间就能有效存储。
3、集成了工业接口的数据采集:工业通讯、传输的协议种类繁多,时序数据库一般都集成了大量的工业协议接口,可以对各种类型的工业协议进行解析和传输。
具备流式计算能力的工业大数据平台在2017年前后渐热,出现了大量的开源和商业产品。
陶建辉抓住上述开源大数据平台在物联网大数据处理上性能价格比低下的问题,开发了专业高效的时序数据引擎TDengine,大幅降低应用开发难度和成本,缩短应用推向市场的时间。
TDengine正在高铁项目上进行测试,替代原有的MySQL,大幅提升了数据分析的时效性。
工控领域市场份额最大的实时数据库是美国OSIsoft公司的PI System,因其在物联网领域的前瞻布局,2017年获得了软银的投资。在2018年5月初,OSIsoft公司一年一度的用户大会中,PI System不仅进行了全新升级,提供机器学习能力,同时支持边缘和云端运算,还正在尝试与区块链的结合应用。
声明:本文来自物联网智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。