工业大数据

  引言 1988年,我在浙大数学系读书,范大茵教授主讲《概率论》。我曾问她:“全国新生儿的男女比例是51.2:48.8。如果各省的统计结果也一样,是否包含更多的信息?” 范老师说:“如果按同一个概率发生,各省的结果没有更多信息。” 20多年过去了,我才意识到:理论上,范老师的回答完全正确;但现实中,信息量却不相同。

  大数据是个流行词,受到了世界工业界的普遍关注。有位老院士曾说:大数据主要的成就,与侵犯">个人隐私有关。的确,大数据在工业界的成功应用并不多。我相信,大数据会对工业界带来极大的改变。但与此同时,在工业界从事大数据研究也是项高风险的工作。多数人可能会铩羽而归。了解大数据不难,难的是不被一些光怪陆离的概念忽悠。如果不想被忽悠,就需要理解其精髓。

  有人说,大数据最本质的特征是数据量大,要有PB、EB的量级。为什么一定是这个量级呢?在这个级别以下,用过去的方法就可以有效存储、传输和处理;超过这个量级以后,需要新的理论、方法和思路。所以,数据级别的扩大,催生了新的理论。然而,从应用的角度看,似乎有没有必要:比这个数量级更低的数据分析往往都没有做好——数据挖掘理论出现了几十年,成功的案例也不多。所以,从理论工作者的角度看,强调数据量是有道理的;但从工程师的角度看,过分强调数据量没有多大的道理。

  从应用的角度看,数据量是否重要?可以换一种提法:要研究一个问题,10条数据、100条数据和1万条数据有区别吗?在过去,差别不是很大。比如,做线性回归,样本数目比自变量多一个就够了;如果能多几倍,基本上就很充分。采用神经元方法时,样本数比变量多一个数量级也就差不多了。在这些方法中,数据多了也难以发挥再大的作用。

  多出来的数据真的没用吗?我的感觉是:多的数据不是无用,而是不会用、难利用。不是个别人不会用,而是普遍性不会用。其中的奥妙何在呢?

  学过概率或统计理论的人都知道:所有的数学理论都基于特定的假设。比如,干扰按一定的概率分布发生、自变量检测误差可以忽略等。在很多时候,我们总是想当然地认为,这些条件是天然成立的。于是,人们习惯于按照书本上的做法,直接进行分析。

  但现实中,理论的假设却往往不成立。分析工业过程或设备时,数据的分布往往很不规范;随意的假设往往会带来错误的分析结论。再回头看看本文开头讲到的人口问题:我们假设孩子的性别按一定的概率发生。然而,这只是假设。事实上,这些年中国人口的出生比例就发生了很大的变化,而且各个省份也不一样。

  如果严格地进行统计研究,首先需要确认的就是:某个随机现象是否依照固定的频度发生。只有这个条件满足了,‘概率’的基本条件才能满足。后续的分析才能有靠谱的结果。

  所以,我们需要更多的数据来验证一些基本假设。这时,数据量的要求就会大大提升。另外,当数据的信噪比较低时,对数据量的需求也会大大上升。笔者曾经做过一个研究,发现分析一个要素的作用,需要2000~20000个数据。

  这样,多出来的数据就有用了。用好多出来的数据,才能保证分析的正确性。

  有人或许要问:像神经元这些非传统方法,并没有对数据提什么要求啊?的确,神经元方法没有明确提出什么要求。但是,谁又能保证其结果的可靠性呢?其实,采用神经元方法也有个潜在要求:建模数据充分,且未来数据的分布不变。‘分布不变’的要求其实很高:不仅是数据分布范围和密度不变,还包括变量间的关系不变、干扰的分布不变。这种要求,在现实中是难以验证和说清楚的。于是,结果的可靠性也就说不清楚。这对实际应用是非常不利的。

  既然多出来的数据是有用的,能否把‘大数据’的数量要求再降低一点呢?笔者认为:如果需要大量的数据才能完成特定分析任务,并且需要新的思想和方法,都可以看做大数据的范畴。过于强调数据量是没有必要的。

  刚才的分析可能有点理论化。下面再具体解一下。

  本人长期从事工业数据建模活动。深知分析结果的可靠性对应用至关重要。分析结果的可靠性与实用价值,常常是硬币的两面:如果正确的发现能创造出巨大的价值,错误的认识也必然导致重大的损失。所以,价值越大的分析结果,对可靠性的要求往往越高。而这恰恰是数据分析的难点所在。

  我们希望有更多的数据,目的是获得可靠性。

  有了大量的、分布区域广阔的数据,不仅可以验证数据的合理性,还可以合理地组合数据,以满足特定的分析要求,以达到特定的分析目的。同时,数据多了,还可以通过分析结果的相互校验,多角度、全方位地分析特定结论的正确性——这一点,是小样本数据根本做不到的。尤其是数据误差相对较大或者相关因素较多时。

  说到这里,我又想起来大数据的另外几个特征:“速度”、“多样性”“低价值密度”。从应用的角度看,这些特征的意义似乎也不是很大。

  1、产生速度快。增大了分析的难度,对应用带来的好处却不多,故而仅仅是在理论上有价值。

  2、低价值密度。也增加了分析的难度。但对应用来说,这是一种现象,似乎不值得强调。事实上,为了获得可靠的结果,个别的‘小数据’往往才是分析大数据的关键钥匙。而且,发现具有‘黑天鹅’性质的小数据,往往是研究大数据的重要目的。

  3、所谓‘多样性’,指有很多非结构化数据。也是增加理论难度、对实用无正面影响的因素。在现实中,数据分布越广越好,便于从不同角度和视野确定结论的可靠性。所以,我宁可把‘多样性’理解为数据分布的广泛性,而非数据形态的多样性。

  从应用的角度看,笔者更欣赏‘数据科学’的概念:综合利用数据分析、模型计算和领域知识来解决实际问题。

  对工程师来说,分析数据的目的是解决问题。为了达到分析的目的,应该采取一切有利的方法、收集一切有用的证据,不应该将自己限制在某个特定的理论方法上。我们期望大数据,却也喜欢小数据:我们喜欢完整的、真实的数据。IBM对4V理论进行了矫正。在笔者看来,这是很有道理的。

  综上所述,笔者认为:将大数据理论用于工业领域时,不可执着于‘原教旨主义’的认识。我们关注大数据,是为了创造价值,而不是追赶时髦的理论和领域。从这种意义上说,制造企业研究大数据,应该特别强调‘工业’二字,以区分现在流行的、以商务为主的大数据理论。

  ‘数据挖掘’理论出现了几十年。但在工业界的成功应用并不多。笔者认为:重要的原因之一是缺乏一个合适的数据分析处理理论。笔者认为:用好工业大数据需要关注三个要点:

  1、可靠性。可靠的结论才能用于工业实际。在本人看来,所谓可靠性,包含精确性、适用范围的广泛性和适用范围的可知性。现实中,绝对的可靠是不存在的,我们只能追求相对的可靠。相对的可靠,可以由尽量多的、独立的知识或分析结果来支撑。要做到可靠,就不能仅仅满足与‘相关性’,而是要尽量关注‘因果性’。这一点,工业大数据与商务大数据的理论是矛盾的。同时,可靠性要求我们尽量使用传统的、有坚实理论基础的统计方法——只是不能盲目适用这些方法,要关注对适用条件的验证和构造。

  2、超越性。新发现的知识一定要超越人的认识,否则就没有价值。在商务活动中,人的认识相对模糊,大数据研究容易得到超越性的结果。在工业领域,人们对物理对象的了解往往非常深刻。肤浅的研究很难超越人的经验。这时,要让新知识超越人的经验,往往要以精确定量为基础的。我们不宜将发现不同于经验的知识作为研究目标:在工业领域,与专家认识不同的结论多数是错的。有例外的话,也往往是量变引发质变造成的——这种现象,正是以结论的精确定量为前提的。

  3、嵌入性。大数据的应用必须嵌入合适的流程。一般来说,仅仅满足于发现知识并不能创造价值。在工业应用中,常见的做法是将新发现的知识嵌入到生产和管理流程中去。最好用模型为载体来实现,促进流程的智能化。众所周知,商务大数据的应用一般要结合新的商业模式。这一点,工业大数据与商务大数据是相通的。

时间: 2024-11-05 21:58:34

工业大数据的相关文章

时培昕:工业物联网和工业大数据助力企业实现智能制造|V课堂第83期

2017年架构师最重要的48个小时 | 8折倒计时 工业物联网作为制造业智能化的核心部分被称之为智能制造的神经系统.而工业大数据又是智能化的来源,未来制造企业的运营过程,或者说产品的全生命周期都将由大数据串联起来.那么大数据和工业物联网是如何共同助力企业实现智能智造呢? 第83期[智造+V课堂]分享嘉宾:北京寄云鼎城创始人兼CEO时培昕博士,作为互联网专家,时博士就"工业大数据和工业物联网如何助力企业实现智能制造"的主题带来精彩分享! 分享嘉宾 北京寄云鼎城创始人兼CEO   时培昕

三位一体的工业大数据综述

工业大数据的目的是为了改变以往工业价值链从生产端向消费端.上游向下游推动的模式,实现以客户价值为核心的定制化产品和服务,以及与之相适应的全产业链协同优化.为此,工业大数据应满足用户需求定义.工业智能制造.活动协同优化三方面的应用. 在这些应用中,工业大数据的落地需要与之相适应的技术架构作为支撑.目前,李杰教授提出的"5C"架构体现了工业大数据"数据->知识->应用"的信息架构,而工业互联网参考架构(IIRA)和工业4.0参考架构(RAMI4.0)均是顶层

物联网时代的八大工业大数据应用场景

工业大数据是一个全新的概念,从字面上理解,工业大数据是指在工业领域信息化应用中所产生的大数据. 随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码.二维码.RFID.工业传感器.工业自动控制系统.工业物联网.ERP.CAD/CAM/CAE/CAI等技术在工业企业中得到广泛应用,尤其是互联网.移动互联网.物联网等新一代信息技术在工业领域的应用,工业企业也进入了互联网工业的新的发展阶段,工业企业所拥有的数据也日益丰富.工业企业中生产线处于高速运转,由工业设备所产生.采集和

工业大数据应用的三大挑战和五大商业趋势

在设备运行的过程中,自然磨损本身会使产品的品质发生一定的变化.通过信息技术.物联网技术的发展,通过传感器技术,实时感知数据,知道产品出了什么故障,哪里需要配件,使得生产过程中的这些因素能够被精确控制,从而真正实现生产的智能化.一定程度上,工厂/车间的传感器所产生的大数据直接决定了"工业4.0"所要求的智能化设备的智能水平. 从生产能耗角度来看,设备生产过程中利用传感器集中监控所有的生产流程,能够发现能耗的异常或峰值情况,由此能够在生产过程中不断实时优化能源的消耗.同时,对所有流程的大数

工业大数据是中国制造的伪命题 | 无知识不数据 精益数据时代

工业大数据在中国是伪命题 大数据本来有更加学术化的名称:数据密集型(Data-Intensive)计算研究.微软在2009年组织撰写<第四范式:数据密集型科学发现>一书,给与这种方法以"范式里程碑"的待遇.而对于大众而言,这些不过是野地径自升起的炊烟,无人知晓也无可关注. 后来随着Big Data这个简洁明了的概念一炮打响,各种大数据这才迎风而上. 工业大数据不过是其中一种BigBang.工业4.0轻松地接过这一闪亮的火把,搅动了人们对于大数据无穷的想象力和不着边际的信心.

【干货】清华陆薇:释放工业大数据价值

演讲全文: 很高兴有这样一个机会和大家分享我们中心对工业大数据的理解和一些工作内容. 首先,简单介绍一下清华大学数据科学研究院工业大数据研究中心.清华大学数据科学研究院成立于2014年春,结合了清华在信息技术,特别是分布式系统和数据管理分析技术方面的优势,以及工科.经济.人文.健康等各大数据应用领域的深厚积淀,致力于发挥学科交叉的协同作用,推进大数据系统研究与应用实践,培养人才,同时也参与贡献大数据相关国家战略. 工业大数据中心专注开展大数据在工业领域的系统研究与行业应用.它的三大使命分别是:

工业大数据的七个故事让你看见未来

1.个性化西服如何"量体裁衣" 观数智库创始人.<大数据><数据之巅>作者涂子沛参加了贵阳数博会的李克强总理座谈会,总理以定制西装举例说明了大数据的作用.其实,在参加座谈会前,涂子沛也第一次定制了一套西服.穿上之后,他表示再也不想穿以前的西服了,因为从来没有感受到那么得体. "红领"是一家定制服装生产企业.他到了这家工企业后看到,几千件西服没有两件完全一样,但仅从面料.颜色分辨不出.很多人的西服里面都有商标,很多人喜欢在这里绣上自己的名字或一

工业大数据的3大来源、3大关键问题、2个实施案例

2011年麦肯锡全球研究院大数据报告表明,2009年美国以装备制造为代表的离散工业领域拥有的数据规模为各领域之首,比美国政府拥有的数据还要多.近年来,随着德国工业4.0和美国工业互联网为代表的新工业革命深入发展,以及"中国制造2025"."互联网+"行动计划与"促进大数据发展行动纲要"的颁布实施,工业大数据得到了越来越多的关注.这里分享一下我们的思考与实践. 1.工业大数据三大来源 企业信息系统.装备物联网和企业外部互联网是工业大数据的三大来源:

工业大数据将是智能制造发展关键

在本届展会上5G.物联网.VR等技术产品大热的同时,还有一个领域正在悄然升温,那就是智能制造. 智能制造其实是一系列热点技术的总称,它是基于物联网.大数据.云计算等新一代信息技术,贯穿于设计.生产.管理.服务等制造活动的各个环节,具有信息深度自感知.智慧优化自决策.精准控制自执行等功能的先进制造过程.系统与模式的总称.智能制造具有以智能工厂为载体.以关键制造环节智能化为核心.以端到端数据流为基础.以全面深度互联为支撑四大特征,其目标是缩短研发周期.降低运营成本.提高生产效率.提升产品质量.降低资

工业大数据是智能制造重要突破口

智能制造的核心内涵是什么?工业大数据时代,如何实现智能制造? 广东佛山将制造业作为立市之基,第二产业占GDP的比重接近60%,拥有机械装备.家用电器.陶瓷建材等优势制造行业.2016年,佛山市规模以上工业总产值达到2.13万亿元,规模以上工业增加值增长7.7%,智能制造总产值超600亿元. "推动佛山制造业转型升级,就要坚持以智能制造为主攻方向,将工业大数据作为突破口.智能制造和工业大数据对巩固完善制造业供应链.产业链和生态链,优化提升企业的设计.生产.销售.管理.决策等环节起到决定性的支撑作用