大数据和统计学并不矛盾

  通常,对于新的IT关键词必定会出现“反对派”。最近,“大数据”就成为被攻击的对象,诸如“大数据失败论”等论调也明显增加。

  业界对大数据抱着极大的期待,这一点从大量">的大数据研讨会和展示会风潮就足以证明。这些年来,除了云计算浪潮,缺乏热烈话题的IT业界而言,大数据是期待已久的大型关键词,也许大数据会成为恢复业界活力的强心剂。

  与此同时,日本政府提出新的IT战略--“将行政数据向民间开发,以便不断创造新商务”。也就是说,如何有效利用数据,推动商业成功,业已成为国家战略的一环。

  虽然笔者既不是强烈的赞成派也不是反对派,但通过以往的采访经验,对处理数据的难度有着清醒的认识。更何况涉及到大数据,其难度显而易见。

  笔者周边很多人对大数据也有着各种不同的看法,提出各种问题。当然这些对于IT业界的读者而言,都是理所当然的事情,笔者说这些也许是班门弄斧了。但是,正是这些众所周知的道理通常也是非常重要不可忽视的。因此,下面笔者将重新提出大数据的“陷阱”,探讨如何才能避免运用大数据的失败。

  是否真正需要大量的数据

  首先,必须明确的一点是,是否真正需要大量的数据。

  在一次活动中,一位统计分析的专家在谈到大数据时说:“本来统计分析学是如何通过少量的取样,去了解事务整体的学问。例如,电视的收视率调查就是一个典型的事例,这类调查就是通过极少的样本,来掌握日本全国的收视状况。如果目的明确,并不需要大量的数据。”

  由于上述言论出自目前作为“数据科学家”备受瞩目的统计分析方面的专家之口,让笔者不禁大吃一惊。这就是说,只要有一定量的数据,无关数据数量,分析的结果并不会有很大的差别。如果果真如此,不禁让人产生怀疑,即到底大数据是为何而存在。

  听到上述观点,使人感到大数据所面临的矛盾的应当不仅仅是笔者一人。本以为通过大数据分析,满怀期待能够发现以往没有认识到的新的东西,但有时其结果不过是已有所知的事实而已。如果企业为系统开发投入数十亿日元,得出的不过是证明资深职员“经验”的结论,这也未免让人难以接受。

  正因为如此,就有必要重新考虑为何需要大数据这一问题。例如,企业需要明确通过将有交易往来的公司和社交媒体等本企业外的大量数据进行组合,是为达到何种目的等,即有必要事先制定大数据的目标。

  数据的“质量”有无问题

  第二点是由谁来维护大量的数据,即数据的“质量”如何能够得到保障。

  笔者曾听说这样一件事。某企业的总经理每个月都会收到有交易往来的IT供应商的宣传(PR)杂志,但收件人的头衔不是“总经理”,而是他曾经兼任公司CIO时的头衔“常务董事”。虽然将头衔搞错,但还是都能收到,因此并没有太在意。但当这家IT供应商的总经理到公司进行礼节性拜访时,就提出了希望改一下头衔的想法。

  而这家IT供应商的新的卖点是大数据,公司的总经理当场表示回去马上会进行修改。起初以为这点事情对于运营大数据业务的IT供应商而言不过是举手之劳,一定会进行纠正。但是,等到下一个月他收到的的PR杂志时,发现收件人的头衔仍然是“常务董事”。这位总经理通过两本PR杂志感到仿佛看到了大数据的现状,因此他非常失望地说:“归根到底IT供应商并没有维护顾客数据库”。

  上述例子虽然是顾客数据,而不仅仅是顾客数据,说到大数据必然还需要处理很多各种各样的企业外部的数据。但是,这些数据是否是最新数据,其数据的精确度又如何等数据的“质量”就会非常重要。分析出处不明的数据将毫无意义。如果顾客数据不能随时进行维护,也就不会产生任何价值。不应当将当初以为是宝山的大数据,变成一座堆满垃圾的山。

  是否忽视了现场职工的工作干劲

  第三点就是企业不仅应当努力培养数据科学家,同时也需要提升现场职员的分析数据的能力。如果在店头等现场直接接触顾客的员工变得“擅长数字”,他们也能够常常通过数据考虑事情并进行判断,这样的企业必定会强大起来。

  例如,有一家超市的店头销售员就从与顾客的对话中得到启发,通过购进新的商品或是改变商品陈列的方法,提升了销售额。又比如,在特快列车上负责销售的员工,发现似乎“可吸烟座位的咖啡畅销”,当他整理出不同列车的销售业绩,结果发现确实是如此。于是决定在吸烟车厢集中推销咖啡,结果咖啡的销售量明显增加。

  当然,通过现场增加的销售额,也许和利用大数据获得的销售数字相比很小,而且其分析能力也远远不及数据科学家。但是即便如此,如果通过将这种方式横向拓展到其他现场,积累的数字也会非常可观。同时,最为重要的是,这种方式能够提升现场员工的工作动力。

  实际上,某零售企业自从将其销售分析统一由总公司实施后,店头员工就失去干劲,甚至出现退职的员工。这说明只依靠上级的指令,则会降低现场的职业道德。因此,这家公司决定给予现场员工自由分析判断的职能,由此店头又重新恢复了活力。虽然大数据非常重要,但是如果将权限集中在某些部门,则会导致现场丧失工作干劲。

  以上三点实际上不仅仅对大数据而言非常重要,而且同时适用于整个信息系统。大数据是IT业界期待已久的关键词,为使其成长壮大,就需要脚踏实地的努力,而不应被其华丽的部分所束缚摆弄。正因为如此,笔者认为提出的上述三点需要重新铭记心中。

时间: 2024-09-24 13:05:54

大数据和统计学并不矛盾的相关文章

大数据时代 统计学依然是数据分析灵魂

在数据"爆炸"的时代,大数据常常被寄予厚望.到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统计学家.哈佛大学终身教授刘军担任主任.日前,刘军做客人民日报.人民网<文化讲坛>,分享他的思考. 让大数据区别于数据的,是其海量积累.高增长率和多样性 什么是数据?数据(data)在拉丁文里是"已知"的意思,在英文中的一个解释是"一组事实的集合,从中可以分析出结论".笼统地说,

大数据利益相关者的利益矛盾及其伦理治理

2013年是大数据元年,大数据时代的到来,已给我们的生产.生活.学习与工作带来了前所未有的变革,同时也带来了许多的挑战.在一切皆可数据化的新历史条件下,数据成为了最宝贵的资源,通过循环往复的数据挖掘和二次利用,隐藏在数据中的巨大价值正在不断地被挖掘与利用.2014年荷兰学者Andrej Zwitter撰文Big Data ethics(<大数据伦理>)指出:"这里有三类大数据利益相关者(Big Data stakerholders):大数据搜集者(Big Data collector

大数据虚拟化零起点(一) 开篇

大数据的虚拟化:企业IT发展潮流 大数据的虚拟化是当前大数据以及Hadoop社区的一个发展趋势.Gartner在2013年6月举行的Hadoop Summit大会上提到,为了让Hadoop等大数据技术真正落地企业,我们要从具体业务需求出发,驱动大数据相关技术和产品的进一步发展,逐渐告别之前技术驱动的创新.Gartner同时指出,虚拟化是这个新阶段的重要趋势.随着全球企业IT虚拟化的比例突破三分之二,以虚拟化为基础的软件定义的数据中心对企业来讲变得越来越普及和重要,大数据在这样的浪潮下如何影响和融

大数据概念并非无解

去年10月,我们召开以大数据为主题的科学讨论会时,有一位代表说,那么多专家讲了一天,连什么是大数据的概念都还没搞清.我说不对.大家是从不同的角度对这个概念进行诠释.如同说到"文化"这个概念,马上问100个人,难道能够得出一个统一的答案吗?也许100个人就有100个答案.但这并不意味着大家对这个概念没有一种相差无几的共识.同样,讲到精神这个概念,虽然大家都能理解得八九不离十,但100个人却很难给出一个相同的标准答案.如果没有一个绝对权威,像确定"北京精神"那样,给大数

大数据迷潮下的教育研究及其想象力

"大数据"似乎已经成为一种潮流,甚至是一种时尚.人们还没来得及知道它"是什么",就已经置身其中并迷狂不已,更别提仔细思考"为什么"了.所以,用"迷潮"来形容一点也不为过.产业.金融.物流等各界人士摩拳擦掌.跃跃欲试,热烈讨论这种新技术和新资源所带来的巨大福利,生怕落下新时代疾驰而过的"幸福列车".尚在努力向"小数据"靠拢的教育研究,似乎也按捺不住转型的冲动,宣称"传统数据研究无

大数据商业化让个人隐私无处遁形

好莱坞艳照门还在发酵 陈氏艳照门还让人记忆犹新,或许还记忆在一些电脑硬盘里,不论你有没有他都引发过互联网隐私与安全的大讨论. 一波才进入平息阶段,在大洋彼岸的另一波却来势更为凶猛,而此次则是借着移动互联网的大势来袭.这就是轰动一时的好莱坞"艳照门"事件,当世界上最出名的一些女性的私密照片在网上曝光以后,媒体.专家.屌丝都在寻找一个答案,到底是谁泄露了这些"珍贵"的照片. 当最后的结果指向于移动互联网的一个典型产品苹果的iCloud时,我们不免思考在移动互联网时代下,

大数据的三个思维变换

维克托·尔耶·舍恩伯格在<大数据时代:生活.工作与思维的大变革>中最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系.也就是说只要知道"是什么",而不需要知道"为什么".这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战. 知名IT研究机构Gartner以它对专业IT市场的"魔力象限图"发布作为一种评价方式,在其二维矩阵里,横轴是前瞻的完整性,纵轴是执行力,

华中师范大学校长杨宗凯教授:大数据在教育领域的5大应用 | 数博会2017

雷锋网(公众号:雷锋网)按:5月25日-28日,国际大数据产业博览会(简称:数博会)在贵阳举行,其中,大数据时代下的物流.教育.安防等问题在多场论坛中被提及,传统行业对大数据的拥抱已不是"说说而已"而是"在路上". 就大数据时代的教育问题,华中师范大学校长杨宗凯教授出席并发言.雷锋网据公开资料了解到,杨宗凯教授是教育部信息专业委员会专家,国家教育大数据应用工程师实验室主任,也是国家教育化信息方面的领军人物和专家. 杨宗凯称,工业化社会要求人知识为先,造就了规模化.同

工业大数据

引言 1988年,我在浙大数学系读书,范大茵教授主讲<概率论>.我曾问她:"全国新生儿的男女比例是51.2:48.8.如果各省的统计结果也一样,是否包含更多的信息?" 范老师说:"如果按同一个概率发生,各省的结果没有更多信息." 20多年过去了,我才意识到:理论上,范老师的回答完全正确;但现实中,信息量却不相同. 大数据是个流行词,受到了世界工业界的普遍关注.有位老院士曾说:大数据主要的成就,与侵犯http://www.aliyun.com/zixun/