拥抱大数据 需要大智慧

ZDNET至顶网CIO与应用频道 06月06日 综合消息:近年来,有关大数据的热点话题一浪高过一浪,关注大数据应用的人也越来越多。总体来说,人们对大数据的前景持乐观态度,比如谈到大数据的技术特征,人们最容易想起的就是4个“v”:vast(数量庞大)、variety(种类繁多)、velocity(增长迅速)和value(总价值高)。这些都没错,但仔细一想,它们都是偏重说明大数据的正面优势的。但其实,大也有大的难处,大数据也不可避免地存在着一些负面劣势。结合笔者的从业经验,大数据的负面劣势可以概括为4个“n”,下面逐一说明每个n的含义。

inflated大数据是肥胖的。大数据的大不仅仅体现在数据记录的行数多,更体现在字段变量的列数多,这就为分析多因素之间的关联性带来了难度。哪怕是最简单的方差分析,计算一两个还行,计算一两百个就让人望而生畏了。

unstructured大数据是非结构化的。大数据的结构也是非常复杂的,既包括像交易额、时间等连续型变量,像性别、工作类型等离散型变量这样传统的结构化数据,更增添了如文本、社会关系网络,乃至语音、图像等大量新兴的非结构化数据,而这些非结构化数据蕴含的信息量往往更加巨大,但分析手段却略显单薄。

incomplete大数据是残缺的。在现实的世界里,由于用户登记的信息不全、计算机数据存储的错误等种种原因,数据缺失是常见的现象。在大数据的场景下,数据缺失更是家常便饭,这就为后期的分析与建模质量增加了不确定的风险。

abnormal大数据是异常的。同样,在现实的世界里,大数据里还有不少异常值(outlier)。比如某些连续型变量(如一个短期时间内的交易金额)的取之太大,某些离散型变量(如某个被选购的产品名称)里的某个水平值出现的次数太少,等等。如果不删除,很可能干扰模型系数的计算和评估;如果直接删除,又觉得缺乏说服力,容易引起他人的质疑。这使得分析人员落到了一个进退两难的境地。

如果不能处理好这些不利因素,大数据应用的优势很难发挥出来。想要拥抱大数据,并不是一项在常规条件下数据分析的简单升级,而是一项需要大智慧的综合工作。STIR(唤醒)策略是笔者在实践工作中提炼出来的、能够在实际工作中有效克服大数据负面劣势的应对方法。具体来说,STIR策略包含了四种技术手段,目前都已经有机地整合在统计分析与数据挖掘专业软件JMP中了,它可以用来解决上文提出的四个问题,下面将分别说明。

Switching Variables切换变量

它是用来解决大数据“残缺”问题的。通过“列转换器”、“动画播放”等工具,海量因素之间的关联性分析变得十分简单、快捷,还可以根据需要对关联性的重要程度进行排序,大数据分析的效率由此得到大幅提升。

基于JMP软件的关联性分析筛选的界面

Text Mining文本挖掘

它是用来解决大数据“非结构化”问题的。通过先对文字、图像等新媒体信息源进行降维、去噪、转换等处理,产生结构化数据,再用成熟的统计分析和数据挖掘方法进行评价和解释。这样一来,大数据的应用范围得到了极大的拓展。

基于JMP软件的文本分析结果的最终展现界面

Imputation缺失数赋值

它是用来解决大数据“残缺”问题的。在有missing data的时候,我们并不完全排斥直接删除的方法,但更多的时候,我们会在条件允许的情况下,用赋值的方法去替代原先的缺失值。具体的技术很多,简单的如计算平均值、中位数、众数之类的统计量,复杂的如用回归、决策树、贝叶斯定理去预测缺失数的近似值等。这样一来,大数据的质量大为改观,为后期的分析与建模奠定了扎实的基础。

基于JMP软件的缺失数赋值方法选择的操作界面

Robust Modeling稳健建模

它是用来解决大数据“异常”问题的。在融入了自动识别、重要性加权等处理手段后,分析人员既直接消除了个别强影响点的敏感程度,又综合考虑了所有数据的影响,增强了模型的抗干扰能力,使得模型体现出良好的预测特性,由此做出的业务决策自然变得更加科学、精准。

基于JMP软件的模型稳健拟合的报表界面

总之,我们必须要对大数据有一个全面、客观的认识。只有在不同的业务和数据背景下采用不同的战略战术,才能在大数据时代,真正发挥大数据的杠杆作用,有效提高企业的运营效率和市场竞争力。

原文发布时间为:2014年06月06日

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-09-20 15:37:27

拥抱大数据 需要大智慧的相关文章

券商加快拥抱大数据 国泰君安建成行业首个高等级数据中心

互联网金融搅局传统金融来势凶猛,而其自身的发展壮大,很大程度上依托于大数据的分析能力.探索以大数据为基础的解决方案,深入洞察复杂且充满变化的市场,正成为众多金融机构提高自身竞争力的重要手段.继银行.保险行业后,以国泰君安为代表的综合券商正开始加快拥抱大数据的步伐.3月18日,国泰君安数据中心启动仪式在张江卡园举行. 近年来,随着中国经济社会的持续高速发展,居民财富迅速增长.作为转型综合金融服务商的先行者,国泰君安的转型和创新战略对公司信息技术提出了全新的要求.证券公司传统的IT基础设施环境已经无

拥抱“大数据时代” 共享发展新成果

近现代历史上的数次技术产业革命,中国均以学习者和模仿者的姿态出现.而在云计算和大数据所带来的新变革中,中国与世界的距离最小,在很多领域甚至还有着创新与领先的可能.以开放的心态.创新的勇气拥抱"大数据时代",就一定会抓住历史赋予中国的这一伟大创新机会. 习近平在中共中央政治局第三十六次集体学习时强调,我们要深刻认识互联网在国家管理和社会治理中的作用,以推行电子政务.建设新型智慧城市等为抓手,以数据集中和共享为途径,建设全国一体化的国家大数据中心,推进技术融合.业务融合.数据融合,实现跨层

云基地雷涛:如何让大数据产生大智慧?

文章讲的是云基地雷涛:如何让大数据产生大智慧,2011年7月21日,"2011中国云计算与云服务高峰论坛"秦皇岛秦皇国际酒店隆重召开.来自政府.产业的各方代表共同探讨云计算产业发展相关话题. ▲大会直播专题 会上,来自北京云基地副总经理雷涛发表"大数据时代的大智慧"主题演讲,他指出云计算的一个新的核心生产力就是利用大数据. ▲北京云基地副总经理雷涛 大数据时代的挑战 什么是大数据?IDC调查表明,现在的数据九年以后只有2%.这些数据如果不用的话就是垃圾,是存在于数据

通信行业未来发展的“丝绸之路”:拥抱大数据时代 共享发展新成果

拥抱"大数据时代" 共享发展新成果 近现代历史上的数次技术产业革命,中国均以学习者和模仿者的姿态出现.而在云计算和大数据所带来的新变革中,中国与世界的距离最小,在很多领域甚至还有着创新与领先的可能.以开放的心态.创新的勇气拥抱"大数据时代",就一定会抓住历史赋予中国的这一伟大创新机会. 习近平在中共中央政治局第三十六次集体学习时强调,我们要深刻认识互联网在国家管理和社会治理中的作用,以推行电子政务.建设新型智慧城市等为抓手,以数据集中和共享为途径,建设全国一体化的国

河南获批建国家级大数据综合试验区 拥抱大数据畅想“云生活”

河南省成为第二批获批建设国家级大数据综合试验区的省份之一后,"云计算.大数据"成为近日河南各界热议的话题.11月9日,河南省第三届互联网大会在郑州开幕,本次大会聚集了一大批互联网学术界.企业界有重要影响力的知名学者和优秀企业家,大家就云计算.大数据.网络经济.网络安全等热点话题进行了深入交流研讨. 河南将迎来大数据时代,面对"一切皆有可能"的未来,我们如何更新观念,适应变化?河南又该如何把握机遇,奋勇向前?对此,网友众说纷纭,分享观点. 记者连线 什么是大数据云计算

拥抱大数据营销时代

众所周知的,以和媒体打交道著称的的公关行业在互联网时代迎来的全新的挑战,越来越多的他要为企业提供直接面向千万消费者的网络服务. 这个行业中的每一个人,无论是主动还是被动,都被这股数据的洪流裹挟着朝着"大数据"时代一路狂奔,拥抱大数据时代就是营销人的唯一"宿命". 以上文字为放狠话,仅代表个人情绪和观点. 这年头,做营销做公关的,对于层出不穷的互联网应用和由此诞生的新名词儿都必须要知道了解熟悉并且迅速转化在给客户的提案中,所以不管我们是不是真的弄明白什么是云计算什么是

大数据拥有大智慧 新技术催生新生态

"未来智能制造就是跨界大数据,即用户大数据.制造流程大数据和供应链大数据三者打通.明年'双11',我们将会精确地备料和生产,储存多少零件,生产线什么时候开,这些都可以根据历史数据计算出来."鸿海集团董事长郭台铭这样形容大数据的意义. 和他一样,本届世界互联网大会上,与会嘉宾几乎言必称"大数据".阿里巴巴集团董事局主席马云甚至直白地将数据与前两次技术革命中的主角煤炭与石油相提并论:"这一次互联网技术革命,数据是核心资源,未来数据是生产资料,计算是生产力.&q

拥抱大数据才是未来

摘要: "新.平.快"三招虐死传统咨询业 移动互联网时代炮制了"新.平.快"三招,对传统咨询业进行花式虐打. 新 在互联网的冲击下 传统咨询业同样自身难保 移动互联时代,大数据.物联网.云计算等技术应用的日新月异,对传统咨询业服务方式也提出了更高的要求.市场调研过去用的是访谈.问卷调查,focus group等手段,而现在呢,不用爬虫抓取.海量数据的量化分析都不好意思说自己在做调研. 如何快速掌握新技能.新工具,对大部分咨询从业人员来说都是巨大的挑战.移动互联时代,

拥抱大数据 智慧城市迈开步伐大步走

3月10日,全国政协委员.神州控股董事局主席郭为在接受2017两会高端访谈时表示,"智慧"是一个阶段性的概念,从数字化到智能化再到智慧化.首先是数字化,就是把很多东西进行数字化,从模拟信号变成数字信号.第二个就是要智能化,在数字化的基础之上,做到自动控制,把人类的很多经验让机器去学习,然后使得机器具有智能判断这样的能力,这就是智能化的结果.最后智慧化其实就是用更大的数据量使得这个决策的效果更好. 拥抱大数据 智慧城市迈开步伐大步走 按照"智慧"的来源,智慧城市可以分