大数据的潜在影响及制度需求

关于大数据,我有几点看法:第一,由于大数据刚刚热起来,所以不必着急下结论。当年IT刚刚发展时,研究增长问题的权威罗伯特·索洛(Robert Solow)教授提出了一个“索洛悖论”:“我们到处都看得见计算机,就是在生产率统计方面却看不见。”直到过了15年,到2002年时,他才公开承认说:“我现在发现IT可能对生产率是有贡献的。”对大数据的研究,可能也需要一个很长的时间才能确认价值所在。

第二,可能性不等于可行性。现在有种观点:“到底是大数据还是大忽悠?什么都讲是大数据。”其实是说现在讲的或者设想的都是“可能性”而不是“可行性”。“可行性”要到什么时间?现在还看不出来。它需要合理的制度安排,还需要企业、公司不断地进行商业实践、不断试错,以及科研工作者对大数据分析技术的不断改进。

第三,目前的研究主要还是提问阶段,而不是解决问题。当然,如果能提出好的问题,这也算是一个研究的好成果。

最后,本文尽量多摆事实、少讲道理;多提供一点素材,少提供一点观点。

一、大数据的产生、内涵及争议

首先,大数据何来?实际上大数据一直存在,存在于不同的地方。比如每个人都包涵着很多数据:身高、体重等等,包括观点、思想。但是过去没有互联网,所以这些数据很难得到应用。数据分析在很早就存在。春秋时孙膑就曾用对方营地做灶的数量来判断对方军队的数量,从而指导打仗。不过,当时这样的数据非常少,有这个利用能力的人才会成为时代的智者。

然而,现在的情况不太一样了。互联网应用以来,从2005年开始,数据在不断地增长,到2010年以后基本上是一个指数增长的过程,到2013年时已经超过4个ZB,每年的增长率超过50%。这就是一个从量变到质变的过程。

之前为什么不说大数据呢?这是个相对的概念,到某一天它的增长速度突然特别快的时候,“大”的概念就蹦出来了。所以它其实不是一个严格的学术概念,只是因为在量变的过程中大家感觉到这种质变,或者感觉它里面有价值。

主要的数据来源

主要的数据来源,总的来讲有两个方面:

第一,物的数据。

其中比较有代表性的,就是由传感器组成的物联网,这个概念是IBM(189.64, 0.49, 0.26%)在2009年提出来的一种商业模式,当时叫“智慧地球”。就是把传感器装到不同的物体上面,然后展现它的各种数据,比如温度、湿度、压力等等。物联网这几年的增长速度比较快,能达到20%-30%的增长速度,物的数据在不断地增加。

第二,人的数据。

其中最典型的是移动互联网的发展。近年来移动互联网占整个互联网流量的比例越来越高,移动端尤其是用户自己发送数据的比例大大提高了,这也是大数据非常重要的一个来源。通过这些移动端的数据,就可以判断一个人的职业、兴趣、品质或者其每时每刻的位置,就是说,靠这些数据能很精确地找到每个人的各种情况。

数据为什么会突然大量增加?一是IT成本下降,此外,跟这两年云计算使用率的上升有很大的关系。从亚马逊(313.65, 6.59, 2.15%)弹性云存储的文件量增长情况可见,从2006年到2013年增加的量是非常显著的,到2013年二季度时已经有2万亿数量文件存储在弹性云上。

那么,云计算为什么会降低IT成本?基于我们之前一年的实践研究数据可知,首先,从需求方来看,过去购买一些硬件包括服务器、电脑等等,成本比较昂贵。但是云计算系统把IT资源集中起来后,以租用的方式来使用,就比买它的价格便宜很多。从供给的角度来看,当把所有的IT资源集中起来以后,会有非常明显的规模经济,因为同时运营很多台服务器(当然这是基于技术),其成本会显著下降。

这里还有一个范围经济的概念:当把IT资源集中起来以后,不单有规模经济,还经营了多种的资源。比如说,搜索可能需要占很多CPU的计算资源,但是磁盘资源可能没那么多;电子邮件可能相反。当它集中运用的时候,可以同时得到这两种效率。所以,这也是云计算对IT成本下降的一个贡献。

大数据四“V”

关于大数据的定义,现在谈得最多的就是所谓的四个“V”,也有五个、六个“V”之说。IDC(互联网数据中心)归结的四个“V”中,第一个就是它的实际规模。从早先的KB,到TB,一直到后来的PB、EB,数据的量在不断地增加,这是一个表面的现象。

第二个“V”是多样的数据类型,尤其是里面包涵了大量的非结构化的数据。什么是非结构化的数据?比如在网上发一条微信,这句话本身没法拿来做统计或计量分析,但是可以在里面提取结构化数据进行分析。这样的数据反而占数据量很重要的一部分。

第三个“V”讲的是价值,有两点:一个是价值大,大数据带来各种可能性;另外一个比较重要的是,它虽然量很大、价值也很大,但是密度很低。在互联网上抓取的1GB的大数据,里面有用的可能只有千分之一、万分之一,或者百万分之一,所以,挖掘和分析比原来更加困难。

第四个“V”就是动态数据的快速处理。在这方面云计算的贡献比较大,这里比较核心的,也是大数据将来能不能从“可能”到“可行”转变的两个要素,即:非结构化和低密度。这两者其实互相相关,如果技术上能解决怎么分析非结构化数据、怎么从低密度价值里面提取数据的价值,那么大数据的应用可能就会有一个飞跃的增长。所以,我觉得非结构化和低密度可能是大数据的核心东西。

那么大数据是什么呢?如果管中窥豹,从点上去看它,首先,大数据的“大”肯定是一个相对的概念,它不是一个绝对的概念。另外,它更不是一个学术性的概念,而且这里面需要关注的就是非结构化的数据可能占大数据的主要部分,尤其是来自于网民的交互式的数据可能是未来大数据的主体之一。

从分析方法来看,过去得到数据或者统计的方法是抽样,然后利用概率论和随机过程等数学的方法来推理,从而达到目的,推测得出全部数据。现在有这种可能性,如果成本降得比较低的话,就可以获得全部的数据。

对大数据的质疑

当然,对大数据也有非常多的质疑。首先,有人提出“大数据陷阱”。数据是不是越多越好?实际上,对任何企业或个体来说,数据肯定不是越多越好,肯定有一个最优的数据量,因为要分析大量的数据,方法是不是可能?分析成本有多高?这个大量的数据包含的价值有多大?所以,对每一个企业都有一个最优的数据量,就是从拿到的数据范围里面获得的价值和为了获得这些价值而付出的分析成本,它们两个接近相等的时候,可能就是最优数据量。

再就是,MIT的凯特·克劳福德(Kate Crawford)教授提出“大数据中存在偏见和盲区”:数据在生成或采集的过程中并不都是平等的,大数据集存在“信号问题”,即某些民众和社区被忽略或未得到充分体现。这个比较典型,比如说,国内现在有6亿多网民,有时候不能用6亿的数据去判断13亿人的状态,因为这个过程不是靠抽样得到的。

第三个问题就是“泄露个人隐私成为日益严重的担忧”。在我们不知情时,数据就被人拿走了,这是很可怕的事。

(责任编辑:mengyishan)

时间: 2024-08-26 15:05:14

大数据的潜在影响及制度需求的相关文章

吴恩达:大数据正在慢慢影响着人们的生活

1976年出生于伦敦,华裔美国人.1998年获得麻省理工学院硕士学位,2002年获得加州大学伯克利分校博士学位. 吴恩达曾在斯坦福大学计算机科学系任教,被认为是人工智能和机器学习领域最权威的国际学者之一. 吴恩达曾在谷歌成立"谷歌大脑"项目,最著名的成就是让机器仅通过观看无标示的视频学习达到高级别识别能力,能够成功识别出"猫".去年,百度公司宣布,吴恩达成为百度首席科学家,全面负责百度研究院. 语音识别可改变人类 新京报:演讲时你提到机器图像和语音识别将在可穿戴设备

大数据应用如何影响世界

"大数据决策"成为一种新的决策方式 依据大数据进行决策,从数据中获取价值,让数据主导决策,是一种前所未有的决策方式,并正在推动着人类信息管理准则的重新定位.随着大数据分析和预测性分析对管理决策影响力的逐渐加大,依靠直觉做决定的状况将会被彻底改变. 2009年爆发的甲型H1N1流感,谷歌公司就是通过观察人们在网上搜索的大量记录,在流感爆发的几周前,就判断出流感是从哪里传播出来的,从而使公共卫生机构的官员获得了极有价值的数据信息,并做出有针对性的行动决策,而这比疾控中心的判断,提前了一两周

专家:大数据将深刻影响教育格局

首届中国教育大数据发展论坛12日至13日在山东省曲阜师范大学举行.中国教育科学研究院院长田慧生等专家表示,大数据及其技术应用将对探索教育规律.改变教育方式.影响教育决策等产生巨大影响,深刻影响教育发展的方方面面. 田慧生说,大数据及其技术应用为认识探索教育规律提供了前所未有的指向.人们对教育现象的分析和教育规律的把握虽然不断深化,但始终受到限制,而大数据将为此提供"利器".而近几百年来,教育的方式虽不断进步,但整体上还是并无太多革命性变化,与其他行业相比,相对"保守"

技术宅:大数据时代可能影响你的7个商业趋势

我们已经看到了许多这样的案例出现企业愿意分享他们在大数据使用上取得的成就.在IT行业任何的范式转变(paradigmshift),一个特定的主题吸引新闻媒体.投资者和创新人才的大量关注,这个转变需求很强的商业价格的支持.这个典型的案例是:客户服务.分布式计算和以服务为导向的架构与语言,例如:JAVA. 我们也看到了一个有益的生态系统的出现,迅速的赞美或扩展能力的核心支持技术,在大数据案例中,大数据生态系统已经迅速集中一批技术提供者. 那么在大数据的生态系统中我可以看到哪些趋势会出现? 在hado

大数据将如何影响数据中心的命运

"大数据" 需要大量计算资源来存储.组织处理与报告结果.这一新兴领域改变了数据中心服务器与其他基础设施的选择与部署方式. 为了在现今的商业环境中竞争并获得成功,公司必须通过对现有数据进行多维度的分析,才能做出业务决策.分析这些不断膨胀的大数据已经成为越来越重要的趋势与机遇. SearchDataCenter咨询委员会将介绍受大数据影响的商业模式,如何改变企业数据中心的运作,并为大家提供关于新数据中心机会的独特见解. 只需添加SAN 独立培训师兼顾问Sander van Vugt 大数据

大数据时代可能影响你的7个商业趋势

我们已经看到了许多这样的案例出现企业愿意分享他们在大数据使用上取得的成就.在IT行业任何的范式转变(paradigmshift),一个特定的主题吸引新闻媒体.投资者和创新人才的大量关注,这个转变需求很强的商业价格的支持.这个典型的案例是:客户服务.分布式计算和以服务为导向的架构与语言,例如:JAVA. 我们也看到了一个有益的生态系统的出现,迅速的赞美或扩展能力的核心支持技术,在大数据案例中,大数据生态系统已经迅速集中一批技术提供者,例如Hadoop,Cassandra,Accumulo,Orac

大数据科技如何影响现代体育

2015年8月31日,国务院以国发50号印发<促进大数据发展行动纲要>,政府将加快数据开放共享,推动资源整合,提升治理能力:推动产业创新发展,培育新兴业态,助力经济转型:强化安全保障,提高管理水平,促进健康发展. 政府从国家层面开始大力发展大数据,也恰恰说明其重要性.在体育领域,大数据在这几年里蓬勃发展,各种新的科技层出不穷.反观国内,可以说还没有起步,这是一个需要,也是必将发展起来的领域. 今天我就带大家看看大数据从哪些方面影响了现代体育. 大数据被越来越多的领域熟知与运用.在体育领域,大数

大数据到底怎么影响我们的生活

信息大爆炸的今天,不讨论大数据这个话题似乎就是跟不上时代.从医药到教育,再到其他各个领域,大数据充斥着现代社会的每个角落.而我们最关心的还是大数据最终将以什么样的形式,怎么样影响甚至改变我们的生活.来听听四位专家告诉你大数据到底有多少可能. 丹·瓦格纳 Dan Wagner Civis Analytics 的创始人兼首席执行官 你曾经说过,希望用大数据解决全球最大的问题.你最想解决的问题是什么? 我们主要关注两个领域:教育和健康.在教育领域,我们专注于利用个人层面的数据,帮助客户发现那些申请和注

对话美国科学家,大数据到底怎么影响我们的生活?

大信息大爆炸的今天,不讨论大数据这个话题似乎就是跟不上时代.从医药到教育,再到其他各个领域,大数据充斥着现代社会的每个角落.而我们最关心的还是大数据最终将以什么样的形式,怎么样影响甚至改变我们的生活.来听听四位专家告诉你大数据到底有多少可能. 丹·瓦格纳 Dan Wagner Civis Analytics 的创始人兼首席执行官 你曾经说过,希望用大数据解决全球最大的问题.你最想解决的问题是什么? Dan Wagner:我们主要关注两个领域:教育和健康.在教育领域,我们专注于利用个人层面的数据,