上世纪80年代末到90年代初,国内外广泛流传着一句耐人寻味的话语:我们沉浸在数据的海洋中,却渴望着知识的淡水。这句话生动地描绘了当时人们面对海量数据的迷惘和无奈。就在这时,世界商业巨头沃尔玛从其庞大的交易数据库中演绎了一场“啤酒和尿布的故事”,揭示了一条隐藏在海量数据中的、美国人的一种行为规律:年龄在25至35岁的年轻父亲下班后经常要到超市去给婴儿买尿布,而他们中有30%-40%的人顺手为自己买几瓶啤酒。受这条简单的客户行为模式的启发,沃尔玛调整了商品布局,并策划了促销价格,结果销售量大增。这一现象引起了科学界的注意,他们将“啤酒和尿布的故事”引申为“关联规则获取”,进而将“从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程”定义为“数据挖掘”。
需求是成功之源,于是西方发达国家刮起了一场数据挖掘的风暴。商业界发现了沃尔玛迅猛发展的秘诀,纷纷效仿。电信行业也沸腾了,各公司纷纷争先恐后地利用数据挖掘这一锐利武器解决他们面临的最紧迫的问题。工业界也行动了,他们从堆积如山的数据中,挖掘出指导生产和管理的决策规则。
如今,全球已经进入了“大数据”时代。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番。大数据通过处理和分析而被发掘出来的价值就像所罗门宝藏一般吸引着各行各业。那么,这一预示着未来的新锐技术将如何改变世界?国际互联网巨鳄们又将如何布局全球大数据市场?大数据还有哪些潜能尚未开发?
科技巨鳄豪赌大数据
“中国市场的潜力无疑是巨大的,在大数据领域中国的增速会超过世界其他地方”
——Boyd Davis
随着大数据的商业价值愈发显现,越来越多公司加入到大数据战略布局中,而具备数据开发优势的国际互联网巨鳄自然不会只满足于已有的数据仓库,更大规模的业务拓展正在进行中。
烧钱大比拼
作为大型的科技企业,烧钱是必不可免的事情。谷歌、亚马逊和微软为确保其全球网络正常运行,都需要付出不菲代价。据统计,今年第一季度,这三家科技公司的资本开支总计高达46亿美元,同比增长约65%。尤其是谷歌,为了构建它的“大数据帝国”,烧钱力度更是疯狂。统计显示,仅2013年,谷歌在大数据方面的支出就比2012年上涨了一倍多,支出金额达23亿美元。
《华尔街日报》今年5月8日报道称,谷歌风投宣布向大数据公司——癌症病人数据提供商Flatiron Health投资1.3亿美元。这将是谷歌风投有史以来在医药软件行业最大一笔投资。
谷歌风投将医疗大数据领域的公司作为自己的投资组合当中的重要组成部分。他们此前已经投资了DNAnexus公司以及Foundation Medicine公司,前者致力于打造全世界首个能够搜索的基因组数据库,后者则是使用大数据分析工具来帮助治疗肿瘤。
而就在今年4月,另一家国际IT巨头英特尔,也宣布了它对大数据软件新秀Cloudera的一笔高达7.4亿美元的投资,这是英特尔有史以来在数据中心领域的最大单笔投资。路透社称,以英特尔投资7.4亿美元入股18%计算,这笔投资将准备上市的Cloudera的估值抬高到了41亿美元。
布局中国市场
IT巨头们争先恐后烧钱的背后是企业对大数据市场不断膨胀的需求。根据一家名为“市场研究透明度”的美国商业信息服务公司发布的报告显示,2012年全球大数据市场已达到63亿美元。这是一个年轻的市场,有着很强的增长势头,每年平均增长40%,预计市场规模将在2018年达到500亿美元。
业内专家指出,如果说大数据在2012年和2013年在通信、金融、医疗、媒体、文化等领域的表现还不够出色,还未成为企业投资的重要方向的话,那么大数据应用将于2014年在企业投资中占据主流地位。对于全球第二大经济体的中国而言,大数据浪潮也是强势袭来。虽然大数据在中国目前仅处于初级阶段,但这同样意味着中国的大数据市场潜力巨大。
专注中国IT产业及市场发展研究的赛迪顾问,于2013年发布了《中国大数据重点行业应用市场研究白皮书》,指出中国大数据IT应用市场规模将有望于2015年达到144.96亿元人民币,其中智慧城市、电信和金融三个细分大数据应用市场从2013年到2015年的年复合增长率,将分别达到114.4%、97.3%和104.1%。而构建更为高效、易用的大数据解决方案,让各种规模的企业都能更加轻松地从海量数据中发掘更多商业价值,已成为很多IT厂商的目标。
作为大数据领域的佼佼者,国际IT巨鳄们不可能放任这块诱人的大蛋糕不理会。就在英特尔和Cloudera宣布达成合作后仅一个月,这两家公司的高管便一同出现在中国。双方宣布将进一步推动中国大数据技术和产业发展,更好地服务于中国市场和用户。其中,Cloudera更是计划于今年9月份在华建立业务机构,业务将涵盖直销、专业服务、客户支持、培训以及研发工作等。
“中国市场的潜力无疑是巨大的,因为和中国联系在一起的很多经济现象都是巨大的,在中国有全球最大的移动通信运营商,有全球最大规模的银行,它们带来的机会是毫无疑问的。同时,我们也可以发现中国现在有着很多创新的大数据应用,这种巨大的潜力让我们相信,在大数据领域中国的增速会超过世界其他地方。”英特尔公司数据中心事业部副总裁兼数据中心软件部总经理Boyd Davis在接受《国际金融报》记者专访时表示,“英特尔此前在中国大数据产业和市场的实践及获取的成功,还有中国鼓励发展大数据技术和应用的产业环境,是促使我们下定决心,与Cloudera携手进一步拓展中国市场的关键因素。”
着名市场调查机构IDC的一项预测也很好地解释了国际IT巨头重视中国市场的原因。据该机构预测,2020年全球新建和复制的信息量将达40ZB(ZB为泽字节简称,1ZB等于10万亿亿字节),这将是2012年的12倍,其中来自中国的数据量就将达8ZB,相比中国2012年时的数据量,增长可达22倍,这将使中国从2012年到2020年数据量全球占比从13%增长到21%,也意味着中国大数据和数据分析将面临巨大的机遇。
大数据开发需立“军规”
“在实践中,数据分析、处理的价值就在于能够产生一些实际的、良好的效果,而不是过分地进行数据采集和挖掘。”
——Kord Davis
对争先恐后涉足大数据营销的企业来说,数据淘金之路并非全无风险。美国连锁百货集团塔吉特(Target Corp.)今年4月29日任命Bob DeRodes为新的首席信息官,取代此前因数据泄露而辞职的首席信息官Beth Jacob。
数据挖掘双刃剑
2013年底,塔吉特承认总计1.1亿用户信息被泄露,包括4000万用户的信用卡和借记卡,以及另外7000万名用户数据。据悉该次数据泄露事件几乎覆盖了塔吉特全美的1797间门店,此事也是继2007年美国百货零售商 TJX Companies9000万信用卡及借记卡数据泄漏事件后的最大的数据泄露事件。
正是由于数据泄露事件,截至2014年2月1日,塔吉特产生了6100万美元的额外支出,其中保险赔偿抵销了4400万美元,即实际支出为1700万美元。在2013—2014财年的第四季财季,塔吉特百货净利润是5.2亿美元,较2012财年同期的9.61亿美元大幅减少46%,摊薄后每股收益从2012财年同期的1.47美元下降至0.81美元,净销售则同比下滑5.3%至21.52亿美元,美国业务的同店销售因数据泄露而比2012财年同期下降2.5%。
塔吉特的案例让人感受到了大数据这柄双刃剑的另一面。《大数据伦理学:平衡风险和创新》一书的作者Kord Davis便指出:“在实践中,数据分析、处理的价值就在于能够产生一些实际的、良好的效果,而不是过分地进行数据采集和挖掘。”
由于过分地数据挖掘,企业的行为引起了客户的不满,遭到客户的批评指责和法律诉讼。数据隐私管理解决方案供应商Truste于2013年9月发布的一项调查结果显示,1/3的互联网用户出于隐私考虑,已经停止使用某公司的网站,或者完全终止了与某公司的交易往来。
还需法律规范
于是,一些企业开始了大数据“自律”。以美国高档连锁百货商店诺德斯特姆公司(Nordstrom)为例,这家美国高档连锁百货商店曾利用Euclid科技公司提供的传感器,在顾客用智能手机连接商店WiFi服务时,来获取顾客的购物信息。但是,这一行为引起了隐私保护者们的批评,如今诺德斯特姆公司已不再采用这种分析方式了。
然而,在隐私和信息安全问题上,仅靠企业自律,显然是一厢情愿。今年1月,美国总统奥巴马指示总统顾问对大数据与隐私问题展开详尽调研,希望在法律监管与舆论博弈之下,使数据公司的野蛮生长得到有效约束。美国总统科学技术咨询委员会也进行了一项研究,在技术层面探寻大数据与隐私泄露之间的关联程度。
Michael Walker是位于美国丹佛的系统集成商和信息技术服务商Rose Business Technologies的管理合伙人。目前,他已经起草了一份12页的有关数据分析和使用的行为准则,用来规范数据科学家的行为,该行为准则囊括了数据科学家的角色和职责在内的所有内容。
“企业也开始明白了数据信息二次使用和个人数据滥用的危害。”Walker说:“一旦企业开始有这样的想法,那么他们会非常希望有一个行为准则来规范他们,以免造成不必要的麻烦。”
Michael Walker表示,数据科学家也应该向医生或者律师一样,利用一些道德行为准则严格约束自己的行为。为此,他为这些数据管理和分析的人制定了一系列准则和规范,以规范这些数据科学家们的品行,保护顾客的隐私。
超级人工智能建构未来
“大数据或许会在未来某个阶段被定义为:对人类世界的真实还原,并且不断地满足我们的任何愿望。”
——怀进鹏
火爆英剧《黑镜》中有这样一段引人深思的剧情:Martha的男友Ash是个社交媒体迷,几乎天天泡在Twitter、Facebook这类网站上。糟糕的是,Ash不幸遇难。在Ash的葬礼上,Martha的朋友Sarah称她们可以利用Ash生前在社会媒体上留下的“生活轨迹”还原一个Ash。
于是,通过对Ash生前留在互联网世界的数据分析挖掘、统计比较和重新组织,进而发现规律、构建模型,最终实现准确“预测”,Martha身边出现了一款功能极其强大的“大数据+云计算”的“再造人”,一个连思维人格都可以和因车祸而早逝的Ash“一模一样”的机器人[0.60% 资金 研报]。“机器人Ash”可以像“真正Ash”那样与活着的人进行对话和对事物做出反应甚至进行学习。
未来,大数据是否会给我们带来这样颠覆性的改变呢?
在今年的百度大数据开放大会上,中国科学院院士、现任北京航空航天大学校长怀进鹏的演讲《超级人工智能:大数据的未来》似乎找到了未来的人工智能所能抵达的可能性。
要实现超级人工智能,怀进鹏首先提到了“众包”概念。这是由美国《连线》杂志的记者杰夫·豪(Jeff Howe)在 2006年6月提出的。杰夫·豪对“众包”的定义是: “一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。众包的任务通常由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现。”
怀进鹏假设,目前我们可以做到众包大数据软件开发,那么大数据爬行机器可以根据读取诸如新浪微博、百度指数、百度贴吧或是淘宝交易的数据,发现用户的各种情绪以及需求的曲线,软件开发者再根据这些数据的呈现开发出一套软件的模型然后交给运营商放置于云端,而用户再参与进入各种云端产生的软件,在此种产生了各种行为,于是机器再根据这些用户的行为,为软件建模、规划。
这是一种极为精尖交互式数据挖掘技术,前提是解决算法以及存储问题,一切皆有可能。未来的大数据软件将不会是一种固有形态,而是一个不断根据数据自动变化的超级生态,可能不是依靠产品经理推动,而是依靠算法工程师来推动,让用户的需求自然暴露,然后为他们去实现一些功能。
如果真的能够实现这样的大数据软件建构,那么怀进鹏认为,目前对大数据的某种定义将被完全推翻。“大数据或许会在未来某个阶段被定义为:对人类世界的真实还原,并且不断地满足我们的任何愿望,曾经我们依靠它来决策一些事情,现在我们依靠它来直接抵达我们想要做的事情,我们所有的行为都已经成为我们决策的一部分。”
整军备战中国大数据
——专访英特尔公司数据中心事业部副总裁兼数据中心软件部总经理Boyd Davis
Cloudera公司联合创始人、董事长、首席战略官Mike Olson
《国际金融报》:英特尔和Cloudera为何选择对方成为自己的战略合作伙伴?
Boyd Davis:我们致力于通过技术来实现和推动经济的发展,Hadoop正是这样一个非常基础的技术,它代表的是使用信息的一种全新方式,可用于推动经济发展。英特尔通过和Cloudera合作,能够参与到这个过程中,能够让Hadoop这样一个开源的大数据软件平台,更好地与我们的芯片相契合,这符合我们的增长战略。
Mike Olson:物联网的时代数据正走向海量,容量比过去要大得多,我们需要有很强的能力来捕捉和分析这些数据。作为全球在这一领域中的领导者,英特尔和Cloudera的合作,将催生芯片方面和软件方面的更多创新机会,将帮助更多企业用户做好风险控制,做好数据分析,也就是能够推动整个大数据产业和应用的发展。
《国际金融报》:中国目前的大数据产业和市场的吸引力主要在哪里?
Mike Olson:中国的医疗行业、智慧城市、智慧交通、金融服务、电信业等方面,已经展示出了中国大数据市场的大量机会,我相信从更广义的角度来看,物联网市场也将是巨大的增长引擎,相关应用可能涉及到更多行业和领域,比如运输业和制造业。相信物联网将会带来一个规模更大的增长效应,或者能创造一个更大的市场机会。
《国际金融报》:大数据应用在中国市场会遇到哪些独特的挑战?
Boyd Davis:在大数据应用模式上,中国和世界其他地区还是比较类似的,差异主要在于中国的人口和经济、市场和企业的规模更大。因此,无论是企业还是政府的领导,都需要尽可能地发挥想象力、创造力,能够更好地利用海量的数据,以不断改进、创造一些新的服务和体验。另外,相关法律法规和政策方面的挑战也是客观存在的。
《国际金融报》:我们应该如何在大数据时代保护好用户数据的安全?
Boyd Davis:对数据隐私或者个人信息的保护,对很多行业,特别是金融行业或医疗行业来说都是至关重要的。在谷歌、Facebook、雅虎刚刚开始开发大数据平台的时候,安全性其实做的并不好。但在过去几年里,数据安全保护的水平、隐私保护的水平提升得很快,相关的安全技术,在我们的金融服务及医疗行业的用户那里也有了很多的部署和应用。对于英特尔而言,我们有Rhino的开源项目,它的安全性和加密技术在整个平台范围内做得非常好。对于Cloudera而言,也有专注于安全的Sentry项目,它也能对数据的保护进行严格控制。现在我们的合作,将能实现更好的数据安全性和个人隐私保护能力。数据安全性在整个行业内是需要所有厂商永远为之努力的目标,我们的努力,已经让它相比过去五到六年改善了很多。