国际IT巨头加速构建“大数据帝国”

  上世纪80年代末到90年代初,国内外广泛流传着一句耐人寻味的话语:我们沉浸在数据的海洋中,却渴望着知识的淡水。这句话生动地描绘了当时人们面对海量数据的迷惘和无奈。就在这时,世界商业巨头沃尔玛从其庞大的交易数据库中演绎了一场“啤酒和尿布的故事”,揭示了一条隐藏在海量数据中的、美国人的一种行为规律:年龄在25至35岁的年轻父亲下班后经常要到超市去给婴儿买尿布,而他们中有30%-40%的人顺手为自己买几瓶啤酒。受这条简单的客户行为模式的启发,沃尔玛调整了商品布局,并策划了促销价格,结果销售量大增。这一现象引起了科学界的注意,他们将“啤酒和尿布的故事”引申为“关联规则获取”,进而将“从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程”定义为“数据挖掘”。

  需求是成功之源,于是西方发达国家刮起了一场数据挖掘的风暴。商业界发现了沃尔玛迅猛发展的秘诀,纷纷效仿。电信行业也沸腾了,各公司纷纷争先恐后地利用数据挖掘这一锐利武器解决他们面临的最紧迫的问题。工业界也行动了,他们从堆积如山的数据中,挖掘出指导生产和管理的决策规则。

  如今,全球已经进入了“大数据”时代。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番。大数据通过处理和分析而被发掘出来的价值就像所罗门宝藏一般吸引着各行各业。那么,这一预示着未来的新锐技术将如何改变世界?国际互联网巨鳄们又将如何布局全球大数据市场?大数据还有哪些潜能尚未开发?

  科技巨鳄豪赌大数据

  “中国市场的潜力无疑是巨大的,在大数据领域中国的增速会超过世界其他地方”

  ——Boyd Davis

  随着大数据的商业价值愈发显现,越来越多公司加入到大数据战略布局中,而具备数据开发优势的国际互联网巨鳄自然不会只满足于已有的数据仓库,更大规模的业务拓展正在进行中。

  烧钱大比拼

  作为大型的科技企业,烧钱是必不可免的事情。谷歌、亚马逊和微软为确保其全球网络正常运行,都需要付出不菲代价。据统计,今年第一季度,这三家科技公司的资本开支总计高达46亿美元,同比增长约65%。尤其是谷歌,为了构建它的“大数据帝国”,烧钱力度更是疯狂。统计显示,仅2013年,谷歌在大数据方面的支出就比2012年上涨了一倍多,支出金额达23亿美元。

  《华尔街日报》今年5月8日报道称,谷歌风投宣布向大数据公司——癌症病人数据提供商Flatiron Health投资1.3亿美元。这将是谷歌风投有史以来在医药软件行业最大一笔投资。

  谷歌风投将医疗大数据领域的公司作为自己的投资组合当中的重要组成部分。他们此前已经投资了DNAnexus公司以及Foundation Medicine公司,前者致力于打造全世界首个能够搜索的基因组数据库,后者则是使用大数据分析工具来帮助治疗肿瘤。

  而就在今年4月,另一家国际IT巨头英特尔,也宣布了它对大数据软件新秀Cloudera的一笔高达7.4亿美元的投资,这是英特尔有史以来在数据中心领域的最大单笔投资。路透社称,以英特尔投资7.4亿美元入股18%计算,这笔投资将准备上市的Cloudera的估值抬高到了41亿美元。

  布局中国市场

  IT巨头们争先恐后烧钱的背后是企业对大数据市场不断膨胀的需求。根据一家名为“市场研究透明度”的美国商业信息服务公司发布的报告显示,2012年全球大数据市场已达到63亿美元。这是一个年轻的市场,有着很强的增长势头,每年平均增长40%,预计市场规模将在2018年达到500亿美元。

  业内专家指出,如果说大数据在2012年和2013年在通信、金融、医疗、媒体、文化等领域的表现还不够出色,还未成为企业投资的重要方向的话,那么大数据应用将于2014年在企业投资中占据主流地位。对于全球第二大经济体的中国而言,大数据浪潮也是强势袭来。虽然大数据在中国目前仅处于初级阶段,但这同样意味着中国的大数据市场潜力巨大。

  专注中国IT产业及市场发展研究的赛迪顾问,于2013年发布了《中国大数据重点行业应用市场研究白皮书》,指出中国大数据IT应用市场规模将有望于2015年达到144.96亿元人民币,其中智慧城市、电信和金融三个细分大数据应用市场从2013年到2015年的年复合增长率,将分别达到114.4%、97.3%和104.1%。而构建更为高效、易用的大数据解决方案,让各种规模的企业都能更加轻松地从海量数据中发掘更多商业价值,已成为很多IT厂商的目标。

  作为大数据领域的佼佼者,国际IT巨鳄们不可能放任这块诱人的大蛋糕不理会。就在英特尔和Cloudera宣布达成合作后仅一个月,这两家公司的高管便一同出现在中国。双方宣布将进一步推动中国大数据技术和产业发展,更好地服务于中国市场和用户。其中,Cloudera更是计划于今年9月份在华建立业务机构,业务将涵盖直销、专业服务、客户支持、培训以及研发工作等。

  “中国市场的潜力无疑是巨大的,因为和中国联系在一起的很多经济现象都是巨大的,在中国有全球最大的移动通信运营商,有全球最大规模的银行,它们带来的机会是毫无疑问的。同时,我们也可以发现中国现在有着很多创新的大数据应用,这种巨大的潜力让我们相信,在大数据领域中国的增速会超过世界其他地方。”英特尔公司数据中心事业部副总裁兼数据中心软件部总经理Boyd Davis在接受《国际金融报》记者专访时表示,“英特尔此前在中国大数据产业和市场的实践及获取的成功,还有中国鼓励发展大数据技术和应用的产业环境,是促使我们下定决心,与Cloudera携手进一步拓展中国市场的关键因素。”

  着名市场调查机构IDC的一项预测也很好地解释了国际IT巨头重视中国市场的原因。据该机构预测,2020年全球新建和复制的信息量将达40ZB(ZB为泽字节简称,1ZB等于10万亿亿字节),这将是2012年的12倍,其中来自中国的数据量就将达8ZB,相比中国2012年时的数据量,增长可达22倍,这将使中国从2012年到2020年数据量全球占比从13%增长到21%,也意味着中国大数据和数据分析将面临巨大的机遇。

  大数据开发需立“军规”

  “在实践中,数据分析、处理的价值就在于能够产生一些实际的、良好的效果,而不是过分地进行数据采集和挖掘。”

  ——Kord Davis

  对争先恐后涉足大数据营销的企业来说,数据淘金之路并非全无风险。美国连锁百货集团塔吉特(Target Corp.)今年4月29日任命Bob DeRodes为新的首席信息官,取代此前因数据泄露而辞职的首席信息官Beth Jacob。

  数据挖掘双刃剑

  2013年底,塔吉特承认总计1.1亿用户信息被泄露,包括4000万用户的信用卡和借记卡,以及另外7000万名用户数据。据悉该次数据泄露事件几乎覆盖了塔吉特全美的1797间门店,此事也是继2007年美国百货零售商 TJX Companies9000万信用卡及借记卡数据泄漏事件后的最大的数据泄露事件。

  正是由于数据泄露事件,截至2014年2月1日,塔吉特产生了6100万美元的额外支出,其中保险赔偿抵销了4400万美元,即实际支出为1700万美元。在2013—2014财年的第四季财季,塔吉特百货净利润是5.2亿美元,较2012财年同期的9.61亿美元大幅减少46%,摊薄后每股收益从2012财年同期的1.47美元下降至0.81美元,净销售则同比下滑5.3%至21.52亿美元,美国业务的同店销售因数据泄露而比2012财年同期下降2.5%。

  塔吉特的案例让人感受到了大数据这柄双刃剑的另一面。《大数据伦理学:平衡风险和创新》一书的作者Kord Davis便指出:“在实践中,数据分析、处理的价值就在于能够产生一些实际的、良好的效果,而不是过分地进行数据采集和挖掘。”

  由于过分地数据挖掘,企业的行为引起了客户的不满,遭到客户的批评指责和法律诉讼。数据隐私管理解决方案供应商Truste于2013年9月发布的一项调查结果显示,1/3的互联网用户出于隐私考虑,已经停止使用某公司的网站,或者完全终止了与某公司的交易往来。

  还需法律规范

  于是,一些企业开始了大数据“自律”。以美国高档连锁百货商店诺德斯特姆公司(Nordstrom)为例,这家美国高档连锁百货商店曾利用Euclid科技公司提供的传感器,在顾客用智能手机连接商店WiFi服务时,来获取顾客的购物信息。但是,这一行为引起了隐私保护者们的批评,如今诺德斯特姆公司已不再采用这种分析方式了。

  然而,在隐私和信息安全问题上,仅靠企业自律,显然是一厢情愿。今年1月,美国总统奥巴马指示总统顾问对大数据与隐私问题展开详尽调研,希望在法律监管与舆论博弈之下,使数据公司的野蛮生长得到有效约束。美国总统科学技术咨询委员会也进行了一项研究,在技术层面探寻大数据与隐私泄露之间的关联程度。

  Michael Walker是位于美国丹佛的系统集成商和信息技术服务商Rose Business Technologies的管理合伙人。目前,他已经起草了一份12页的有关数据分析和使用的行为准则,用来规范数据科学家的行为,该行为准则囊括了数据科学家的角色和职责在内的所有内容。

  “企业也开始明白了数据信息二次使用和个人数据滥用的危害。”Walker说:“一旦企业开始有这样的想法,那么他们会非常希望有一个行为准则来规范他们,以免造成不必要的麻烦。”

  Michael Walker表示,数据科学家也应该向医生或者律师一样,利用一些道德行为准则严格约束自己的行为。为此,他为这些数据管理和分析的人制定了一系列准则和规范,以规范这些数据科学家们的品行,保护顾客的隐私。

  超级人工智能建构未来

  “大数据或许会在未来某个阶段被定义为:对人类世界的真实还原,并且不断地满足我们的任何愿望。”

  ——怀进鹏

  火爆英剧《黑镜》中有这样一段引人深思的剧情:Martha的男友Ash是个社交媒体迷,几乎天天泡在Twitter、Facebook这类网站上。糟糕的是,Ash不幸遇难。在Ash的葬礼上,Martha的朋友Sarah称她们可以利用Ash生前在社会媒体上留下的“生活轨迹”还原一个Ash。

  于是,通过对Ash生前留在互联网世界的数据分析挖掘、统计比较和重新组织,进而发现规律、构建模型,最终实现准确“预测”,Martha身边出现了一款功能极其强大的“大数据+云计算”的“再造人”,一个连思维人格都可以和因车祸而早逝的Ash“一模一样”的机器人[0.60% 资金 研报]。“机器人Ash”可以像“真正Ash”那样与活着的人进行对话和对事物做出反应甚至进行学习。

  未来,大数据是否会给我们带来这样颠覆性的改变呢?

  在今年的百度大数据开放大会上,中国科学院院士、现任北京航空航天大学校长怀进鹏的演讲《超级人工智能:大数据的未来》似乎找到了未来的人工智能所能抵达的可能性。

  要实现超级人工智能,怀进鹏首先提到了“众包”概念。这是由美国《连线》杂志的记者杰夫·豪(Jeff Howe)在 2006年6月提出的。杰夫·豪对“众包”的定义是: “一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。众包的任务通常由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现。”

  怀进鹏假设,目前我们可以做到众包大数据软件开发,那么大数据爬行机器可以根据读取诸如新浪微博、百度指数、百度贴吧或是淘宝交易的数据,发现用户的各种情绪以及需求的曲线,软件开发者再根据这些数据的呈现开发出一套软件的模型然后交给运营商放置于云端,而用户再参与进入各种云端产生的软件,在此种产生了各种行为,于是机器再根据这些用户的行为,为软件建模、规划。

  这是一种极为精尖交互式数据挖掘技术,前提是解决算法以及存储问题,一切皆有可能。未来的大数据软件将不会是一种固有形态,而是一个不断根据数据自动变化的超级生态,可能不是依靠产品经理推动,而是依靠算法工程师来推动,让用户的需求自然暴露,然后为他们去实现一些功能。

  如果真的能够实现这样的大数据软件建构,那么怀进鹏认为,目前对大数据的某种定义将被完全推翻。“大数据或许会在未来某个阶段被定义为:对人类世界的真实还原,并且不断地满足我们的任何愿望,曾经我们依靠它来决策一些事情,现在我们依靠它来直接抵达我们想要做的事情,我们所有的行为都已经成为我们决策的一部分。”

  整军备战中国大数据

  ——专访英特尔公司数据中心事业部副总裁兼数据中心软件部总经理Boyd Davis

  Cloudera公司联合创始人、董事长、首席战略官Mike Olson

  《国际金融报》:英特尔和Cloudera为何选择对方成为自己的战略合作伙伴?

  Boyd Davis:我们致力于通过技术来实现和推动经济的发展,Hadoop正是这样一个非常基础的技术,它代表的是使用信息的一种全新方式,可用于推动经济发展。英特尔通过和Cloudera合作,能够参与到这个过程中,能够让Hadoop这样一个开源的大数据软件平台,更好地与我们的芯片相契合,这符合我们的增长战略。

  Mike Olson:物联网的时代数据正走向海量,容量比过去要大得多,我们需要有很强的能力来捕捉和分析这些数据。作为全球在这一领域中的领导者,英特尔和Cloudera的合作,将催生芯片方面和软件方面的更多创新机会,将帮助更多企业用户做好风险控制,做好数据分析,也就是能够推动整个大数据产业和应用的发展。

  《国际金融报》:中国目前的大数据产业和市场的吸引力主要在哪里?

  Mike Olson:中国的医疗行业、智慧城市、智慧交通、金融服务、电信业等方面,已经展示出了中国大数据市场的大量机会,我相信从更广义的角度来看,物联网市场也将是巨大的增长引擎,相关应用可能涉及到更多行业和领域,比如运输业和制造业。相信物联网将会带来一个规模更大的增长效应,或者能创造一个更大的市场机会。

  《国际金融报》:大数据应用在中国市场会遇到哪些独特的挑战?

  Boyd Davis:在大数据应用模式上,中国和世界其他地区还是比较类似的,差异主要在于中国的人口和经济、市场和企业的规模更大。因此,无论是企业还是政府的领导,都需要尽可能地发挥想象力、创造力,能够更好地利用海量的数据,以不断改进、创造一些新的服务和体验。另外,相关法律法规和政策方面的挑战也是客观存在的。

  《国际金融报》:我们应该如何在大数据时代保护好用户数据的安全?

  Boyd Davis:对数据隐私或者个人信息的保护,对很多行业,特别是金融行业或医疗行业来说都是至关重要的。在谷歌、Facebook、雅虎刚刚开始开发大数据平台的时候,安全性其实做的并不好。但在过去几年里,数据安全保护的水平、隐私保护的水平提升得很快,相关的安全技术,在我们的金融服务及医疗行业的用户那里也有了很多的部署和应用。对于英特尔而言,我们有Rhino的开源项目,它的安全性和加密技术在整个平台范围内做得非常好。对于Cloudera而言,也有专注于安全的Sentry项目,它也能对数据的保护进行严格控制。现在我们的合作,将能实现更好的数据安全性和个人隐私保护能力。数据安全性在整个行业内是需要所有厂商永远为之努力的目标,我们的努力,已经让它相比过去五到六年改善了很多。

时间: 2024-09-20 18:28:21

国际IT巨头加速构建“大数据帝国”的相关文章

贵州加速构建大数据技术研发应用服务平台

从贵州省科技厅3月7日召开的网上农高会工作部署会上了解到,该省正加速构建大数据产业研发.应用.服务平台,促进科技人才流动,推动现代农业产业.现代服务业.中小微科技型企业等快速发展. 刚刚过去的2013年,被认为是"大数据元年",也是贵州大数据产业的奠基之年.中国电信.中国移动.中国联通三大运营商的南方数据中心相继落户贵州.2月25日,贵州省政府印发<关於加快大数据产业发展应用若干政策的意见>和<贵州省大数据产业发展应用规划纲要(2014-2020年)>﹔3月1日

佛山高新区构建大数据产业新生态

陆惠嫦 在信息技术已经成为重要业务的数字社会时代,大数据就是产业转型发展的"催化剂". 不久前,在佛山市南海区大数据及工业互联网创新应用工作推进会上,广东省经信委向南海授予了广东省大数据产业园牌匾,佛山高新区的东软华南IT创业园成为大数据产业园之一,展现园区大数据创新成果. 这已不是佛山高新区大数据产业第一次赢得关注.去年以来,佛山高新区依托东软华南IT创业园的优势资源,围绕"互联网+智能制造"产业进行布局,力求打造具有影响力的大数据技术创新地,为广东省大数据产业园

从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举

缘起   我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需求数据岗位.   大公司暂且不论,他们一切都走在前头.那么,对于中小型企业来说,开始尝试以数据的思维去思考问题,开始涉足大数据领域,这就是一个从0到1的过程了.   有(bu)幸(xing),近半年来,我亲自见证以及亲身体会到了这个过程,或者至今仍然在完善1这个过程中.期间,有痛苦有坑.有喜悦有

国际大牌站台 阿里成立大数据打假联盟

文章讲的是国际大牌站台 阿里成立大数据打假联盟,2017年1月16日,阿里巴巴倡导成立"大数据打假联盟",促进全球打假工作中采用大数据和相关技术.出于阿里巴巴的假货问题不断,也反映了他们打假真诚的愿望.除了中国政府部门和执法机构外,该联盟将有20位创始成员,其中不乏一些大牌和龙头企业. 首期联盟成员: 阿里巴巴.Dulux.LV.施华洛世奇.赫基集团.地素.资生堂.贝德玛.安利.玛氏.保乐力加.华为.苏泊尔.九阳.索尼.三星.西部数据(西数及闪迪品牌).佳能.福特等. 支持部门: 浙江

北京青苔数据助力山东财经大学构建大数据商务分析实验室,全面提升高校大数据实训和科研能力

北京青苔数据科技有限公司通过使用阿里云大数据实验室和青苔大数据实验室产品协助山东财经大学管理科学和工程学院建立了--大数据商务分析实验室.通过这个实验室,山东财经大学管理科学和工程学院能够利用大数据.人工智能和云计算等技术以及行业案例,实现对本科和研究生学生的实训教学,帮助老师和研究生学生进行各种大数据科研创新. 客户档案 山东财经大学是财政部.教育部.山东省共建高校,坐落于名泉喷涌的国家历史文化名城--济南,是一所办学历史悠久.办学规模较大.办学特色鲜明,以经济学和管理学科为主,兼有文学.法学

御膳房:构建大数据的美食厨房

御膳房:构建大数据的美食厨房 早在2008年,阿里巴巴即确定了云计算.大数据为中心的DT战略,并在云计算底层平台的搭建上取得了令业界瞩目的成就.同时,金币的另一面,大数据的业务尤其是基于淘宝.天猫等电子商务平台的数据业务也是风生水起,领行业之先.早期"淘宝指数"."数据魔方"不但让用户有了耳目一新的体验,更为店铺卖家提供了运营管理的数据工具.有了云计算稳定可靠.高弹性.大计算能力之后,阿里内部的大数据应用迎来了井喷式的发展. 这里我们再分享另一个基于飞天的ODPS的

王叁寿:只有数据源服务商才有资格构建大数据生态圈

王叁寿认为,如同在大数据价值变现过程中,数据源始终占有绝对重心一样(王叁寿图),未来只有数据源服务商,才有资格构建大数据生态圈. 数据源服务商产业链核心位置,无可替代 一个完整的大数据生态圈,由数据源.硬件支撑层.技术层.应用层.交易层.衍生层构成.大数据生态圈良性运转最重要的根源,来自行业起点--数据源.如果没有数据源公司对政府.行业.企业.互联网.物联网.移动通信以及第三方海量数据的挖掘处理,大数据硬件.软件生产和投入应用都无从谈起. "发展大数据产业,首要解决的是促成数据资源的极大丰富和开

从BAT看企业构建大数据体系的六层级

文章讲的是从BAT看企业构建大数据体系的六层级,本文将企业大数据体系的构建分为六个层级,但并非是线性过程,每个层级之间或有基础关系,但并不是说一定要逐层构建.例如创业型公司,在缺乏数据研发实力的时候,多数会借助第三方平台进行数据上报与分析.下面一张图,是本文的精华概括,后面一一展开与大家探讨. 一.数据基础平台基础的数据平台建设工作,包含数据平台建设,数据规范,数据仓库.产品数据规范,产品ID,用户ID,统一SDK等.很多公司的数据无法有效利用,就是缺乏统一规范,产品数据上报任由开发按照自己的理

美国职棒大联盟构建大数据协作平台案例

本文讲的是美国职棒大联盟构建大数据协作平台案例,每次Cole Hamels一挥球棒,David Ortiz来个全垒打,Jose Reyes偷走一球,MLB.com的四人制作团队都会保证观众能在网站上马上看到精彩瞬间.MLB.com总部在纽约,是美国职业棒球大联盟的公共网站. 由于在30支职业联盟球队的162场常规赛中,每一场都有独立的制作团队,因此每年的四月到九月,共计15支四人制作团队会在工作室日夜奋战,创建.分类并上传丰富的媒体信息与数字资源到网站上.除了MLB.com网站,你还能在其合作网