社会化数据时代的八爪鱼式生存

企业能否从移动互联网、物联网等网络中不断出现的数据源那里顺利发现并拿到它需要的数据?  作者:张承东  在Web页面中增加一个简单的
意见按钮,会不会让读者放弃填写文字评论?同样是给注册用户发送邮件通知,是纯文字版本、还是图形化版本获得的回复率更高呢?  这是Facebook曾经面临的无数个用户体验问题中的两个。要回答这类问题,最好的办法只有一个,就是实际测试一下。  Facebook的确这么做了。他们分别选取了两组用户设计了一次测试。结果证明,增加了意见按钮后的评论增加了近5%;简单的基于文本的电子邮件获得了比图形化更丰富的那些电子邮件高出三倍的响应率。  那么,这种测试方法的难点在哪里呢?超大量的社会化数据(social data)的收集和分析就是这其中最大的困难。  数据显示,Facebook上现有5亿用户,超过一半的用户每天都登录。而Neilsen调查指出,Facebook用户在该网站上消耗的时间,比接近它的其他6个网站上用户所花的时间的总和还多。如此集中的用户和用户行为无疑产生巨量的数据回馈。Facebook的工程副总裁Mike Schroepfer指出,如今Facebook已经存储了数十PB的未压缩数据,每天的数据处理量也可以达到上百TB。  与过去那些从数据库等商业软件中抽取出的较为规整的数据不同,如今,在诸多社区网站中、各类网络行为中产生的数据多种多样。雅虎首席产品官 Blake Irving指出,世界上只有5%的数据是结构化的,而非结构化数据一直保持极大的增长。事实上,为了更经济高效地从客户端的网络行为中抓取数据、分析数据,Facebook、雅虎、淘宝以及像中国移动等主流企业都已经纷纷在云计算、数据挖掘等前沿技术中寻求解决方案。  大数据时代  时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业, 几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论坛到游戏社区再到微博,从互联网到移动互联网再到物联网,人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲,他们需要关注的数据显然已经不仅限于企业内部数据库中的业务数据,还要包括互联网(以及未来的物联网)上各类网络活动所产生的相关数据记录。  换句话说,如今,一个完整的企业数据生态系统有多个信息入口,应该包括互联网、社交网络、Email、呼叫中心等,其中还包括很多诸如图片、音频、视频等非结构化数据。以往人们认为,把企业自有的运营数据进行深度分析后,自然会有所得。但在今天看来,这种做法的一大缺陷就是,数据不够全面、及时。从理论上讲,掌握的数据越全面,得出的结论就越趋向于合理。在上世纪即流传开来的“啤酒与尿布”故事之后,企业只有构建一个容纳了足够多关键信息的“深水池”,才更有可能做出正确的决策。  这种趋势已经让很多相信数据之力量的企业做出改变。  2010年上半年,淘宝网开始推出数据魔方服务。从其服务页面上可以看到,基于淘宝网上亿用户产生的交易原始数据,数据魔方服务不但可以提供传统的热销品牌等各类排行,还可以对某项产品的交易趋势、
卖家和买家的信用情况、交易时段等多种细节进行统计分析。如果与沃尔玛等传统零售巨头所能分析的数据相比,淘宝在卖家和买家的一些软性资料和沟通细节上显然掌握了更为丰富的信息。据透露,在近半年的时间内,淘宝上即有近2万卖家开始通过数据魔方进行参考决策,100多天中总计数据调用260万次。如今,淘宝网在国内外的数据分析领域中已经颇具影响力,其数据服务业务在其大淘宝战略中的地位也将愈发重要。展望未来,互联网、电信、金融等行业企业无疑在数据服务业务方面还有很大的开拓空间。  社会化数据的迅猛增长除了让掌握了这些数据的企业顺势推出了相关的数据服务之外,也直接影响到了数据分析技术提供商们的发展战略。  2010年10月,一直专注于商业智能技术的美国公司Teradata就宣布推出新的社交媒体平台,专门进行与挖掘社会化数据相关的信息分享。在面向企业推出的产品上,则在其主打的数据仓库产品之外,加入了关键的社会化数据的抓取和分析功能技术Hadoop。  “Teradata 的传统优势在于可以应对数据库内的海量数据,Hadoop技术则可以处理来自互联网的大规模数据,现在我们将原有产品和Hadoop技术整合到一起,可以更好地解决企业的数据处理问题。” Teradata公司首席技术官Stephen Brobst说。  对很多人来讲,Hadoop这样一个名词可能还比较陌生,但实际上,从Yahoo的 Web搜索研究,到Facebook的数据分析,再到百度的搜索日志分析、淘宝的数据魔方服务,以及中移动推出了 “大云”(BigCloud)系统,Hadoop的身影都已经到处闪现。简单来讲,社会化数据时代的企业需要像八爪鱼一样,能够发现并拿到他需要的数据,而Hadoop技术的好处就是,不但可以方便地嵌入到各种实际应用中以实现全文搜索/索引,而且可以进行数据抓取。比如雅虎,通过应用这一技术,几乎可以实时分析每一个页面点击并优化内容的排名,每7分钟就能更新一次结果。  数据无尽头  如果说社会化数据相对于企业内部的那些结构化数据来讲算新数据的话,那么,类似的新数据在未来还将不断增加。  因为移动互联网、物联网等新网络的发展还在继续,未来新的数据源将会不断地出现,由此,像GPS数据、移动数据、
传感器收集的数据也将会不停地、大量的产生。  对于企业的整体数据生态系统来讲,其实可以依据私有云和公有云的界定将其所有数据分成两大部分。对于私有云,更多地体现为企业内部的传统结构化数据,在未来的三到五年内,很多企业都将会大力发展其内部的云计算环境,像IBM、EMC等公司可以凭借虚拟化技术、硬件存储功能为客户提供相关的数据处理方案。  而对于更为广阔的公有云数据,带来的市场空间同样很大。“随着社会化数据、非结构数据、大数据的产生,企业需要将这些数据集中起来,加以分析利用,这也将会给Teradata这样的公司带来巨大的机会。”Teradata大中华区总裁辛儿伦(Aaron Hsin)在采访中如此表示。  比如在能源领域,Teradata就与智能电表供应商Itron公司打造了一个软件分析平台,对使用的数据进行分析,解决了能源一旦生产出来无法储存和节约的问题。凭借该分析平台,公用事业企业能够根据预测使用量和实际使用量对能源进行分配。比如,在住宅区域和制造业密布的区域,电力将采用不同的分配规划。这一服务平台不仅可让能源企业获得能源使用量、虚假信息和能源分配方面的数据,还能根据每个企业在每天特定时间的使用量进行定价和收费,并且更合理地配置能源。  此外,未来对地理空间数据的应用也是热点之一。比如零售企业将地理空间数据与其网点、客户数据相结合之后,即可针对其竞争对手推出更具竞争力的布局和促销活动。而汽车保险行业则可以用感应器来收集数据。通过收集车辆行驶过程中的信息,与公路网的地理空间数据重叠起来,就可以对路况不好,经常发生事故的道路进行分析和防范。据辛儿伦介绍,目前,国内已经有部分客户采用了Teradata的地理空间数据解决方案,主要分布在零售业、保险业和政府机关三个领域。  事实上,因为在数据挖掘技术和数据规模上的双重门槛,使得这一行业并不能像过去卖出一台机器或一份软件许可那样简单。  以 Teradata公司为例,虽然2010年经济大势不好,但是其业绩增长却非常显著。2010年上半年,Teradata的营业收入增长了14%,是其在过去10年间幅度最大的一次增长。之所以如此,一部分原因是,当危机来临时,公司试图通过数据分析找出问题、得出对策的需求更为强烈,另一部分则需要注意到Teradata公司自身所发生的变化。  与其他IT供应商动辄拥有成千上万甚至上百万的客户量不同,因为数据规模的前提限制,Teradata 手中的客户只有一千家左右。这一千家客户大都集中在能够产生巨量数据的电信、金融和互联网行业。要在这一千多家客户中开拓市场,提供持续的数据挖掘服务显然比简单的出售产品更适合作为一项长久的战略。而在过去一年中,Teradata 为了保证其顾问服务,其服务队伍规模已经扩充了超过30%。  另外非常值得一提的是,
中国市场在数据挖掘领域发展上的特殊性。与中国的基本国情相关,因为国内人口基数较大,引发的客户数据量也更为庞大。如果我们能乐观地看待这一问题的话,那么,不管是出于应对海量数据的需要,还是试图从这些数据中挖到金子的冲动,由此迎来一个“数据创新”的机会也并非不可能。

时间: 2024-09-03 17:31:32

社会化数据时代的八爪鱼式生存的相关文章

硬盘是云计算与大数据时代的核心硬件

 研究显示,2020年一年产生的数据将高达25ZB,即使仅存储这些数据就需要250亿个1T硬盘.大数据爆炸式的数据增长需要更大的存储空间,云存储这种新型的IT资源生态将成为大数据时代的首选解决方案.然而归根到底,一切数据的存储基础还是硬盘,硬件是数据的载体,大数据时代数据越来越多,需要的硬盘就越多. 需求促增长 硬盘在云时代焕发新的生机 硬盘是云数据中心的核心部件,不仅关系到云计算与大数据的服务.计算和性能,更关系到整个云数据中心平台的TCO.在云计算和大数据时代,爆炸式数据的增长对容量要求越来

《大数据时代》作者维克托·迈尔-舍恩伯格:爆发式创新 云中大数据如何赋能下一轮经济增长

5月18日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会在北京国家会议中心隆重举办.英国牛津大学教授.<大数据时代>作者Viktor Mayer-Schönberger(维克托•迈尔-舍恩伯格)受邀出席了本次大会,并在大会上做了主题为"爆发式创新:云中大数据如何赋能下一轮经济增长"的精彩演讲. 英国牛津大学教授.<大数据时代>作者 Viktor Mayer-Schönberger(维克托•迈尔-舍恩伯格) Viktor Mayer-Schönberg

云计算时代 呼唤集装箱式数据中心

文章讲的是云计算时代 呼唤集装箱式数据中心,云计算时代的来临,传统数据中心的建设面临诸多挑战:快速部署.节能减排以及提高运行效率等方面都备受关注,而集装箱式数据中心恰好能够解决这些问题,为云计算基础设施建设提供独具特色的解决方案. 效率为王,集装箱式数据中心可实现快速部署 随着信息化需求的快速增长,三网融合.云计算应用的发展,存储密度和计算速度的快速增长,服务器等设备的需求量不断增长.更新周期不断缩短,传统数据中心建设模式的不足越来越明显.而集装箱式数据中心从众多技术概念设计中脱颖而出,成为众企

沉浸式全景无缝拼接 巴可迎大数据时代

[中关村在线投影机频道原创]2014年3月13日,来自比利时科特里克的专业可视化系统专家巴可推出OverView无缝拼接OSV系列显示屏,带来更高的协作体验.这种弧形显示屏适合多种应用的可视化需求,从应急指挥中心,到作战室或多人讨论会议,再到更传统的公用事业.能源和过程控制的控制室应用.作为一整套解决方案中的一部分,OSV还配备了一套创新的控制器和协作管理系统--TransForm C,通过方便易用.带触摸屏的图形用户界面将所有内容布置到屏幕的最佳位置. 背投大型弧形拼接显示屏 面对海量信息数据

大数据时代:《小时代》的生存之道

由青春文学作家郭敬明编剧.导演的电影<小时代>以上映首日45%的排片占比,以及两天过亿.三天过两亿.六天过三亿的票房速度,位居内地电影的前三位.以"90后"为主体.数量庞大的郭敬明粉丝与众多业内人士,构成了泾渭分明的两个阵营.从电影本身到引发的热烈争辩,让<小时代>成为中国电影产业的一个特殊案例. 在全球电影观众趋向"低龄化"的背景下,青年观众无疑会成为未来中国电影的主力观众.这样的受众势必会影响到电影的创作趋向,他们的观影需求值得关注.引导

分析师:“大数据时代”的生存法则

在Talend Connect大会上,一名IT业内分析专家指出,企业若不抓住大数据带 来的机会,将很有可能在同行中遭到淘汰. Jeff Kelly是Wikibon.org的 首席研究员,也是SiliconANGLE的编辑.他说,诸如Hadoop和MapReduce这样的大 数据技术才刚刚起步:很多人由于技术有限或观念陈旧,仍然将它们拒之门外. 然而,在不久的将来,当软件使用门槛变低大量企业开始采用的时候,这些今天 已经采用了大数据技术的企业将再次占领高地.到那时,他们会具备更丰富的信 息来进行决

罗伯特·汉姆:在大数据时代生存

在最热的IT话题中,云和大数据的简化IT趋势和一体化理念,早在1996年美国CommVault(康孚)公司成立之初,就被其CEO 罗伯特·汉姆(N.Robert Hammer)确定为发展方向,并在多年后的今天得到市场和业界认可.现在,CommVault常被华尔街分析师们看作惠普.戴尔等IT巨头在软件业务上的收购目标.不过罗伯特·汉姆否认了收购一说:CommVault目前市值29亿美元,单股股价从最初3美分涨到65美元,汉姆认为已经没有公司"买得起" CommVault了.今年年初,这家

院士演讲:大数据时代的位置服务

 摘要: 中国工程院院士李德毅院士为大家带来<大数据时代的位置服务>的主题演讲,李德毅院士同时指出:大数据引发新理念,实践中的研究也许胜过研究中的实践,较多的数据也许胜过较好的算法  以"智慧城市与移动信息化"为主题的"第七届中国电子政务高峰论坛"于2013年6月23日在北京大学英杰交流中心阳光大厅隆重举办.本次论坛由工业和信息化部信息化推进司指导,北京大学信息化与信息管理研究中心主办,中央机构编制委员会办公室电子政务中心.北大CIO班教务办公室协办,C

茅明睿:大数据时代的城市规划【大数据100分】

我是一名非典型规划师,我很少做具体的规划设计项目,在北京规划院工作近15年,入行之初遇到了数字城市建设大潮,参与了数字北京的先发工程--数字绿化带,群里的@王国良的武大吉奥公司就是当年主要的合作伙伴. 2000-2010年从事的工作都围绕以地理信息系统.遥感.三维仿真.数据建库为核心的数字规划技术体系的构建,为北京的规划工作建立数据基础和GIS应用基础.2010年开始,基于10年的基础积累,我们开始把视线放到数据挖掘,城市定量研究或者说城市计算上来. 群里都是高大上的技术大牛.上市公司老总.参与