大数据调查:BigData迫使企业做出抉择

本文讲的是大数据调查:BigData迫使企业做出抉择,根据IDC的调查报告预测到2020年全球电子设备存储的数据将暴增30倍,达到35ZB(相当于10亿块1TB的硬盘的容量)。大数据浪潮的到来也为企业带来了新一轮的挑战。对于有准备的企业来说这无疑是一座信息金矿,能够合理的将大数据转换为有价值信息成为未来企业的必备技能。恰逢此时,CSDN专门针对企业相关人员进行了大规模问卷调研,并在数千份的调查报告中总结出现今企业大数据业务的现状。在此我们也将调研结果展示与此以供大家参考。

  大数据时代的数据格式特性

  首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构:

  ·结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询;

  ·半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由;

  ·非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。

  企业内部大数据处理基础设施普遍落后

  从调查结果可以看出,接近50%的企业服务器数量在100台以内,而拥有100至500台占据了22%的比例。500至2000台服务器则占据剩下28.4%的比例。可以看出面对大数据现今大部分企业还没有完善其硬件基础架构设施。以现阶段企业内大数据处理基础设施的情况来看50%的企业面临大数据处理的问题(中小企业在面对大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程)。

  但这只是暂时状况,“廉价”服务器设施会随着企业业务的发展逐渐被淘汰出历史的舞台,在未来企业基础架构体系的硬件选用上,多核多路处理器以及SSD等设备会成为企业的首选。Facebook的Open Compute Project就在业界树立了榜样,Open Compute Project利用开源社区的理念改善服务器硬件以及机架的设计。其数据中心PUE值也是领先与业内的其他对手。

  而在具有大数据处理需求的企业中52.2%的日数据生成量在100GB以下,日数据生成量100GB到50TB占据了43.5%,而令人惊讶的是,日数据生成量50TB以上也有4.4%的份额。数据量持续的增长,公司将被迫增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。对于急需改变自己传统IT架构的企业而言,传统的结构化数据与非结构化数据的融合,成了所有人关心的问题。

  企业面对大数据处理的挑战与问题

  现今大数据呈现出“4V + 1C”的特点。既Variety:一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别;Volume:通过各种设备产生了大量的数据,PB级别是常态;Velocity:要求快速处理,存在时效性;Vitality:分析和处理模型必须快速变化,因为需求在变;Complexity:处理和分析的难度非常大。

  从图中我们可以看出资源利用率低、扩展性差以及应用部署过于复杂是现今企业数据系统架构面临的主要问题。其实大数据的基础架构首要需要考虑就是前瞻性,随着数据的不断增长,用户需要从硬体、软件层面思考需要怎样的架构去实现。而具备资源高利用率、高扩展性并对文件存储友好的文件系统必将是未来的发展趋势。

  应用部署过于复杂也催生了大数据处理系统管理员这一新兴职业,其主要负责日常Hadoop集群正常运行。例如直接或间接的管理硬件,当需要添加硬件时需保证集群仍能够稳定运行。同时还要负责系统监控和配置,保证Hadoop与其他系统的有机结合。

  

  而多格式数据、读写速度(读写速度是指数据从端点移动到处理器和存储的速度)以及海量数据是企业面临大数据处理急需解决的技术挑战。众所周知随着大容量数据(TB级、PB级甚至EB级)的出现,业务数据对IT系统带来了更大的挑战,数据的存储和安全以及在未来访问和使用这些数据已成为难点。同时大数据不只是关于数据量而已。大数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。

  企业内部数据分析与挖掘工具应用现状

  云时代企业数据挖掘面临如下三点挑战。挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据时,目前并行挖掘算法的效率很低;多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战;异构数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。

  抛去价格因素之外可以看出反应速度慢、操作不方便、数据不准确、分析不准确这四项是企业数据分析与数据挖掘面临的主要问题。商业化解决方案固然成熟,但成本也是显而易见的。而具备在开源平台之上处理分析大数据能力的数据科学家则成为另外的一种选择。数据科学家具备专业领域知识并具备研究利用相应算法分析对应问题的能力,可帮助创建推动业务发展的相应的大数据产品和大数据解决方案。

  从调查结果中我们可以看出Hadoop占据了半壁江山,而同为开源的HBase也有将近四分之一的占有率。而商业化的数据分析与挖掘平台(如Teradata、Netezza、Greenplum等)总共只有13.9%的份额。短期来讲,开源分析将越来越广泛的使用,并且增长迅速。长期来看,混合技术的应用将在高度竞争的市场上出现,两者将同样有巨大的需求。可以预见的是,Hadoop作为企业级数据仓库体系结构核心技术,在未来的10年中它将会保持增长。

  随着云时代的到来,企业面临的应用方式更加多元化,通过云的手段提供海量数据挖掘的方法,提高了挖掘的效率,增加了挖掘的精度,更利于挖掘应用的推广以及专业的行业知识库的构建。同时收集、存储庞大的新型数据充满了挑战,然而分析这些数据的新方法才是帮助最成功企业甩开竞争对手的利器。

作者:李智

来源: IT168

原文标题:大数据调查:BigData迫使企业做出抉择

时间: 2024-10-26 12:36:58

大数据调查:BigData迫使企业做出抉择的相关文章

大数据调查报告 “BigData浪潮”迫使企业做出抉择

根据IDC的调查报告预测到2020年全球电子设备存储的数据将暴增30倍,达到35ZB(相当于10亿块1TB的硬盘的容量).大数据浪潮的到来也为企业带来了新一轮的挑战.对于有准备的企业来说这无疑是一座信息金矿,能够合理的将大数据转换为有价值信息成为未来企业的必备技能.恰逢此时,CSDN专门针对企业相关人员进行了大规模问卷调研,并在数千份的调查报告中总结出现今企业大数据业务的现状.在此我们也将调研结果展示与此以供大家参考. 大数据时代的数据格式特性 首先让我们先来了解一下大数据时代的数据格式特性.从

大数据能帮助美国企业做出更合适的衣服

一项于本(2017)年3月27日所公布的新战略伙伴关係,藉由分析美国多元复杂的消费族群的身形和尺寸,可能有助于成衣品牌和零售商经由大数据分析而做出更适合消费市场的衣服. BodiData Inc是一家专门从事3D身体测量的大型数据技术公司,依照该公司和成衣业谘询专家Alvanon之间的协议,Alvanon将BodiData的人体身材尺寸数据整合到人口统计数据库中. 该项协议使Alvanon分析人员能够立即使用世界上最大的.超过一百万个北美男性.女性和青少年身体测量数据的资料库. 反过来说,这些资

大数据调查:企业使用大数据现状

围绕着大数据的炒作可谓极其疯狂,这种炒作也在推动着大量的投资进入这一领域. 市场研究公司IDC预计,大数据技术及服务市场的年增长率为27%,到2017年将达到324亿美元.IDC称,大数据市场的这种增长比整体ICT市场增长高出6倍多. 然而尽管资金充裕,但是企业界在渡过了大数据的早期采用阶段之后是否找到了成功之路却并不清楚.为了寻找到明确的答案,研究人员调查了诸多企业的IT经理和管理人员,受访者们分享了他们组织的大数据计划.投资和重点细节. 由Network World主导实施,IDG五大企业出

大数据浪潮袭来 企业该如何选择NoSQL?

文章讲的是大数据浪潮袭来 企业该如何选择NoSQL,在当今这个大数据时代下,优秀的传统关系型数据库管理系统已经无法应对很多数据库处理任务.在今天的文章中,我们将一同探讨如何在各类NoSQL后备方案中找到适合自己的选择. 在过去几个礼拜里,我一直在芝加哥为自己的公司部署卫星办公室.虽然硅谷确实算得上是大数据供应商的摇篮,但芝加哥作为大数据用户及从业者们的根据地.重要程度同样不容忽视.无论是有心参与还是无意偶遇,这里的人们每一天都会跟大数据活动产生不少交集.在每一次大数据相关活动当中,我们都不可避免

揭开大数据面纱 加速提升企业业务价值

文章讲的是揭开大数据面纱 加速提升企业业务价值,当你还在犹豫上不上大数据时,你的竞争对手或许已经采用大数据技术获得了较高的业务增长,已经遥遥领先你的位置.大数据正潜移默化改变着一切,如果你仍然还在犹豫,未来显然将会被市场淘汰出局. 大数据"落地"挑战 大数据对于每个人每个企业并不陌生,近几年大数据一直都是热点,无认科技巨头SAP.IBM.阿里.百度等,还是企业用户都在关注大数据,对于一种新诞生的技术而言,或许大数据需要经历炒作的这样一个过程,但在今天当我们在提起大数据时,它已经不在像过

大数据应用快速普及 企业如何把握机遇

安防如何用好大数据 大数据是这个时代的标识,它表征了信息资源的有效开发和利用,从数据到信息再到资源,是应用价值和效益逐步清晰的过程.这包含了数据的采集.传输和存储.利用三个主要的阶段,可靠性.可用性和可恢复性贯穿始终.大数据的重要性已是共识,而大数据在实际应用场景中的落地是大数据真正为我们所用的前提,因为只有明确使用方法,才能充分挖掘和利用大数据对于智慧城市的作用和价值. 如何用好大数据 许多厂商在这方面都有自己的探索和心得.作为从基础设施层面开始提供端到端解决方案的厂商,英特尔的角色具有特殊意

SAP被评为“大数据”预测分析领军企业

本文讲的是SAP被评为"大数据"预测分析领军企业,2013年1月24日,SAP公司日前宣布:在Forrester Research 发布的"The Forrester Wave: Big Data Predictive Analytics Solutions, Q1 2013"(<The Forrester Wave:2013 年第一季度大数据预测分析解决方案>)报告中,SAP被评为该领域的领军企业.此次评选活动中,SAP 凭借强大的架构和战略被誉为市场

如何让“大数据”更好为企业运营服务?

天再一次塌下来了.这一次是"大数据"让IT部门如临大敌.正如街谈巷议的传闻一样,不管你走到哪里,关于"大数据"的讨论无处不在.在Google搜索这个词组,搜索结果超过13亿条.它甚至在维基百科拥有专门的条目.数据泛滥导致很多人得出结论:企业将不堪重负.这并不是说企业内部的信息量不会增长.相反地,企业内部信息量也难逃增长的命运.因为,大数据一直是个难题. 尽管不断有人声称,数据洪流将导致厄运来临,但IT行业却始终能够通过改进计算基础架构,使它们速度更快.容量更大.价格

大数据文化:传统企业互联网下的组织颠覆

书名:<组织设计> 作者:李书玲 出版社:机械工业出版社 <组织设计>的互联网改造启示 在世界的发展历程中,有两类企业被奉为圭皋,一类是以通用电气为代表的传统企业,他们管理严谨,逻辑严密,员工西装革履,遵守着严格的上下班制度,被誉为世界跨国企业的典范:另一类以谷歌为代表的互联网企业,他们行事不拘一格,办公活泼灵活,员工穿着自由开放,创造力十足,被称作互联网时代的代言人.但是,随着互联网时代的到来,大量以通用为标杆的企业逐渐陷入了迷思,到底什么才是真正的企业文化,组织设计又该何去何从