大数据的特点,作用及处理技术

要理解大数据这一概念,首先要从”大”入手,”大”是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、&#118alue和Veloc-ity),即体量大、多样性、价值密度低、速度快。

大数据特点

第一,数据体量巨大。从TB级别,跃升到PB级别。

第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。

第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。

第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的”大数据”不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。

 大数据作用

大数据时代到来,认同这一判断的人越来越多。那么大数据意味着什么,他到底会改变什么?仅仅从技术角度回答,已不足以解惑。大数据只是宾语,离开了人这个主语,它再大也没有意义。我们需要把大数据放在人的背景中加以透视,理解它作为时代变革力量的所以然。

变革价值的力量

未来十年,决定中国是不是有大智慧的核心意义标准(那个”思想者”),就是国民幸福。一体现在民生上,通过大数据让有意义的事变得澄明,看我们在人与人关系上,做得是否比以前更有意义;二体现在生态上,通过大数据让有意义的事变得澄明,看我们在天与人关系上,做得是否比以前更有意义。总之,让我们从前10年的意义混沌时代,进入未来10年意义澄明时代。

变革经济的力量

生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。大数据帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理。

变革组织的力量

随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的,是各种各样去中心化的WEB2.0应用,如RSS、维基、博客等。 大数据之所以成为时代变革力量,在于它通过追随意义而获得智慧。

大数据处理

周涛博士表示:大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。

大数据处理的流程

具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。

大数据处理之一:采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

大数据处理之二:导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

大数据处理之三:统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

大数据处理之四:挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。

时间: 2024-10-14 10:56:59

大数据的特点,作用及处理技术的相关文章

大数据时代如何评价一个NoSQL技术人员 - 产品和技术

大数据时代如何评价一个NoSQL技术人员 发布时间:2012.04.16 14:34 &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;    来源:CSDN     作者:CSDN 时至今日,"Big data"(大数据)时代的来临已经毋庸置疑,尤其是在电信.金融等行业,几乎已经到了"数据就是业务本身"的地步.这种趋势已经让很多相信数据之力量的企业做出改变. 在大数据技术大会

中国工程院院士谭建荣:工业大数据与定制化设计—关键技术与典型应用

5月5日,"2017中国工业大数据大会·钱塘峰会"在杭州国际博览中心举办.本届峰会以"数据驱动创新 融合引领变革"为主题,围绕工业大数据展开分享与交流.中国工程院院士.浙江大学教授谭建荣,以"工业大数据与定制化设计:关键技术与典型应用"为题探讨了自己的看法.   以下为嘉宾演讲实录: 各位领导,各位专家,大家上午好!十分高兴来到萧山区这么好的地方研究讨论中国工业大数据的峰会.前面有几位专家讲了大数据讲得非常精彩,都讲到要点上.对我最后一个人来讲,

大数据发展的趋势——3D可视化技术

在现在这个大数据爆炸的年代,横跨数个行业的大公司都开始巧妙地通过汇总数据来对数字.趋势和模式进行精确定位,这也是他们的服务改善的关键所在.但是伴随着数据的越来越繁琐和复杂化,管理这些数据和提取这些数据价值的组织面临着一个巨大的挑战.在过去的这几年里,越来越多的有价值的分析解决方案开始进入市场,等到2013年之后,3D可视化技术将会成为一种新的管理.分析和交互数据的模式吗? 今年早些时候,美国总统奥巴马总统也跳上了"大数据的马车",批准了美国国立卫生研究院.国防和能源部门以及美国地质调查

简述Ironfan在大数据下的作用

在Serengeti中,有二个最重要最关键的功能:一是虚拟机管理,另一个是集群软件安装配置管理,虚拟机管理就是在vCenter中为一个Hadoop集群创建和管理所需要的虚拟机,而集群软件安装配置管理则是在已安装好操作系统的虚拟机上安装Hadoop相关组件(包括Zookeeper,Hadoop,Hive,Pig等),更新配置文件像Namenode/Jobtracker/Zookeeper结点的IP等信息,然后启动Hadoop服务.Ironfan就是在Serengeti中负责集群软件安装配置管理的组

解析大数据时代的数据库集群技术

当今世界是一个信息化的世界,我们的生活中无论是生活.工作.学习都离不开信息系统的支撑.而信息系统的背后用于保存和处理最终结果的地方就是数据库.因此数据库系统就变得尤为重要,这意味着如果数据库如果面临问题,则意味着整个应用系统也会面临挑战,从而带来严重的损失和后果. 如今"大数据"这个词已经变得非常流行,虽然这个概念如何落地不得而知.但可以确定的是,随着物联网.移动应用的兴起,数据量相比过去会有几何级的提升,因此数据库所需要解决的问题不再仅仅是记录程序正确的处理结果,还需要解决如下挑战:

大数据时代的前沿颠覆性技术来了

在位于上地的中关村创业大厦,张春成拿出了自己的手机.手机屏幕上,马路上的行人来来往往,一旁的杨树叶在风中摇曳."这是我们公司门口高清摄像头拍的实时景象,随时就能用手机查看." 张春成是北京黔龙泰达科技发展有限公司的创始人.他所说的安装在高清摄像头上的解码器,利用的是公司在国内率先提出并研发成功的无损耗超低压缩图像.视频技术. 刚刚过去的一个月,凭借这个解码器及其背后的图像压缩技术,公司已经连续拿下了两笔上千万元的大订单.这项技术打破了国外在PDF.TIF为主的图形图像领域的压缩技术垄断

华为科学家解密:大数据是商业炒作吗? 未来技术趋势是什么?

作者:杨强,华人界首个国际先进人工智能协会(AAAI)院士:华为诺亚方舟实验室主任, 香港科技大学计算机系教授: ACM杰出科学家.下面是杨强对大数据行业三个热门问题的解答. 我第一次听到"大数据"这个词是2011年在新加坡举行的一次美国科学院大数据讨论会.因数据采集费用的急剧下降,导致大量数据的产生,这一现象首次成为关注焦点.当时对数据的急剧增长意味着什么没有统一看法, 唯一认可的就是把这一现象命名为"大数据". 今天,各行各业对大数据的理解各不相同.电信行业对&

大数据居首 盘点2012七大重要技术趋势

你随便问一个IT人士有关技术发展趋势,你可能都会得到一个白眼.毕竟,究竟怎样才算一个新的趋势呢?谷歌Wave吗?我们很少有人能够预测Windows 8是否会获得成功,或者出现另一个迭代版本. 然而,在过去一年中,确实出现了一些趋势.一些趋势(例如3D打印)花了一段时间才应运而生,一些趋势突然冒出来且席卷全球.下面我们总结了2012年7个最重要的技术趋势,这些技术趋势占据了各家媒体的头条,在某些情况下,甚至可能改变我们进行业务和管理IT世界的方式. 1.大数据占据舞台中心 分析大量的数据并不是新趋

英特尔大数据颠覆NBA体验 运动追踪技术案例

本文原作者:Robert Roble NBA 实施了一场革命性的.前所未有的体育技术升级.NBA 联盟在 30 个球队的比赛场馆安装了运动追踪系统.这个涉及全联盟的项目为各球队安装了经过许可授权的系统,即专有的 SportVU ICE 球队分析与追踪系统,该系统安装到每个比赛场馆的球员通道中. 这种前所未有的体育与技术的融合将让 NBA 各球队在 2013 赛季站在更公平的竞赛场上.新技术提供的数据将出现在 NBA.com.NBATV 和 NBA Game Time 应用中,新技术将随着新赛季的

详解开源大数据引擎Greenplum的架构和技术特点

Greenplum的MPP架构 Greenplum(以下简称GPDB)是一款开源数据仓库.基于开源的PostgreSQL改造,主要用来处理大规模数据分析任务,相比Hadoop,Greenplum更适合做大数据的存储.计算和分析引擎. GPDB是典型的Master/Slave架构,在Greenplum集群中,存在一个Master节点和多个Segment节点,其中每个节点上可以运行多个数据库.Greenplum采用shared nothing架构(MPP).典型的Shared Nothing系统会集