大数据处理的业务分类

  随着互联网、移动互联网以及物联网的迅速发展,我们已经进入了一个海量的大数据时代,而目前对于这些海量的数据分析处理已经成为了一非常紧迫而且大的需要。

  Hadoop的伸缩性、健壮性、计算性能和成本有着无法代替的优势,事实上已经作为了当今互联网企业最主流的大数据处理平台。

  大数据处理的分析分类

  Hadoop平台对于业务的针对性相当强,为了能够让你了解是否和你的业务符合,现在从几个角度来将大数据处理业务进行分类,根据需求的不同选择不同的数据分析架构。

  根据数据分析的实时性,主要分为离线数据和实时数据分析

  实时数据分析处理主要是用在金融、互联网等行业,在需求上一般都是返回上亿的数据处理,以达到不影响用户体验的目的。为了满足这种需求,可以对于传提供的数据组库进行精心的设计,并组成并行处理集群,还可以采用一些内存计算平台,比如HDD的架构,但是这样都会提高软硬件的成本。对于目前比较心的实时海量数据的分析工具主要为EMC的Greenplum、SAP的HANA等。

  针对于数据处理返回时间要求没有这么高的应用,蔽日离线统计分析处理、机器学习、搜索引擎的反响索引计算等,一般都采用离线分析的方式。通过采集数据工具将日志数据导入到数据分析平台里。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。

  根据大数据的数据存储量分为内存级别、BT级别、海量级别三种

  内存级别主要是数据量最大值在集群内存的范围内。不要小看内存的容量,Facebook的缓存在内存里的数据就有320TB之多,而目前PC服务器的内存也可以超过一百个G。因此对于内存级别采用内存数据库,可以将热点数据库常驻在内存里面,从而获得迅速的分析能力,对于实时业务分析非常合适。下图就是是一种实际可行的MongoDB分析架构。

  

  MongDB大集群在稳定性上面存在一些问题,会发生一些周期性的堵塞以及同步失败,但依然可以作为一种潜力很大而且可以用于告诉数据处理的NoSQL。

  BT级别主要是针对那些内存太大的数据量,一般可以将其放到传统的BI产品和专门设计的数据库里面进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。种类繁多,就不具体列举了。

  海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。海量数据级别的优秀企业级产品也有很多,但基于软硬件的成本原因,目前大多数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapReduce进行分析。本文稍后将主要介绍Hadoop上基于MapReduce的一个多维数据分析平台。

时间: 2024-09-20 11:57:16

大数据处理的业务分类的相关文章

高速公路视图大数据处理应用探讨

近年来,随着高速公路通车里程的迅猛增长和车流量的快速增加,高速公路运营管理中暴露的新情况.新问题也逐年增多,特别是逃漏通行费问题,给正常运营秩序带来较大的冲击.为了解决偷逃漏费.路径识别等业务需求,其中在高速公路收费卡口逐步进行了监控高清化与智能化改造.在视图智能化处理方面将面临以下几个问题: 如何建立一个安全.实时.有效.智能化的视图大数据系统处理系统,利用车辆视图"多特征识别"真正满足高速公路偷逃漏费稽查工作高时效.高正确率要求; 如何建设一个适合高速公路场景高性能计算平台,实现大

大数据处理系统是一个IT工具,还是业务系统呢?

对于企业的业务人员,特别是数据科学家人群来说,Informatica的Intelligent Data Platform不仅是一个智能化的大数据预处理工具,而且可以像业务系统一样为企业带来直接的价值. 互联网企业通常会强调细节和微创新,把产品的某一项功能做到极致,借此牢牢吸引大量用户.但是企业级厂商则不同,它们更倾向于将产品平台化.平 台化的好处是可以把尽量多的功能集成在一起,方便部署与管理,而且可以借平台屏蔽底层架构的复杂性.软件厂商尤喜平台化,比如数据保护厂商有数据保护和统 一管理平台,大数

Spark大数据处理系列之Machine Learning

本文是<Spark大数据处理>系列的第四篇,其他三篇:Spark介绍. Saprk SQL和 Spark Streaming . 最近几年,机器学习.预测分析和数据科学主题得到了广泛的关注.Spark的机器学习库(Spark MLlib),包括各种机器学习算法:协同过滤算法.聚类算法.分类算法和其他算法. 在前面的<Spark大数据处理>系列文章,介绍Apache Spark框架,介绍如何使用Spark SQL库的SQL接口去访问数据,使用Spark Streaming进行实时流式

从理论到实践的剖析,一网打尽13款开源Java大数据处理工具

什么是大数据?你可能会问; 更重要的是为什么它是在几乎所有业务领域的最新趋势?由于事实上"大数据"是一个非常简单的术语 - 它正是它说 - 一个非常大的数据集.有多大?确切的答案是"一样大,你能想象"!这个数据集怎么能这么大规模大吗?因为数据可能来自任何地方:RFID传感器来收集流量数据,用来收集气象信息的传感器,从手机的GPRS数据包,社会媒体网站,数码照片和视频,在线购买交易记录你的名字!大数据是一个巨大的数据集可能包含从产生数据,,当然前提是这些信息是我们感兴

大数据处理与分析方法解读

越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素.基于此,大数据分析的方法理论有哪些呢? 大数据分析的五个基本方面 PredictiveAnalyticCapabilities(预测性分析能力) 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断. DataQualityandMaster

如何低成本、高效率搭建Hadoop/Spark大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键. 为了让用户以最简便地方式享用阿里云全球资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,近日,阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,单实例提供最高56核CPU,224GB内存,168TB本地盘容量,5GB/S总吞吐,PPS达120万+.这对Hadoop/Spa

省时省事省力 巧用阿里ECS D1构建大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键.   为了让用户以最简便地方式享用阿里云全球云资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,阿里云在云栖大会·成都峰会上正式推出了Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,充分满足泛互联网行业.金融.电商.政企等行业等搭建大数据存储与计算分析平台的要求,真正意义上做到了"省时省事省力

In-Stream Big Data Processing译文:流式大数据处理

转自:http://blog.csdn.net/idontwantobe/article/details/25938511  @猪头饼 原文:http://highlyscalable.wordpress.com/2013/08/20/in-stream-big-data-processing/ 作者:Ilya Katsov 相当长一段时间以来,大数据社区已经普遍认识到了批量数据处理的不足.很多应用都对实时查询和流式处理产生了迫切需求.最近几年,在这个理念的推动下,催生出了一系列解决方案,Twi

运用大数据处理技术 做好国有企业思想政治工作

在全面深化企业改革和互联网全面普及的新形势下,国有企业思想政治工作面临着许多新情况,国有企业要勇于挑战自我.求新达变,积极推进思想政治工作理念创新.手段创新,要善于运用计算机大数据处理技术,积极构建大数据思想政治工作管控体系,确保职工队伍稳定,使企业思想政治工作焕发出勃勃生机,为企业改革发展提供强有力的思想保障. 运用大数据搭建思想政治工作新平台 针对思想政治工作面临的新情况,国有企业要勇于创新,积极确立"用数据链筑牢生命线"的新理念新思路,立足企业内部网络,运用大数据处理技术,创新做