阿里封神-大数据处理技术漫谈

以前一篇博客,从宏观描述了云梯1当时整体生态,年底了,笔者再梳理下软件栈,主要以开源软件为主,闭源不谈。大数据发展至今,开源软件层出不穷,也去解决了不同的问题,笔者试图去弄清楚这些,分门别类,后面也可以参照下。由于笔者知识面有限,难免会出现一些偏颇,不全,不正确,还请指正。后面也会有很多新的软件出现,一段时间后,软件栈也会变化的。

典型架构

很多的场景都是如上的,有web(包括无线、以前CS的模式、现在的BS模式等)、DB、cache、数据分析我就用了Hadoop了(代名词,或者泛指数据仓库了),另外就是一些传感器之类的,数据通道(有的简单如:jdbc等,有的比较复杂,保序不丢等),其中也简单列了一些中间件的软件。这张图组成了一家公司的基本架构形式,其中每个点都是一个领域。每个点、每条边、有成千上万的同学在奉献。其中DB、Hadoop一般沉淀了数据,包含了大部分的计算。

大数据软件栈


从软件栈上看,笔者简单列出了一些主流的软件,当然每层的软件肯定不仅仅这些。还有上一层是开发者平台,再上是BI,应用,此点就属于sass层,很多公司在此层创业,笔者没有列出。其中分布式计算这层软件最多,有两句话:业务数据化,就是业务系统的数据沉淀在大数据平台;还有数据业务化,也就是体现数据的价值,需要各种各样的计算引擎了。另外:从部署来看,大数据基础软件上云,虚拟化应该是一个趋势。存储、计算分离,分开部署是否是一个趋势呢? 随着网络带宽的提速及成本的降低,在一些场景下简化了复杂性,也未尝不是一种尝试。deploy层解决大数据的部署问题,更加弹性的添加释放资源,包括资源的隔离,跟Resourcemanager层有点类似;storge format数据存储的格式,列式存数为主;distributeFileSystem提供分布式文件的存储能力, 其实可以是如:亚马逊的S3,或者阿里的OSS;Resourcemanager提供大数据操作系统,可以把不同的engine调度起来,包括怎么做隔离等;distribute engine百花齐放,为不同场景提供了很多解决方案,一般应用系统会使用多个engine的,甚至也可以包括DB,如果下层的Resourcemanager做的足够优秀;script层一般降低使用大数据的成本,包括sql、pig等方式,这层是有表的概念的,我们可以跟存储结合起来,提供一个全局的元数据中心;data exchange提供不同系统之间数据流转的能力。

数据量与处理时间


在以时间、数据量的坐标抽上列出目前引擎大致擅长处理数据的坐标,应该还需要加上数据复杂度、成本等维度,才能更好的体现侧重点。没有哪个软件能解决所有的问题,能解决问题也是在一个范围内,即使是spark、flink等。目前存在有意思的事情是:greenplum类似的MPP引擎想处理大数据的需求,hadoop等被定位为大数据的引擎也想解决小数据的问题(列式存储、或者也加入一些索引)。图中右上角的想往左边靠,减少延迟,图中左下角的想往上面靠,增大能处理的数据量。

场景


笔者没有想到更好的方式组织此图,只能如此画出,每个领域或者场景内,又会细分出很多的子场景。

DB层不用去讲,每个网址必有一个DB的。NO-SQL产品就太多了,还分文档类型的,有读优写查、读差写优的等,其实也是DB。MPP其实也发展了很多年,比hadoop之类还要早,主要限制点就是扩展性、灵活性。greenplum开源后,此思潮又火了一把。search一直笔者认为是一个很有意思的产品,产品本身没有准确性的要求,是讲究准确率的。streaming是目前比较火的,特别是物联网、工业4.0的概念越来越火以后。graph也有相应的db,这里一般是分析型的,graph很多问题用ml也可以解决,或者认为其本身也是ml吧,场景比较多,一般就独立出来了。ml可以说现在也是热点之一,只要是数据创业公司,基本ml是其核心的,门槛也比较高。ETL个人感觉目前还是hive最适合的,能取得很高的吞吐,当然别的产品也可以跑的。 一些如GPU、量子计算、银河之类的就不讨论了。

spark、flink肯定是明星,他们能解决了好几个领域的问题。大数据的实时分析系统是否就是用MPP之类去实现,还是以一种更加杂揉的方式实现,目前我也不清楚。druid、kudu不知道放在哪里好,也许就是这种杂揉体,说不定会解决很多的问题,赢得市场。

说了这么多,是希望能成体系的梳理下现有的软件。每个软件做出来肯定是为了解决特定场景的问题,也会发挥一定的价值,万物有生有灭,也许下一代计算机的出现,如量子计算会颠覆现有的模式,到时候就是去HADOOP、超级计算机了,希望笔者还能看到。

版权声明

笔者微博:阿里封神 欢迎转载,但请保留原文地址

时间: 2024-12-31 02:57:03

阿里封神-大数据处理技术漫谈的相关文章

阿里封神谈hadoop生态学习之路

引言 当前,越来越多的同学进入大数据行业,有的是底层的技术,有的是工程,有的是算法,有的是业务.每个产品.都需要工程化的实现,以前,工程师都是操练着java/python/c等各种语言操纵中各类的软件,比如jquery,spring.mysql,实现产品的业务逻辑.在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop.hive.spark.hbase.jstorm等.笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1.ODPS等项目,目前在负责阿里云的HBas

运用大数据处理技术 做好国有企业思想政治工作

在全面深化企业改革和互联网全面普及的新形势下,国有企业思想政治工作面临着许多新情况,国有企业要勇于挑战自我.求新达变,积极推进思想政治工作理念创新.手段创新,要善于运用计算机大数据处理技术,积极构建大数据思想政治工作管控体系,确保职工队伍稳定,使企业思想政治工作焕发出勃勃生机,为企业改革发展提供强有力的思想保障. 运用大数据搭建思想政治工作新平台 针对思想政治工作面临的新情况,国有企业要勇于创新,积极确立"用数据链筑牢生命线"的新理念新思路,立足企业内部网络,运用大数据处理技术,创新做

为什么我们说海量大数据处理技术会火

大数据处理技术正在改变目前计算机的运行模式.我们已经从中获得了大量收益,因为正是大数据处理技术给我们带来了搜索引擎 Google.然而故事才刚刚开始,基于以下几个原因,我们说大数据处理技术正在改变着这个世界:* 它能处理几乎各种类型的海量数据,无论是微博.文章.电子邮件.文档.音频.视频,还是其它形态的数据. * 它工作的速度非常快速:实际上几乎实时. * 它具有普及性:因为它所用的都是最普通低成本的硬件 大数据为以下这些公司提供了解决方案:eBay.Facebook.LinkedIn.Netf

用好大数据处理技术

由于一些技术问题,我国的http://www.aliyun.com/zixun/aggregation/4194.html">社会信用体系还不完善.用好大数据处理技术,是建设诚信体系的一个重要选择. 在建设诚信体系过程中,如何使信用信息公开共享成为主要难点.大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度.用好大数据技术,发挥大数据的优势,当信用信息可以查询匹配,市场主体的信用状况可以识别,才能让失信

中国获得大数据处理技术话语权的机会有多大?

中国能否在未来3-5年内真正获得大数据处理技术的部分话语权,或许需要考虑以下几个方面的因素: (1)从原始基础发明专利技术入手,控制大数据处理技术的源头. 数据处理技术本质上是人的智力活动的结果,专利技术和方法是人设计的数学规则.计算机是在数学规则约束下的逻辑运行载体.对于一个逻辑运行载体来说,必定存在一个起始入口,而起始入口的数学规则就是原始基础发明方法,后续的应用发明方法必定受原始基础发明方法的约束.比如目前的计算机采用二进制规则以及图灵机模式规则,后续的任何方法都受这两个基础方法的约束.

浅谈大数据处理技术架构的演进

浅谈大数据处理技术架构的演进 任桂禾 王晶 新兴应用对大数据处理技术架构的实时性要求不断提高,这对传统的大数据处理技术架构提出严峻的挑战.必须转变架构满足大数据相关业务的实时性要求.文章介绍Hadoop离线处理架构的瓶颈以及Storm实时处理架构的优点,同时,结合实际项目中变更大数据处理技术架构的经验,阐述在实施架构变更过程中的关键技术,实验结果证明使用变更后的技术架构可以满足业务的实时性要求. 浅谈大数据处理技术架构的演进

盘点九大热门开源大数据处理技术

随着全球企业和个人数据的爆炸式增长,数据本身正在取代软件和硬件成为驱动信息技术行业和全球经济的下一个大"油田". 与PC.web等断层式信息技术革命相比,大数据的最大的不同是,这是一场由"开源软件"驱动的革命.从IBM.Oracle等巨头到雨后春笋般的大数据创业公司,开源软件与大数据的结合迸发出惊人的产业颠覆性力量,甚至VMware这样的过去完全依赖专有软件的厂商都开始拥抱开源大数据工具. 下面,我们就列举九大最热门的大数据开源技术供大家参考. 一.Hadoop A

大数据处理技术的趋势-五种开源技术介绍

大数据领域的处理,我自己本身接触的时间也不长,正式的项目还在开发之中,深受大数据处理方面的吸引,所以也就有写文章的想法的了.大数据以Hadoop以及"NO SQL"为主的Mongo和Cassandra等数据库技术在展现.现在数据的实时分析将可能容易一些.现在集群的转换将越来越可靠,20分钟以内就能够完成.因为我们用表来支持?但是这些是仅仅是一些比较新的,未开发的优点和不平凡的大机会超过了这些常规的猜想. 你知道么,在现在的市场上超过25万个开源技术出现了.围绕在我们身边,这些越来越复杂

业内人士浅析大数据处理技术应如何发展研究

大数据也常称为巨量资料,是一种主流的软件工具,涉及到的资料量规模比较大,需要在合理的时间内获取.管理.处理并整理,列好的帮助企业解决经营决策问题.大数据体现出了4V的特点,也就是Volume.Velocity.Variety.Veracity.大数据在当下十分热门,是IT行业里的火热词汇,其商业价值也在不断的被开发和利用,成为了业内人士争相追求的利润焦点. 虽在是上世纪八十年代时就有未来学家将大数据称赞为第三次浪潮的华彩乐章,但大数据成为互联网技术的流行词汇是从2009年开始的.来自美国互联网数