在内存计算时代,看阿里如何用Spark来进行实践与探索

本文PPT来自阿里云技术专家曹龙(花名:封神)于10月16日在2016年杭州云栖大会上发表的《阿里巴巴Spark实践与探索——内存计算时代》。

随着数据爆发式地增长,如何处理大量的数据成为一项挑战。在此背景下,许多数据处理技术应运而生,这其中典型的技术有数据治理、作业管理、分布式计算和分布式储存等等。同时,许多优秀的分布式引擎也被人们开发出来,比如Hadoop、Spark、Flink和 Tez。其中Spark的实力不容小觑。

Spark从1.0到2.0经历了重大的架构变化,其链路和核心得到了不断地完善。同时,Spark在阿里也得到了快速的成长,从10年阿里初步尝试Spark,使用10台机器,利用Spark Mllib进行机器学习,到12年的Spark on Yarn, 规模达到100-400台,使用Spark Streaming、Spark Graphx技术;从14年实现内存计算,到现在发展出了E-MapReduce for Spark,开始对公共云提供服务,这一系列的快速的发展是大家有目共睹的。目前,Spark已经具备了诸多优良的特性,如弹性伸缩、与业务系统无缝结合等等,并且已经被部署在许多不同的场景,如机器学习、流式计算、即时查询等等。将场景划分,针对不同场景所消耗的资源的差异来优化,使存储与计算分离,以达到高灵活性、低成本、高性能的目的,这便是Spark在云上的最佳实践。

展望未来,Spark将进一步发展。不久,Spark自身将支持ANSI SQL、其性能将接近MPP数据仓库、将落实“一切基于优化”的理念、增加对新硬件如大内存、GPU等的支持并且更友好地支持云,以拥抱内存计算新时代。

时间: 2024-10-25 20:04:24

在内存计算时代,看阿里如何用Spark来进行实践与探索的相关文章

内存计算时代已经到来

有几次当我们的团队走过街边的夜市,看到地上摆着的各种各样的小商品,有iPhone的贴膜.手机外壳,当然还有各种内存条和8G/16GB 的小优盘等,这时候总会有人喊出一句:"看!内存计算时代已经到来!"虽然这不能准确地表达内存计算时代已经到来,但是这基本上也说明了一个现象.在内存容量和CPU速度已经不再成为问题的时代,我们的传统计算架构是否应该有新的变化? 或许有人说内存计算技术,或者内存数据库本来就不是一个新话题.确实如此,就像从手持移动设备不断地更新中我们也能看到同样的历史.大家用了

【ATF】钱正平:大规模实时计算及其在阿里的应用与创新

2016 ATF阿里技术论坛于4月15日在清华大学举办,主旨是阐述阿里对世界创新做出的贡献.阿里巴巴集团技术委员会主席王坚,阿里巴巴集团首席技术官(CTO)张建锋(花名:行癫),阿里巴巴集团首席风险官(CRO)刘振飞(花名:振飞),蚂蚁金服首席技术官(CTO)程立(花名:鲁肃)以及来自阿里巴巴集团各部门多位技术大咖齐聚一堂,与莘莘学子分享阿里的技术梦想. 阿里云高级专家 钱正平正在分享<大规模实时计算及应用> 在下午的<云计算和大数据>分论坛中,阿里云高级专家钱正平(花名:布民)

毫秒级弹性伸缩,阿里的函数计算平台让开发者进入计算时代

4月26日,在云栖大会·南京峰会上,阿里云宣布函数计算(Function Compute)启动邀测.这是一个事件驱动的无服务器计算平台.用户按需调用.按需付费,无需管理服务器等基础设施,特别适用于应用场景中有明显波峰波谷的企业. 函数计算的推出是阿里云在Serverless领域的重要产品.当人们想使用计算资源时,再也不用先买一台计算机.开发者通过函数计算即可获取巨大计算资源,发挥自己的创造才能,我们可以真正从计算机时代进入计算时代. "我们希望函数计算可以让开发者能够更加轻量地利用计算,从而有更

《智能数据时代:企业大数据战略与实战》一3.8 内存计算

3.8 内存计算 各种组织开始认识到分析数据的价值,并在努力探寻进一步提高该价值的方法.对于许多人来说,获得更高价值的途径就是提高处理的速度.发现趋势并应用算法来处理信息以形成附加价值,但前提是该分析可以实时产生结果.然而,磁盘存储的群集和广域网连接的延迟使得通过BI解决方案很难实时取得结果.这样问题就在于实时处理所产生的价值能否抵消为追求更快技术速度而付出的额外费用.要找到这个问题的答案就必须确认实时处理的最终目标是什么,是为某个特定业务流程加快结果生成速度?满足零售交易的需求?还是获得竞争优

SAP HANA设计师:内存技术将引领新的计算时代

[TechTarget中国原创]我们所熟悉的哈索博士(Hasso Plattner)经常被称为是SAP HANA之父,但在HANA背后其实还有一个人,是他与哈索共同完成了HANA的最初设计,这个人就是亚历山大.蔡尔(Alexander Zeier).蔡尔曾在SAP公司和哈索博士研究机构长期任职,在此期间,他还与哈索博士共同出版著名的<内存数据管理>一书,被称为是内存数据库系统的最权威书籍. SAP HANA设计师 蔡尔目前的研究方向包括实时数据分析.预测分析以及大数据等.两个月以前,蔡尔离开了

在认知计算时代下 看IBM如何推动大数据分析的快速发展

近日,2015中国大数据技术大会在北京新云南皇冠假日酒店顺利召开,IBM在大会上阐述了面向大数据分析领域的IT基础架构的最新战略,同时分享了在大数据分析领域的最新成果. 认知计算时代已经到来 "认知计算"这个词,好像是在最近这几年经常被人提及."认知"这个词源自于心理学的概念,人类对于事物的认知,往往是个从"不知"到"了解",再到"理解"的过程.这也正像人们对于"认知计算"的接受过程一样

鸡蛋究竟宜不宜生吃——看阿里云计算怎么破?

9月12日虚拟化平台新产品的媒体沟通会上,不少记者对鸡蛋演示的demo很感兴趣也有一些疑惑.看看来自小白不菜的精彩分享吧. 鸡蛋究竟宜不宜生吃--看阿里云计算怎么破? 姐告诉你,算!鸡蛋里有一种物质,生吃会导致人早生华发,往小了说影响泡妞撩妹,甚至终身大事,往大了说,那可能会导致你光头谢顶,疾病缠身! 因为生鸡蛋清中含有一种抗生物素,叫"亲和素",是一种蛋白质,会防碍人体对鸡蛋黄等食物中所含的"生物素"的吸收.这个生物素非常重要,在脂肪合成.糖质新生等生化反应途径中

以服务为驱动 看阿里云重新定义云计算

本文讲的是以服务为驱动 看阿里云重新定义云计算[IT168评论]我们时常谈起云计算,那云计算是从哪个行业最先发起的呢?答案是互联网,互联网大应用推动了IT产业的变革.互联网的特点是用户需求变化非常快,要求基础架构.软件搭建的方式更加高效,更符合用户的实际需求.为了适应互联网的快速发展,以弹性.高扩展性.安全.低成本为特点的云计算诞生.紧接着,是大数据概念的提出,与云计算一起成为了互联网化时代下最受企业关注的新技术.在本文中,笔者将结合云计算概念.云服务界定.云安全.云与大数据的关系.产业生态.国

内存计算

阿里云数据事业部强琦为大家带来内存计算方面的内容,本文主要从软硬件趋势.分布式计算简史与内存计算开始谈起,包括HIVE.ADS的介绍,接着分析了统一的计算框架,最后讲解了Spark和Flink经典的系统技术分析.一起来了解下吧.   软硬件趋势 我们现在使用的主流硬件从多核CPU 32核/56核,内存192G /384G,以及定制机型下更大的内存,存储层级可以做到三T的SSD/11×6T的SATA硬盘,而网络拓扑和带宽从IDC内的万兆网卡到IDC间的专线光缆,还有大数据和它的复用程度,读写比比较