云上Hadoop之挑战

引言

在云上云行Hadoop,很多人担心性能。因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。如果单独把10台物理机虚拟化跑Hadoop,这肯定是有部分性能的开销的。但是如果在公共云上,情况就不是这样了。因为公共云虚拟化的开销最终是由平台方来承担的,其一是平台方采购机器有规模优势,其二平台方可以在保证虚拟机性能的情况超卖部分资源。
平台卖给用户8core32g的虚拟机就保证有这个规格的能力的。
结合云上的弹性优势,企业的总体成本是会下降的。

在云上运行Hadoop对平台方还是面临一些挑战的,下面主要讲述这些挑战及平台方怎么解决的。

云上Hadoop的挑战-Shuffle

Shuffle分为Push模式,Pull模式。Push模式就是直接通过网络发送到下一个节点,比如:storm、flink。Pull模式就是数据先存储在本地,再启动下一个节点拉取数据,比如:Hadoop MR、Spark。
在push模式下,主要瓶颈点是网络。在一般的云环境中,网络跟线下没有太多的区别,可以满足需求。
在pull模式下,主要瓶颈点是磁盘。在云环境中,会提供本地磁盘或者用SDD加速的方案。如下:

另外:
根据spark社区的报告,在机器学习等很多场景下,瓶颈点现在是CPU了

云上Hadoop的挑战-数据本地化

数据本地化含义是分析时,把计算移动到数据节点的。如果计算存储分离,则存在数据放在OSS中,需要从OSS远程拉取数据。一般情况下,认为这样会有性能问题。

当前,网络的带宽发展非常快:

从09年到16年对比,大约带宽提升100倍左右,让大家影响深刻的是家庭带宽从4Mbps到了100Mbps了,4G也流行起来了,笔者现在基本不在电脑上存放电影,直接在线看的。现在很多机房在做100Gbps点到点的带宽。磁盘本身并没有太大的吞吐量的提升。还可以采取压缩算法把存储量减少。在ETL场景下,往往只需要晚上运行数个小时,对性能本身不是太敏感;机器学习场景需要内存缓存数据;流式计算本身数据在移动的。
整体来讲,会随着带宽的增加、业务场景的实时化、多元化,数据本地化不是必须的。

云上Hadoop的挑战-自动化运维


作业的管理、任务编排、监控、报警这些基本功能都还好。Hadoop本身非常复杂,如果Hadoop本身出现点什么问题,则会影响作业的运行。
这些问题包括但是不仅限于:

  • Master挂
  • 各种日志清理等
  • 节点挂掉,自动补回
  • Datanode掉线处理
  • NodeManager掉线处理
  • Job运行监控报警
  • 负载过高监控报警
  • 节点数据均衡
  • 单节点扩容
  • 版本自动升级
  • 重要数据备份
  • Hbase等指标监控报警
  • Storm等指标监控报警


我们需要自动化诊断这些问题并在用户、平台的共同参与下把这些问题解决。

云上Hadoop的挑战-专家建议

  • 是否需要扩容
  • Hive SQL,可以给SQL评分,给出最优写法
  • 分析存储,比如:指明是否需要压缩;小文件是否过多,是否需要合并;访问记录分析,是否可以把冷数据归档处理
  • 分析运行时各种JOB统计信息,如:Job的map时间是否过小,运行时reduce是否数据倾斜,单个job是否有一些参数调整

这个主要是针对存储、作业调优的,优化性能之类的。在一般企业内部是没有这套系统的。云上可以做成一套这样的系统,帮助广大的企业。

版权声明

笔者微博:阿里封神 欢迎转载,但请保留原文地址

其它云上Hadoop之X系列见:

  • 云上Hadoop之部署结构
  • 云上Hadoop之最佳实践
  • Hadoop在云上之优势
时间: 2024-09-19 10:13:48

云上Hadoop之挑战的相关文章

云上Hadoop之优势

引言 在hadoop submit world上,hadoop创始人Doug Cutting谈未来hadoop的趋势为:新硬件特别特别是大内存的使用,在云上使用大数据系统.既然未来趋势是云,那么云上肯定有一些优势.我们在之前的篇幅中讲述了 <Hadoop在云上之挑战> 那么挑战的同时,也肯定有很多的优势的.有的读者可能会问,为什么没有劣势呢?其实我在挑战中就是讲述了一些劣势,在云上又怎么解决这些问题的.以下内容不是纯技术内容,不关心的同学请谨慎阅读. 云上Hadoop的优势 如果对E-Mapr

【Hadoop Summit Tokyo 2016】云上Hadoop——从专家的角度解释What、Why和How

本讲义出自SATO Naoki在Hadoop Summit Tokyo 2016上的演讲,主要从What.Why和How三个角度解释了在云上应该如何使用Hadoop,在Why方面,他分享了Hadoop运行在云上的好处:在What方面,主要分享了云上Hadoop的选项以及云上的Hadoop集群以及集群定制等内容:在How方面,主要分享了如何在云上部署Hadoop架构.

【Hadoop Summit Tokyo 2016】企业已经对于云上Hadoop集群做好了准备

本讲义出自Hemanth Yamijala在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hortonworks云数据平台以及其架构设计,并分享了Hortonworks如何帮助企业做好云数据存储的准备,以及如何帮助企业进行数据治理以及对于数据的可靠性和容错性进行保障.

云上运行 Hadoop 会面临哪些挑战

在云上运行Hadoop,很多人担心性能.因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差.确实,在云上运行Hadoop对平台方还是面临一些挑战的,下面主要讲述这些挑战及平台方怎么解决的. 作者:阿里封神来源:云栖博客|2016-06-02 14:15 收藏 分享 前言 在云上运行Hadoop,很多人担心性能.因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差.如果单独把10台物理机虚拟化跑Hadoop,这肯

从一台服务器到日PV过2亿,社交电商云集微店的云上生长

今年11月6日是社交电商领导者云集微店11·11全球精品狂欢节的首日,云集微店用日PV过两亿.每秒钟最大并发6万.日销售额超过2亿的惊人数据,展现了新零售的巨大爆发力.一家从一个程序员起步的创业公司,其系统架构如何极速成长以匹配业务的发展?11月22日,在2017广州云栖大会阿里云服务专场上,云集微店的技术总监资冰冰分享了这种极速生长的背后,云上架构的挑战.阵痛与成长. 和很多让人耳熟的创业故事一样,2015年,云集微店刚起步的时候,只有一个程序员,和阿里云上的一台ECS.一台RDS.资冰冰在云

【Hadoop Summit Tokyo 2016】云上SQL-on-Hadoop的状态

本讲义出自Nicolas Poggi在Hadoop Summit Tokyo 2016上的演讲,在演讲中首先介绍了BSC 与ALOJA以及PaaS服务概览,之后介绍了SQL基准以及PaaS服务的演进变化,最后分享了从云上的SQL-on-Hadoop中获取的经验.

【Hadoop Summit Tokyo 2016】云上的大象

本讲义出自Sanjay Radia在Hadoop Summit Tokyo 2016上的演讲,主要分享了基于云上的Hadoop架构设计以及解决方案,并分享了云上的共享数据存储相关内容以及如何通过使用Cache策略增强Hadoop的性能表现,以及如何保障云上共享数据的数据安全以及进行数据治理等相关知识.

从传统架构到云上数据,发生了哪些转变

 [51CTO.com原创稿件]在数据时代的今天,如何部署企业的大数据平台,充分挖掘数据.分析数据.发挥数据价值,成为摆在企业面前的重要难题.面对爆炸式增长的数据,传统的数据分析平台存在着诸多的问题,已经不能满足需求,借助云计算实现的云上数据分析平台,就能够非常灵活.轻松的实现企业的各种数据分析需求,并能够有效控制成本.这里,笔者就与大家简单的聊一下从传统架构到云上数据,到底发生了哪些转变. 首先,来分析一下传统数据分析平台存在的各种问题. 传统大数据分析平台面临的主要挑战 一)多租户支持.从H

规模化公共云上的顶级自动化工具

云计算不仅仅是虚拟基础设施的快速自助服务.开发人员和系统管理员正在寻找监督和管理规模化云计算的方式.本文是InfoQ关注计算资源动态池自动化工具和想法这一系列文章的一部分.如果您想获取该系列新文章的提醒,可以在这里订阅. 早期的云计算部署通常只涉及一两个员工针对特定实例进行的少量服务器的小规模采用.然而,今天我们看到了对公共云越来越广泛的采用同时,也看到了整个企业的不同员工对跨越所有云服务模式(IaaS,PaaS,SaaS)中大量功能的使用. 从早期阶段的创业公司到世界上最大的企业和政府部门,越