2016中国spark技术峰会见闻摘要

5-15号笔者参加了2016中国spark技术峰会,各演讲嘉宾分享了很多spark实践经验,本文整理了笔者印象比较深的内容,ppt详见峰会ppt

《spark and yarn :better together》

Hortonworks技术专家邵赛赛分享了spark如何更好地跑在yarn上,主要以下三点:

  • Better use the resources
  • Better run on cluster
  • Easy to debug

Better use the resources
使用资源讲了计算内存和CPU,内存有几个公式,要注意不要 将spark executor的内存总和分配的太接近容器内容,要给堆外内存留一些空间:

  • container memory = spark executor memory + overhead memory
  • yarn.scheduler.minimum-allocation-mb <= container memory <= yarn.nodemanager.resource.memory-mb
  • container memory will be round to yarn.scheduler.increment-allocation-mb

cpu有个公式是container cores <= nodemanger.resource.cpu-vcores,yarn可以用cgroup做物理隔离

Better run on cluster
hadoop 2.6支持给节点打标签label,可以让spark调度到你指定的节点上。

spark支持动态申请或释放executor,对于长期运行的应用很有用。可以通过以下的配置打开动态 资源分配

spark.streaming.dynamicAllocation.enabled true
spark.shuffle.service.enabled true
<property>
<name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
<value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>

要想保证集群的高可用,应该配置关键节点自动重启,RM应该配置yarn.resourcemanager.ha.enabled,yarn.resourcemanager.recovery.enabled,NM应该配置yarn.nodemanager.recovery.enabled (hadoop 2.6)

Easy to debug
${yarn.nodemanager.local-dirs}/usercache/${user}/appcache/application_${appid}/container_${contid} 该目录底下有详情的运行参数信息,可以用来方便的debug排查问题。

《Spark Streaming在腾讯广点通的应用》

腾讯高级软件工程师林立伟分享了spark streaming的实践,主要是用好spark steaming的特性,以及如何在生产中做优化。

特性

exactly-once
spark streaming支持exactly-once语义,一批数据要么全部成功要么全部失败,不会重复,可以用来做实时准确数据转义,确保最终输出的数目和输入是一致的。还可以应用于反作弊+计费这种不能重复计算的业务。

可靠状态
RDD天然支持中间 结果持久化,失败重试这些面向状态的可靠保证,可以用来做跨batch的聚合,做pv/uv计算,记录去重,微量实时更新的业务。

快速batch调度
spark streaming是由driver/jobscheduler进行调度,跟Mapreduce的调度相比,调度间隔更短,进程/线程常驻无启动时间 ,可以用来做数据指标监控,未成功数据快速重试这种数据量小,调度速度要求快的业务。

优化经验

•(1) 增加 Memory Back Pressure
•(2) 为 Spark Spark 增加新特性(无需编译 Spark Spark Spark 优化)
•(3)SparkSQL API > RDD APIAPI > RDD APIAPI
•(4) async execution within a task
•(5) try-cacth
•(6) concurrentJobs开启
•(7) Spark 远程调试

  • 监控executor的内存使用,动态调整receiver接收速率,避免OOM。
  • 增加新功能可以u编译spark工程,直接修改源文件**scala,运行参数增加spark.driver/executor.userClassPathFirst=false; spark.driver/executor.extraClassPath=app.jar。
  • sqparksql运行更快,因为做了很多逻辑优化,内存占用更少,支持逻辑缓存,codegen执行优化。
    spark 1.x用dstream.foreachRDD{rdd => rdd.toDF().select...},spark 2.x用spark. ... . stream. ... . startStream().
  • 使用线程池加异步的方式,提高task 处理速度,可以同时批处理多个。
  • 有些task的错误,比如could not compute split,在driver端catch,会提高系统健壮性
  • 设置spark.streaming.concurrentJobs = n,同时执行n个output,一般1个batch对应1个output提高系统处理能力。

《Dataset in Spark SQL》

范文臣, Databricks 软件工程师。主要讲了DataSet的好处,更快,api更易用。

RDD通用性高,能支持各种特性,但不能检查sql的语法格式,不能做到编译时语法检查。1.6开始支持的DataSet,能够在编译时检查语法和字段错误,可以做到类型安全检查。

spark 2.0统一了DataSet和DataFrame,可以用 Dataset[Row] = DataFrame转换。

DataSet和常见的java,kyro相比序列化快,DataSet和RDD相比,内存占用更小,复杂sql运行更快 。但如果是简单操作,rdd会更快,因为没有优化空间,RDD不需要序列化节省了时间。

时间: 2024-09-28 15:10:49

2016中国spark技术峰会见闻摘要的相关文章

2016中国数据加速峰会 好戏不容错过

11月2日-3日,2016中国数据加速峰会(China Data Summit 2016)将在北京朝阳门悠唐皇冠假日酒店隆重举办,此次大会将聚焦在云计算.大数据.物联网.智慧城市大背景下的数据存储.数据加速.数据分析.数据利用等与数据有关的话题,邀请来自传统企业级用户.大中型互联网企业及新兴行业的演讲者,分享.传播其在数据相关业务上的知识经验与心得体会. 在本次峰会上,主办方WatchStor将邀请百度.阿里巴巴.腾讯.中国电信.中国石油.奇虎360.华中科技大学.网易研究院的数十位重量级嘉宾分

2016中国云计算生态系统峰会隆重举行

2016年7月28日,中国云计算市场的一大盛事--2016中国云计算生态系统峰会,在北京国家会议中心隆重举行.500多家中国云计算生态系统的企业,参加了本次盛会.         中国云计算生态系统峰会,由商业伙伴咨询机构主办,已经于2014和2015年成功举办了两届.该峰会旨在促进国内云计算企业之间的交流合作,为中国云计算生态系统的建设贡献力量.  2016Cloud500闪亮登场 商业伙伴咨询机构总经理国秀娟致辞           在本次峰会期间,中国云计算500强,即Cloud500榜单

2016中国容器技术应用落地调研报告解析

本文讲的是2016中国容器技术应用落地调研报告解析[IT168评论]近日, IT68携手ChinaUnix.ITPUB,共同对中国容器技术应用落地情况展开调研.通过对有效样本信息的汇总整理发现,越来越多的企业开始重视容器技术的应用,但是由于容器技术还不够成熟,所以大部分的企业还停留在观望阶段.但是由以下调查数据可以看出,容器技术未来经过技术积淀与市场培育,将会以惊人的速度被企业拥抱. 以下是本次调研的详细数据整理: 本次通过对参与调研者的行业分布分析可以看出,超过5成的参与者所属行业是传统行业,

2016中国容器技术调研报告全景解读

 经过容器技术的发展,以及国内各家公司的积极实践,国内用户对于容器技术的接受度有所提升,近87% 的用户表示考虑使用容器技术,这相比较于四个月前的调研结果,接受比例有了明显增加 容器服务部署速度快,开发.测试更敏捷.提高系统利用率,降低资源成本的核心优势,依然是用户选择它的主要原因 但与此同时,缺乏Docker相关经验.缺乏生产环境成功案例和成熟经验是困扰绝大部分观望用户的问题,这还需要业界同行持续不断的共同努力 同时绝大多数用户将Docker技术和云战略结合在一起,70% 将容器用于公共云,

2016中国容器技术调研报告:逾八成用户选择拥抱

阿里云容器服务团队发布了一份关于国内企业使用Docker容器技术的调查问卷,其调查结果非常值得业内关注. 调查发现,国内绝大部分用户都在关注Docker,而且有不少行业用户在生产环境中实践容器技术了.在接下来的6个月,80%用户会考虑使用容器技术,可以说,容器技术的前景非常广阔.但是,由于容器技术目前市场上缺乏成功的生产级使用案例,以及容器技术本身存在的一些问题,不少用户还处在评估和测试阶段. 以下是本次问卷的详细调查报告: 本次调查收到了349份有效调查问卷,其中近五成来自开发主管或工程师,运

2016年北京中国云计算技术大会见闻

概述 笔者有幸受邀请参加中国云计算技术大会,感谢主办方CSDN.此次大会有3天,第一天全部为topic,随后分为了若干个场次,有<Container技术峰会>.<大数据核心技术与应用实战峰会>.<云计算核心技术与架构>,第三天为<中国Spark技术峰会>.<OpenStack技术峰会>.<亚马逊AWS专场>,笔者基本一直在<大数据核心技术与应用实战峰会>与<中国Spark技术峰会>场次. 由于笔者关注在大数据方

2016中国存储峰会:论道新存储、探讨新常态、展望新应用

12月9日,由DOIT传媒.存储在线联合主办的2016中国存储年度峰会在北京开幕.本届峰会以"新存储.新常态.新应用"为主题,吸引了来自政.企.产.学.研.媒体各方的共同关注.不仅有国家大基金高层领导发言的首次亮相,更有企业用户与服务商联盟坐在一起共话未来云形态,SNIA(全球网络存储工业协会)荣誉主席的现场助阵,中国计算机学会存储专委会的现场布道等等,以及上百位存储界的顶级学者专家.数百位产业精英和企业用户出席.大家在一起论道新存储.探讨新常态.展望新应用,从超融合技术.闪存应用技术

高能预警!各路大神正火速奔赴8月WOT2016 移动互联网技术峰会

2016年8月26-27日,由51CTO.com主办的WOT2016移动互联网技术大会将在北京珠三角JW万豪酒店拉开序幕.届时,预计将有超过1000名企业技术管理.移动开发和技术创业人员共赴一堂,与各路技术大神.行业领袖与行业领袖共同学习,捕捉移动互联网技术趋势,深入探讨在技术进步的影响下,下一波移动互联网的发展方向. 作者:于雪来源:51CTO.com|2016-07-11 10:49 收藏 分享 不可否认,一个漫及全世界的移动互联网时代已经到来!移动互联网技术以其始料未及的发展速度在各行各业

大数据“小时代”中国技术峰会强势来袭

文章讲的是大数据"小时代"中国技术峰会强势来袭,今年全国普通高校毕业生规模高达699万,2013年的夏天被称为"史上最难就业季".事实果真如此吗?笔者认为,大学生找一份温饱的工作显然不难,难的是找一份适合自己的好工作.什么样的工作是好工作?这个问题仁者见仁智者见智,不过,薪水待遇绝对是衡量工作好坏与否的一个重要指标. 权威调查机构Dice Tech的2013 薪资Top 100调查显示,以Hadoop为首的大数据傲视群雄,成为了最赚钱的行业.换而言之,Hadoop无