2016年杭州第四次spark meetup见闻

引言

spark发展非常快，2.0都快要发布了。在不同的城市都会有一些交流聚会，杭州有很多互联网企业，创业的氛围也非常好。大家每隔一段时间的交流还是必须的。不过最好还是时间上密集点，最好重点在于大家讨论，互相交流。
这次是挖财网的时金魁同学主办的，感谢时金魁同学，演讲稿下载链接

期待2.0发布，最近E-MapReduce团队在做benchmark，找时间单独对比下1.6与2.0之间的性能差距。

过程

有4场次的分享，分别为：

《Spark 2.0介绍》来自七牛的陈超
大致介绍了spark2.0的一些新的功能，包括Dataset、Structured Streaming、Tungsten Phase2。记得最清楚就是陈超说：目前Structured Streaming还不成熟，吹了很多牛，大家得等到2.x版本吧，不管怎么搞还是基于batch，想跟flink一样估计到3.0，不过hadoop 3.0还没有发布，那spark也不知道啥时间了。
笔者路上堵车了，所以也只听到了一半。PS：陈超别怪我写的不多，下面的图是借过来的。
现在网上分析2.0的文章比较多，笔者就不细讲了。
《spark mllib大数据实践和优化》来自阿里念钧

这个笔者是剧中人，还是比较熟悉的，经历过太多辛酸苦辣。念钧同学讲的比较好，从13年到16年虽然几度变化，但是还是在mllib上摸索。此次讲了阿里mllib从13年到16年的一些事情，比如：机器学习算法平台的建设（可以拖的图形化界面，把算法包装好），在mllib踩过的一些坑（基本是数据量大以后的事情），MPI跟mllib的对比（mpi性能高，灵活性稳定性不够）。目前大数据方面，会有越来越多人从事大数据分析、数据挖掘上，这是一个热点。
《Spark+CarbonData(New File Format For Faster Data Analysis》来自华为陈亮，spark作为分析引擎可以基于CarbonData获取更快的查询性能。CarbonData是一个新的存储格式，跟parquet、orcfile比较类似。大致就是在列式存储的基础上加上编码、倒排等index的技术。看了陈亮的演示，在100w条数据下，CarbonData比parquet快数倍的。不过现场有很多的问题，比如：写的性能怎么样？对于中文支持怎么样？cpu等有没有额外的开销？目前没有这方面的数据，最近进入了apache孵化器，期待后续有更加详细的数据。架构在于平衡，有利必有弊的。CarbonData 确实是一个很好的尝试，把传统DB的思想用来做大数据的数据存储格式也是很好的。详细的信息见：CarbonData
《Spark Streaming简要图解》来自挖财网时金魁（现场照图片，比较可惜，补一张pdf里面封面，请时金魁见谅），介绍了挖财网用了spark+mesos+kafka+elasticsearch+kibana+Hbase，提到了Hbase作为数据存储服务扛不住sparkStreaming的压力，后开启了Hbase的反压，选择了mesos原因是在做隔离方面更好及Marathon对长服务支持更好，kibana对于展示metric比较好，最后图解了 Spark Streaming，看源码这样画一个图还是很方便理解的，比较赞成说代码写的比较乱，这快笔者也看过。

最后大家互相留下来，加了个微信，点个赞。

总结

此次会议有spark2.0、mllib、streaming及CarbonData，内容还是很丰富的。
出来参加spark meetup除了听分享外，最主要还是互相认识下，大家最好不要听完就走了。

版权声明

笔者微博：阿里封神欢迎转载，但请保留原文地址

时间： 2024-09-08 07:55:21

2016年杭州第四次spark meetup见闻的相关文章

光棍节杭州只有四个婚姻登记处开放最好先网上预约

11月11日,光棍节即将来临,为了让适婚青年能够在这一天成功登记结婚,市民政局介绍,大家最好可以提前在网上先预约登记,以免当天排长队. 周日杭州仅四个http://www.aliyun.com/zixun/aggregation/31043.html">婚姻登记处开放 "光棍节"也是结婚的高峰日,不过,今年的日子有些特殊,大家要注意了,市民政局介绍,周日这天,只有江干区.西湖区.余杭区.杭州市涉外婚姻登记处照常上班办理相关手续,其他登记处都不开放. 杭州市涉外婚姻登记处

2016支付宝双十二口碑四宝怎么收集支付宝双十二口碑四宝玩法技巧

2016支付宝双十二口碑四宝怎么样双12期间,消费者用支付宝消费满1元即有机会获得"口碑宝宝".这些"宝宝"可转赠,可互换.只要集齐"吃宝"."喝宝"."玩宝"."乐宝"四种"宝宝",即可获得奖品. 支付宝双十二口碑四宝玩法技巧今天,支付宝口碑终于公布了今年双12的最新玩法.进入第三年的支付宝口碑双12今年有了全面升级,活动时长从24小时延长到三天三夜,活动商家首

【Spark Summit EU 2016】使用参数服务器在Spark上扩展因式分解机

本讲义出自Nick Pentreath在Spark Summit EU 2016上的演讲,主要介绍了什么是因式分解机(Factorization Machines)以及使用Spark和Glint构建的分布式因式分解机过程中使用到的Spark线性模型.参数服务器以及分布式因式分解机等内容,除此之外讲义中还介绍了目前的研究成果以及面对的挑战和未来的研究发展方向.

【Spark Summit EU 2016】使用Flame Graphs提升Spark 2.0性能的研究

本讲义出自Luca Canali在Spark Summit EU 2016上的演讲,他首先对于Spark 1.6版本和Spark 2.0版本的区别进行了分析,并介绍了Spark SQL的相关内容,SparkSQL无论在数据兼容.性能优化.组件扩展方面都得到了极大的方便,他还着重介绍了对于使用Flame Graphs提升Spark 2.0性能的相关研究.

【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学

本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使得数据科学在企业中变得容易实现以及目前企业中实现数据科学所面临的的挑战,并分享了在企业中如何使用Apache Zeppelin以及企业中数据科学的未来的发展规划.

Spark修炼之道（进阶篇）——Spark入门到精通：第四节 Spark编程模型（一)

作者:周志湖网名:摇摆少年梦微信号:zhouzhihubeyond 本节主要内容 Spark重要概念弹性分布式数据集(RDD)基础 1. Spark重要概念本节部分内容源自官方文档:http://spark.apache.org/docs/latest/cluster-overview.html (1)Spark运行模式目前最为常用的Spark运行模式有: - local:本地线程方式运行,主要用于开发调试Spark应用程序 - Standalone:利用Spark自带的资源管理与调度

Spark修炼之道（进阶篇）——Spark入门到精通：第十四节 Spark Streaming 缓存、Checkpoint机制

作者:周志湖微信号:zhouzhihubeyond 主要内容本节内容基于官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Stream 缓存 Checkpoint 案例 1. Spark Stream 缓存通过前面一系列的课程介绍,我们知道DStream是由一系列的RDD构成的,它同一般的RDD一样,也可以将流式数据持久化到内容当中,采用的同样是persisit方法,调用该方法后D

【Spark Summit EU 2016】TPC-DS基准测试下的Spark SQL2.0使用体验

本讲义出自Berni Schiefer在Spark Summit EU上的演讲,目前而言Spark SQL发展演进的速度非常迅猛,但是大多数情况下还是部署在传统的Hadoop集群上,为了尝试将Spark SQL使用在专为Spark设置的集群上,Berni Schiefer使用了最新版本的Spark SQL应对企业级标准的工作负载. 在分享中,Berni Schiefer还介绍了TPC-DS基准测试的相关内容,并且讲述了从配置操作系统.网络再到配置Spark等一系列工作的体验以及最终实验的结果和体

【Spark Summit EU 2016】Bing规模下的Spark Streaming

本讲义出自Kaarthik Sivashanmugam在Spark Summit EU上的演讲,主要介绍了在微软公司的Bing搜索每月上百万次搜索请求.每小时数十TB数据量.成千上万台机器组成数据中心.以及多个数据处理框架这样的规模下的Spark Streaming的应用.