开源大数据周刊-第61期

EMR资讯:

  • 在北京举行的Strata Data 会议上,EMR团队的木艮进行了《Hadoop遇到云上对象存储——实现原理、陷阱和性能优化》的主题分享
  • EMR + ECS D1机型的数据高可靠方案进行中,8月底将会正式提供服务。
  • EMR团队将会在Hadoop上进行改造,支持阿里云的主子账号的AK认证访问Hadoop体系。

资讯

2017年7月13-15日,全球最顶级大数据会议Strata Data Conference在京成功举办。Strata大会由O'Reilly Media和Cloudera联合举办,被《福布斯》杂志誉为“大数据运动的里程碑”。

今日头条用了短短5年时间,成为移动端新闻媒体的独角兽,2016年末,完成10亿美金D轮融资,估值近110亿美元,成功挤入互联网第二梯队。如一句老话所说,世上没有平白无故的成功,当了解了今日头条如何打磨产品功能和交互设计后,笔者发现其成功是必然的,也是有迹可循的,这一切都源于自上而下的数据化思维。

本文对Hive、Impala、Shark、Stinger和Presto这五类主流的开源大数据查询分析引擎进行简要介绍以及性能比较,最后进 行总结与展望。

技术

同程旅游 (LY.COM) 是一家专业的一站式旅游预订平台,提供近万家景点门票、特价机票、出国旅游、周边游、自驾游及酒店预订服务 ; 专业旅游线路服务。全年公司服务人次超过 3 亿。目前同程旅游各个业务线,如:国内国际酒店,机票,火车票,会员,商业智能,分析等等都使用实时计算平台来构建实时类系统。

有赞使用storm已经有将近3年时间,稳定支撑着实时统计、数据同步、对账、监控、风控等业务。订单实时统计是其中一个典型的业务,对数据准确性、性能等方面都有较高要求,也是上线时间最久的一个实时计算应用。通过订单实时统计,描述使用storm时,遇到的准确性、性能、可靠性等方面的问题。

Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。
SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。

Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。

欢迎入群技术交流!

云HBase微信交流群请加:g418615



版权声明:信息都是来自互联网,如果侵权,请联系我们,我们负责删除。

阿里云E-Mapreduce团队出品

时间: 2024-08-29 04:58:33

开源大数据周刊-第61期的相关文章

开源大数据周刊-第12期

阿里云E-Mapreduce动态 E-Mapreduce团队 1.3.4版本 (已经发布) 升级jdk到1.8 升级Hadoop到2.7.2 添加python2.7.1及python3.4版本 添加numpy库 支持Presto.phoenix.jstorm.oozie 支持Hadoop跟Hbase混合部署 支持深圳.上海机房 1.4版本(正在研发): 用户执行计划及集群运行状态自定义报警 1.4.1版本 集群整体运行情况的仪表盘 集群状态监控报警 资讯 5W1H(六何分析法)全景洞察大数据 我

开源大数据周刊-第15期

阿里云E-Mapreduce动态 E-Mapreduce团队 1.4版本(已经发布) 作业运行失败报警 作业并行提交 添加sqoop.shell类型的作业 1.4.1版本(正在研发) 完善失败报警 完善定时任务,增加小时.分钟定时任务 1.5.0版本 (正在研发) 集群整体运行情况的仪表盘 集群状态监控报警 1.5.0版本 交互式查询(支持hive.spark) 资讯 中国大数据发展10大趋势5大挑战 中国大数据发展10大趋势5大挑战,如:大数据的首席数据官开始崛起.可视化推动大数据平民化.智能

开源大数据周刊-第13期

阿里云E-Mapreduce动态 E-Mapreduce团队 1.3.4版本 (已经发布) 升级jdk到1.8 升级Hadoop到2.7.2 添加python2.7.1及python3.4版本 添加numpy库 支持Presto.phoenix.jstorm.oozie 支持Hadoop跟Hbase混合部署 支持深圳.上海机房 1.4版本(正在研发): 用户执行计划及集群运行状态自定义报警 1.4.1版本 集群整体运行情况的仪表盘 集群状态监控报警 资讯 从Hadoop Summit 2016看

开源大数据周刊-第17期

阿里云E-Mapreduce动态 E-Mapreduce团队 1.4版本(已经发布) 作业运行失败报警 作业并行提交 添加sqoop.shell类型的作业 1.4.1版本(已经发布) 完善失败报警 完善定时任务,增加小时.分钟定时任务 1.5.0版本 (正在研发) 集群整体运行情况的仪表盘 集群状态监控报警 1.6.0版本 交互式查询(支持hive.spark) 资讯 大数据投资人必读:中国大数据发展与投资分析报告 随着大数据蕴涵价值的逐步释放,使其成为IT信息产业中最具潜力的蓝海.大数据正以一

开源大数据周刊-第16期

阿里云E-Mapreduce动态 E-Mapreduce团队 1.4版本(已经发布) 作业运行失败报警 作业并行提交 添加sqoop.shell类型的作业 1.4.1版本(正在研发) 完善失败报警 完善定时任务,增加小时.分钟定时任务 1.5.0版本 (正在研发) 集群整体运行情况的仪表盘 集群状态监控报警 1.6.0版本 交互式查询(支持hive.spark) 资讯 Apache Spark 2.0.0 发布,APIs 更新 该版本主要更新APIs,支持SQL 2003,支持R UDF ,增强

开源大数据周刊-第14期

阿里云E-Mapreduce动态 E-Mapreduce团队 1.4版本(正在发布): 作业运行失败报警 作业并行提交 添加sqoop.shell类型的作业 1.4.1版本 集群整体运行情况的仪表盘 集群状态监控报警 资讯 创业公司如何构建数据指标体系? 对于庞大的创业群体和数据运营新手来说,这将是一篇非常具有参考价值的干货贴,作者将在文章中深入阐述两套构建指标体系的方法,即关键指标法和海盗指标法. 怎样选择数据平台的建设方案 文中对比了MPP.Hadoop传统的数据库等不同方案的优缺点,值得一

开源大数据周刊-第60期

资讯 Apache Spark 2.2.0正式发布 Spark 2.2.0 持续了半年的开发,近期发布了2.2.0版本,此版本是 2.x 版本线的第三个版本.在这个版本 Structured Streaming 的实验性标记(experimental tag)已经被移除,这也意味着后面的 2.2.x 之后就可以放心在线上使用了.除此之外,这个版本的主要集中点是系统的可用性和稳定性.关于 Apache Spark 2.2.0 的详细新功能介绍请参见文章 <网络安全法>实施一个月,大数据创业进入迷

开源大数据周刊-第36期

[阿里云E-MapReduce动态] 1.6.0版本上线,增加交互式工作台.支持独享机型 国际站上线,海外用户可以购买E-MapReduce服务 资讯 看行业观察家和技术专家对大数据在2017年的发展预测 业界权威市场研究和咨询机构Ovum公司日前估计,大数据市场规模将从2016年的17亿美元增长到2020年的94亿美元.随着市场的增长,企业的挑战正在转变,对人们的技能需求正在改变,而大数据服务供应商的景观也在风云变幻.2017年将是大数据专业人士更为忙碌的时刻.文章介绍了来自相关行业观察家和技

开源大数据周刊-第38期

阿里云E-Mapreduce动态 E-MapReduce 2.3.1镜像版本(已发布) 基础镜像CentOS 6.5内核版本升级到2.6.32-642 支持Hadoop YARN Job failover 资讯 大数据的寒冬已至,谁将倒下,谁成巨人? 本文就近期百分点和亚信数据内部人事调整的新闻出发,提出了"大数据寒冬已至"的观点,而过度竞争是大数据寒冬的主要因素.对于未来大数据公司如何生存,文章中提出了产品聚焦.成本控制等方向,为度过寒冬做准备. 大数据第一案,微博为什么赢了? 微博