【Hadoop Summit Tokyo 2016】Columnar Era:利用Parquet,Arrow and Kudu获取高性能

本讲义出自 Julien Le Dem在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Columnar Era是利用Parquet,Arrow and Kudu获取数据计算的高性能的,并且分享了社区驱动的标准以及互操作性和Columnar Era的生态系统。

时间: 2024-10-29 06:23:27

【Hadoop Summit Tokyo 2016】Columnar Era:利用Parquet,Arrow and Kudu获取高性能的相关文章

【Hadoop Summit Tokyo 2016】文件格式的基准——Avro, JSON, ORC & Parquet

本讲义出自Owen O'Malley在Hadoop Summit Tokyo 2016上的演讲,主要分享了Avro, JSON, ORC & Parquet这些文件基本格式的相关内容,介绍了文件格式如何发挥不同的作用以及他们如何才能更好地发挥作用以及这些文件数据格式的各自的优点,还分享了如何使用真实的.多样化的数据集,并介绍了过度依赖类似的数据导致的弱点以及开放和审查基准.

【Hadoop Summit Tokyo 2016】利用电力公司智能电表数据比较Spark SQL与Hive

本讲义出自Yusuke Furuyama与Yang Xie在Hadoop Summit Tokyo 2016上的演讲,主要分享了对于电力公司智能电表数据的数据分析案例,并分享了利用MapReduce与Spark 1.6进行计算的性能比较情况,并对于Spark 2.0的进化情况进行了分享.

【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学

本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使得数据科学在企业中变得容易实现以及目前企业中实现数据科学所面临的的挑战,并分享了在企业中如何使用Apache Zeppelin以及企业中数据科学的未来的发展规划.

【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态

本讲义出自Vinay Shukla在Hadoop Summit Tokyo 2016上的演讲,主要介绍了 Spark的安全体系.以及YARN AM上的Spark驱动以及Kerberos身份验证等相关内容,最后还介绍了SparkSQL的相关内容.

【Hadoop Summit Tokyo 2016】Hadoop Common与HDFS中有什么新特性?

本讲义出自Tsuyoshi Ozawa在Hadoop Summit Tokyo 2016上的演讲,主要分享了Hadoop 3 Common与HDFS出现的新特性,因为新版本的Hadoop运行在JDK8上,在应用构建的过程中,所以需要使用JDK8编译源代码,并且新版本的Hadoop具有更好的库管理,并且支持Azure数据湖泊存储,最后还分享了关于脚本重写与Apache Kafka的metrics2插件的相关内容.

【Hadoop Summit Tokyo 2016】使用Apache Ranger和Apache Atlas进行数据治理

本讲义出自Madhan Neethiraj在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使用Apache Ranger和Apache Atlas保障数据安全并进行数据治理,首先分享了Apache Ranger的概览.授权策略.行过滤和列标记策略以及审计日记等相关内容,之后分享了Apache Atlas的概览的相关内容.

【Hadoop Summit Tokyo 2016】操纵云上基于Hadoop 集群的YARN

本讲义出自Abhishek Modi在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Qubole的Hadoop技术.Qubole的架构设计.短生命周期的Hadoop集群的相关内容以及面对的挑战以及YARN的自动扩展和不断发展的HDFS技术.

【Hadoop Summit Tokyo 2016】如何构建成功的数据湖泊

本讲义出自 Alex Gorelik在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据湖泊的相关概念,介绍了数据湖泊可以赋能数据驱动的决策制定以及最大化商业价值,以及如何通过正确的数据+正确的平台+正确的接口构建成功的数据湖泊.

【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块

本讲义出自Arun Murthy在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Arun Murthy与团队的从各种流使用中学习到的最佳实践和经验,演讲的内容非常简单易懂并且非常有趣,在演讲的最后还介绍了像搭乐高一样搭建Storm与Spark Streaming Pipelines块的相应工具.