【Hadoop Summit Tokyo 2016】一个持续部署的Hadoop数据分析平台

本讲义出自Graham Gear在Hadoop Summit Tokyo 2016上的演讲,主要分享了数据工程开发管道的相关内容并介绍了持续部署的Hadoop数据分析平台Cloudera。

时间: 2024-10-23 01:42:38

【Hadoop Summit Tokyo 2016】一个持续部署的Hadoop数据分析平台的相关文章

【Hadoop Summit Tokyo 2016】服务大众的Hadoop

本讲义出自Amandeep Modgil与David Hamilton在Hadoop Summit Tokyo 2016上的演讲,主要分享了数据湖泊的起源问题.数据的安全性问题.数据治理.修改管理以及企业内的Hadoop工作等相关内容.

【Hadoop Summit Tokyo 2016】为什么我的Hadoop集群运行这么慢?

本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了对于Hadoop集群的性能度量与监控.日志记录.以及跟踪和分析等的相关方法和使用到的HBase.HDFS.YARN等相关的开源技术.

【Hadoop Summit Tokyo 2016】云上Hadoop——从专家的角度解释What、Why和How

本讲义出自SATO Naoki在Hadoop Summit Tokyo 2016上的演讲,主要从What.Why和How三个角度解释了在云上应该如何使用Hadoop,在Why方面,他分享了Hadoop运行在云上的好处:在What方面,主要分享了云上Hadoop的选项以及云上的Hadoop集群以及集群定制等内容:在How方面,主要分享了如何在云上部署Hadoop架构.

【Hadoop Summit Tokyo 2016】Apache NiFi速成课

本讲义出自Rafael Coss在Hadoop Summit Tokyo 2016上的演讲,主要分享了与Apache NiFi相关的知识,Apache NiFi 是一个易于使用.功能强大而且可靠的数据处理和分发系统,Apache NiFi 是为数据流设计.它支持高度可配置的指示图的数据路由.转换和系统中介逻辑.讲义中还讲解了与数据流相关的基本概念,以及在数据流的使用中面临的挑战和困难.

【Hadoop Summit Tokyo 2016】使用Amaterasu项目进行数据操作

本讲义出自Yaniv Rodenski与Karel Alfonso在Hadoop Summit Tokyo 2016上的演讲,主要分享了数据管道的相关知识以及其主要作用,并且分享了数据管道建造者的原型.数据操作以及协作等相关内容,还分享了大数据应用的持续集成的案例,最后还介绍了Apache下的开源分布式资源管理框架Mesos的相关内容.

【Hadoop Summit Tokyo 2016】文件格式的基准——Avro, JSON, ORC & Parquet

本讲义出自Owen O'Malley在Hadoop Summit Tokyo 2016上的演讲,主要分享了Avro, JSON, ORC & Parquet这些文件基本格式的相关内容,介绍了文件格式如何发挥不同的作用以及他们如何才能更好地发挥作用以及这些文件数据格式的各自的优点,还分享了如何使用真实的.多样化的数据集,并介绍了过度依赖类似的数据导致的弱点以及开放和审查基准.

【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学

本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使得数据科学在企业中变得容易实现以及目前企业中实现数据科学所面临的的挑战,并分享了在企业中如何使用Apache Zeppelin以及企业中数据科学的未来的发展规划.

【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态

本讲义出自Vinay Shukla在Hadoop Summit Tokyo 2016上的演讲,主要介绍了 Spark的安全体系.以及YARN AM上的Spark驱动以及Kerberos身份验证等相关内容,最后还介绍了SparkSQL的相关内容.

【Hadoop Summit Tokyo 2016】Hadoop Common与HDFS中有什么新特性?

本讲义出自Tsuyoshi Ozawa在Hadoop Summit Tokyo 2016上的演讲,主要分享了Hadoop 3 Common与HDFS出现的新特性,因为新版本的Hadoop运行在JDK8上,在应用构建的过程中,所以需要使用JDK8编译源代码,并且新版本的Hadoop具有更好的库管理,并且支持Azure数据湖泊存储,最后还分享了关于脚本重写与Apache Kafka的metrics2插件的相关内容.