【Hadoop Summit Tokyo 2016】如何构建成功的数据湖泊

本讲义出自 Alex Gorelik在Hadoop Summit Tokyo 2016上的演讲，主要介绍了数据湖泊的相关概念，介绍了数据湖泊可以赋能数据驱动的决策制定以及最大化商业价值，以及如何通过正确的数据+正确的平台+正确的接口构建成功的数据湖泊。

时间： 2024-09-23 06:49:45

【Hadoop Summit Tokyo 2016】如何构建成功的数据湖泊的相关文章

【Hadoop Summit Tokyo 2016】构建信息平台：集成Hadoop与SAP HANA和HANA VORA

本讲义出自Takuya Okamoto在Hadoop Summit Tokyo 2016上的演讲,在演讲中首先介绍了VUPICO,并分享的数据的商业价值所在以及如何构建信息数据分析平台和集成Hadoop与SAP HANA,最后还分享了如何从Hadoop中获取价值.

【Hadoop Summit Tokyo 2016】构建多租户平台

本讲义出自Grant Priestley在Hadoop Summit Tokyo 2016上的演讲,主要对于多租户平台Hurdles进行了详细介绍,并介绍了多租户的概念和定义以及构建多租户平台的架构设计和技术策略,最后还分享了在构建多租户平台的过程中需要注意的事项.

【Hadoop Summit Tokyo 2016】中型组织的数据基础设施架构：收集、存储和分析的技巧

本讲义出自 Egor Pakhomov在Hadoop Summit Tokyo 2016上的演讲,主要分享了数据收集.存储和分析的技巧,介绍了为什么SQL如此的重要以及如何在Hadoop中使用SQL,以及在数据存储过程中如何此案呢过做到使得存储的数据能够既能易于查询又能容易地进行改变,以及如何使用BI工具聚合数据.

【Hadoop Summit Tokyo 2016】桌上的大数据与KNIME

本讲义出自W Daniel Cox III与Chhitesh Shrestha在Hadoop Summit Tokyo 2016上的演讲,在演讲中简要地介绍了数据转换的相关概念以及KNIME数据分析平台,并且在现场演示了对于能源数据规划和定价的预测,并且分享了如何将KNIME工具集与Hortonworks进行结合.

【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务

本讲义出自Alex Lv与Amber Vaidya在Hadoop Summit Tokyo 2016上的演讲,主要分享了构建于Spark和Hadoop上的开源数据质量平台Griffin,Griffin可以用于处理批量数据.实时数据和非结构化的数据,并且构建了统一的过程来检测无效或者不准确等DQ问题,讲义中介绍了eBayGriffin的技术架构.以及用例等.

【Hadoop Summit Tokyo 2016】Hadoop Common与HDFS中有什么新特性？

本讲义出自Tsuyoshi Ozawa在Hadoop Summit Tokyo 2016上的演讲,主要分享了Hadoop 3 Common与HDFS出现的新特性,因为新版本的Hadoop运行在JDK8上,在应用构建的过程中,所以需要使用JDK8编译源代码,并且新版本的Hadoop具有更好的库管理,并且支持Azure数据湖泊存储,最后还分享了关于脚本重写与Apache Kafka的metrics2插件的相关内容.

【Hadoop Summit Tokyo 2016】文件格式的基准——Avro, JSON, ORC & Parquet

本讲义出自Owen O'Malley在Hadoop Summit Tokyo 2016上的演讲,主要分享了Avro, JSON, ORC & Parquet这些文件基本格式的相关内容,介绍了文件格式如何发挥不同的作用以及他们如何才能更好地发挥作用以及这些文件数据格式的各自的优点,还分享了如何使用真实的.多样化的数据集,并介绍了过度依赖类似的数据导致的弱点以及开放和审查基准.

【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学

本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使得数据科学在企业中变得容易实现以及目前企业中实现数据科学所面临的的挑战,并分享了在企业中如何使用Apache Zeppelin以及企业中数据科学的未来的发展规划.

【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态

本讲义出自Vinay Shukla在Hadoop Summit Tokyo 2016上的演讲,主要介绍了 Spark的安全体系.以及YARN AM上的Spark驱动以及Kerberos身份验证等相关内容,最后还介绍了SparkSQL的相关内容.