LinkedIn开源Dr. Elephant

今天LinkedIn宣布开源Dr. Elephant，Dr. Elephant能够很好的帮助用户理解、分析和优化Hadoop和Spark的工作流。LinkedIn在去年第八届Hadoop Summit上第一次在社区呈现。

动机

Hadoop是一个分布式数据存储和大数据处理框架，体量大、组件复杂，因而每个组件的性能优化就显得异常重要。在优化底层硬件资源，网络架构，OS和其它堆栈的同时，也需要对集群上运行的任务进行优化。

什么是Dr. Elephant?

Dr. Elephant是一个Hadoop 和Spark的性能监控和调优工具。Dr. Elephant能自动化收集所有指标，进行数据分析，并以简单易用的方式进行呈现。Dr. Elephant的目标是提高开发人员的开发效率和增加集群任务调试的高效性。Dr. Elephant支持对Hadoop和Spark任务进行可插拔式、配置化以及基于规则的启发式job性能分析，并且根据分析结果给出合适的建议来指导如何调优使任务更有效率。

为什么选择Dr. Elephant？

其它开源或者商用Hadoop优化工具都是收集系统资源指标和监控集群资源信息，关注点仅在于简化Hadoop集群的发布和管理，而很少有工具是来帮助Hadoop优化任务流。这些工具不支持Hadoop集群的规模化和Hadoop框架的增长，而Dr. Elephant支持Hadoop生态的各种框架，并且很容易的扩展到新的框架，已经支持Spark。Dr. Elephant让用户更清晰的掌握Hadoop和Spark原理，并帮助其轻松的优化任务。

Dr. Elephant如何工作？

Dr. Elephant从YARN Resource Manager周期性获取所有最近运行成功和失败的应用列表，然后从Job History Server中攫取每个应用的元数据，包括job counters、任务配置和任务数据。有了元数据后，Dr. Elephant进行启发式分析，并生成每个任务的诊断报告，从而进行相应的整体优化。Dr. Elephant将会标记出五个等级问题严重性，指出潜在的性能问题。