Hadoop案例：eBay的Hadoop环境

都在说Hadoop火热，但是很多朋友还是听得云里雾里，到底是用在哪里，并且是怎么用的？那接下来笔者就通过eBay的Hadoop环境应用的例子来给大家揭示其中的奥秘：

eBay分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hadoop平台的强大功能，充分利用每天潮水般涌入的8TB至10TB数据。

虽然eBay只是几年前才开始向生产型Hadoop环境转移，但它却是早在2007年就率先开始试用Hadoop的大规模互联网公司之一，当时它使用一个小型集群来处理机器学习和搜索相关性方面的问题。这些涉及的是少量数据；Madan表示，但是就这个试验项目而言很有用；不过随着数据日益增加、用户活动日益频繁，eBay想充分利用几个部门和整个用户群当中的数据。

eBay的第一个大型Hadoop集群是500个节点组成的Athena，这个专门建造的生产型平台可以满足eBay内部几个部门的要求。该集群只用了不到三个月就建成了，开始高速处理预测模型、解决实时问题；后来不断扩大规模，以满足其他要求。

Madan表示，该集群现由eBay的许多小组使用，既用于日常生产作业，又用于一次性作业。小组使用Hadoop的公平调度器（Fair Scheduler）来管理资源分配、为各小组定义作业池、赋予权重、限制每个用户和小组的并行作业，并且设定抢占超时和延迟调度。

虽然Madan经常在台上畅谈Hadoop具有的实际价值，他也经常提到工作小组在扩建eBay基础设施时面临、继续竭力克服的几个主要挑战。下面列出了与Hadoop有关的一系列挑战：

可扩展性

就现有版本而言，主服务器NameNde存在可扩展性问题。由于集群的文件系统不断扩大，它占用的内存空间也随之扩大，因为它把整个元数据保存在内存中。1PB的存储容量大概需要 1GB的内存容量。几种切实可行的解决方案是分层命名空间分区，或者结合使用Zkeeper和HBase，实现元数据管理。

可用性

NameNde的可用性对生产型工作负载来说至关重要。开源社区正致力于冷备份（cld standby）、暖备份（warm standby）和热备份（ht standby）这几个选项，比如检查点（Checkpint）节点和备份（Backup）节点；从辅助NameNde切换avatar的Avatar节点；以及日志元数据复制技术。我们正在评估这些方案，以建立我们的生产型集群。

数据发现

在天生不支持数据结构的系统上支持数据监管、发现和模式管理。一个新项目准备把Hive的元数据存储区和wl合并成一个新系统，名为Hwl。我们旨在努力把该系统连接到我们的分析平台中，那样我们的用户很容易跨不同的数据系统发现数据。

数据移动

我们正在努力开发发布/订阅数据移动工具，以便跨我们不同的子系统，如数据仓库和Hadoop分布式文件系统（HDFS），支持数据拷贝和调和。

策略

通过配额（目前的Hadoop配额需要做一些改进）进行存储容量管理，能够制定良好的保留、归档和备份等策略。我们正根据集群的工作负载和特点，跨不同的集群努力定义这些策略。

度量指标、度量指标、度量指标

我们正在开发成熟可靠的工具，以便生成度量指标，用于度量数据来源、使用情况、预算编制和利用率。一些Hadoop企业服务器体现的现有度量指标有的不够全面，有的只是临时的，很难看清楚集群使用模式。

这样，很明显，可以看出Hadoop的可用之处是如此的大，有兴趣学习这方面的朋友可以留意北风网Hadoop系列课程，结合原创性、实用性、渐进性为一体。祝大家早日成为尖端大数据人才！

如何入手：大数据面面观

持续上行：Hadoop大数据平台又获巨额投资

不学习新技术就快失业：十大最受欢迎的IT技术
文章相关课程 Hadoop2.0/YARN
深入浅出(Hadoop2.0、Spark、Storm和Tez) 基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\MapReduce\数据挖掘\项目实战) 升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)

时间： 2024-09-23 23:18:43

Hadoop案例：eBay的Hadoop环境

Hadoop案例：eBay的Hadoop环境的相关文章

环境-eclipse hadoop 识别不了hadoop的基本数据类型，怎么弄的

深入理解Spark：核心思想与源码分析. 3.5　Hadoop相关配置及Executor环境变量

平台-关于hadoop的集群开发环境配置

Hadoop 2.x伪分布式环境搭建详细步骤_数据库其它

HADOOP,大数据,c++开发环境搭建问题

用Hadoop，还是不用Hadoop？

Hadoop掌门人：Hadoop开启数据处理革命

hadoop-单机Hadoop测试问题，Hadoop学习

满满的技术干货！Hadoop顶级会议Apache Hadoop Summit精华讲义分享