Hadoop案例:eBay的Hadoop环境

都在说Hadoop火热,但是很多朋友还是听得云里雾里,到底是用在哪里,并且是怎么用的?那接下来笔者就通过eBay的Hadoop环境应用的例子来给大家揭示其中的奥秘:

eBay分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hadoop平台的强大功能,充分利用每天潮水般涌入的8TB至10TB数据。

虽然eBay只是几年前才开始向生产型Hadoop环境转移,但它却是早在2007年就率先开始试用Hadoop的大规模互联网公司之一,当时它使用一个小型集群来处理机器学习和搜索相关性方面的问题。这些涉及的是少量数据;Madan表示,但是就这个试验项目而言很有用;不过随着数据日益增加、用户活动日益频繁,eBay想充分利用几个部门和整个用户群当中的数据。

eBay的第一个大型Hadoop集群是500个节点组成的Athena,这个专门建造的生产型平台可以满足eBay内部几个部门的要求。该集群只用了不到三个月就建成了,开始高速处理预测模型、解决实时问题;后来不断扩大规模,以满足其他要求。

Madan表示,该集群现由eBay的许多小组使用,既用于日常生产作业,又用于一次性作业。小组使用Hadoop的公平调度器(Fair Scheduler)来管理资源分配、为各小组定义作业池、赋予权重、限制每个用户和小组的并行作业,并且设定抢占超时和延迟调度。

虽然Madan经常在台上畅谈Hadoop具有的实际价值,他也经常提到工作小组在扩建eBay基础设施时面临、继续竭力克服的几个主要挑战。下面列出了与Hadoop有关的一系列挑战:

可扩展性

就现有版本而言,主服务器NameNde存在可扩展性问题。由于集群的文件系统不断扩大,它占用的内存空间也随之扩大,因为它把整个元数据保存在内存中。1PB的存储容量大概需要 1GB的内存容量。几种切实可行的解决方案是分层命名空间分区,或者结合使用Zkeeper和HBase,实现元数据管理。

可用性

NameNde的可用性对生产型工作负载来说至关重要。开源社区正致力于冷备份(cld standby)、暖备份(warm standby)和热备份(ht standby)这几个选项,比如检查点(Checkpint)节点和备份(Backup)节点;从辅助NameNde切换avatar的Avatar节点;以及日志元数据复制技术。我们正在评估这些方案,以建立我们的生产型集群。

数据发现

在天生不支持数据结构的系统上支持数据监管、发现和模式管理。一个新项目准备把Hive的元数据存储区和wl合并成一个新系统,名为Hwl。我们旨在努力把该系统连接到我们的分析平台中,那样我们的用户很容易跨不同的数据系统发现数据。

数据移动

我们正在努力开发发布/订阅数据移动工具,以便跨我们不同的子系统,如数据仓库和Hadoop分布式文件系统(HDFS),支持数据拷贝和调和。

策略

通过配额(目前的Hadoop配额需要做一些改进)进行存储容量管理,能够制定良好的保留、归档和备份等策略。我们正根据集群的工作负载和特点,跨不同的集群努力定义这些策略。

度量指标、度量指标、度量指标

我们正在开发成熟可靠的工具,以便生成度量指标,用于度量数据来源、使用情况、预算编制和利用率。一些Hadoop企业服务器体现的现有度量指标有的不够全面,有的只是临时的,很难看清楚集群使用模式。

这样,很明显,可以看出Hadoop的可用之处是如此的大,有兴趣学习这方面的朋友可以留意北风网Hadoop系列课程,结合原创性、实用性、渐进性为一体。祝大家早日成为尖端大数据人才!

如何入手:大数据面面观

持续上行:Hadoop大数据平台又获巨额投资

不学习新技术就快失业:十大最受欢迎的IT技术
文章相关课程 Hadoop2.0/YARN
深入浅出(Hadoop2.0、Spark、Storm和Tez) 基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\MapReduce\数据挖掘\项目实战) 升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)

时间: 2024-09-23 23:18:43

Hadoop案例:eBay的Hadoop环境的相关文章

环境-eclipse hadoop 识别不了hadoop的基本数据类型,怎么弄的

问题描述 eclipse hadoop 识别不了hadoop的基本数据类型,怎么弄的 菜鸟,刚刚学习hadoop,配置了环境,看了点代码,却总是识别不了hadoop下的数据类型.就是import org.apache.hadoop.io.*:这个不能成功!!!! 解决方案 是不是没有把所有jar包都导入进入呢?全部都要加进去的加入hadoop-0.20.1-core.jar以及lib下所有的jar以及lib子目录下所有的jar

深入理解Spark:核心思想与源码分析. 3.5 Hadoop相关配置及Executor环境变量

3.5 Hadoop相关配置及Executor环境变量 3.5.1 Hadoop相关配置信息 默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下. val hadoopConfiguration = SparkHadoopUtil.get.newConfiguration(conf) 获取的配置信息包括: 将Amazon S3文件系统的AccessKeyId和SecretAccessKey加载到Hadoop的Configuration: 将Spa

平台-关于hadoop的集群开发环境配置

问题描述 关于hadoop的集群开发环境配置 各位前辈好!最近遇到了点疑问,hadoop的集群配置的主节点是要搭在服务器上吗?我们老师要我们做一个项目,需要配置hadoop平台,什么也不懂,所以来这里请教大家== 解决方案 http://blog.csdn.net/flyqwang/article/details/7244552/http://www.51document.com/1365084386796.htmlhttp://www.open-open.com/lib/view/132853

Hadoop 2.x伪分布式环境搭建详细步骤_数据库其它

本文以图文结合的方式详细介绍了Hadoop 2.x伪分布式环境搭建的全过程,供大家参考,具体内容如下 1.修改hadoop-env.sh.yarn-env.sh.mapred-env.sh 方法:使用notepad++(beifeng用户)打开这三个文件 添加代码:export JAVA_HOME=/opt/modules/jdk1.7.0_67 2.修改core-site.xml.hdfs-site.xml.yarn-site.xml.mapred-site.xml配置文件 1)修改core-

HADOOP,大数据,c++开发环境搭建问题

问题描述 HADOOP,大数据,c++开发环境搭建问题 各位大侠....我现在用c++来开发hadoop,现在服务环境已经搭建好了,我想再搭建一个用c++开发.编译hadoop的环境 c++的开发工具有eclipse和vs2010,请问各位大侠,我该怎么下手,怎么搭建 解决方案 http://blog.csdn.net/jin123wang/article/details/39012255http://blog.csdn.net/zwx19921215/article/details/19896

用Hadoop,还是不用Hadoop?

Hadoop通常被认定是能够帮助你解决所有问题的唯一方案. 当人们提到"大数据"或是"数据分析"等相关问题的时候,会听到脱口而出的回答:Hadoop!实际上Hadoop被设计和建造出来,是用来解决一系列特定问题的.对某些问题来说,Hadoop至多算是一个不好的选择.对另一些问题来说,选择Hadoop甚至会是一个错误.对于数据转换的操作,或者更广泛意义上的抽取-转换-装载的操作(译者注:Extraction Transformation Load,ETL,数据仓库中对

Hadoop掌门人:Hadoop开启数据处理革命

文章讲的是Hadoop掌门人:Hadoop开启数据处理革命,2011年12月2日.3日,Hadoop in China 2011在北京会议中心成功举办.本次大会以"海量数据掘宝"为主题,吸引了来自世界各地的一千余名关注Hadoop的专家.开发者和使用者.[点击查看IT168视频直播专题] 本次大会最大的亮点就是Hadoop的创始人Doug Cutting亲临大会现场助阵.同时,IT168作为本次大会的协办方,在现场采访到了Doug Cutting.在采访中,Doug Cutting分享

hadoop-单机Hadoop测试问题,Hadoop学习

问题描述 单机Hadoop测试问题,Hadoop学习 Hadoop在Linux安装完成,如何使用,Hadoop究竟怎么运作,怎么实现单机下测试文件写入写出 解决方案 启动没?hadoop的版本是啥?就这么一句,没法回答 解决方案二: 已经启动了,配置也完成了,版本hadoop1.1.2 但是不是很明白如何使用进行单机测试文件写入写出 解决方案三: http://download.csdn.net/detail/jianjian1992/8805961 这个是我们上课用的课件,里边讲hadoop的

满满的技术干货!Hadoop顶级会议Apache Hadoop Summit精华讲义分享

Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践. 本文整理了Apache Hadoop Summit  Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技巧,还是技术最佳实践,统统都在这里! [Hadoop Summit Tokyo 2016]Apache NiFi速成课 [Hadoop Summit Tokyo 2016]重建大规模Web跟踪设施