eBay:将Hadoop架构延伸到在线业务系统

文章讲的是eBay:将Hadoop架构延伸到在线业务系统,Hadoop in China社区一年一次的技术年度盛会Hadoop中国云计算大会(Hadoop in China 2011,HiC2011)12.2-12.3日在北京召开,Hadoop in China已经成功举办四届,今年大会的主题是“海量数据掘宝”,HiC2011由中国科学院计算技术研究所主办,通过技术应用和科学研究双重视角审视云计算以及Hadoop开源生态系统的现状和发展趋势,发扬开源精神,促进Hadoop以及云计算开源生态系统在中国的发展壮大。点击IT168 Hadoop中国2011云计算大会直播专题


点击查看ebay公司自动化架构总监Juhan Lee现场采访视频

  本届大会上,诸多hadoop领域的知名人士以及权威专家都亲临现场,分享在Hadoop方面的研究成果与尝试,包括Apache软件基金会主席 Doug Cutting先生、威斯康星大学教授Miron Livny以及google、Facebook、EMC、eBuy、IBM、淘宝、华为、支付宝、奇虎、新浪、中兴、曙光、腾讯、人人网、清华大学、英特尔以及百度等学术机构、国际知名公司的资深工程师。IT168编辑在现场有幸采访了ebay公司自动化架构总监Juhan Lee,以下是采访实录。

  问:参加本次hadoop云计算大会,您有何感想?

  Juhan Lee:令人印象深刻,在本次大会上有如此多的对hadoop感兴趣的技术爱好者,非常令人鼓舞。昨天的日程中也有非常多的有意思的环节。

  问:您如何看待Hadoop技术在中国市场的发展潜力?

  Juhan Lee:我认为是非常令人乐观的,我知道中国市场上有很多的专业的参与者,像淘宝、百度等,我知道这些公司实际上也在Hadoop方面做了和ebay类似的尝试,他们也像ebay一样,从开源的技术起步,并在此基础上进行开发,使之能为业务系统服务达成业务目标。因此,我非常看好Hadoop在中国市场的前景。

  问:从您上午的演讲中我们已经知道,ebay已经部署了一个大规模的Hadoop集群,我想问一下,ebay的hadoop之旅从何开始?为什么ebay会选择hadoop技术?

  Juhan Lee:我们的变迁可以说是从一种昂贵的数据管理系统迁移到可扩展、更经济的存储系统,并允许更灵活的管理功能的这样一个过程,在开始的时候,我们也非常谨慎,但渐渐的后来我们开始用Hadoop堆栈支撑业务系统,并取得了良好的效果,这鼓励我们继续在Hadoop方面持续我们的尝试。

  问:能给我们一些数据说明ebay业务系统遇到的挑战吗?例如工作负载?数据规模大小?

  Juhan Lee:数据规模非常大,大概有数十PB。出于一些原因,我可能不方便透露太多的业务数据细节,但我们很有可能是全球最大的Hadoop系统之一。

  问:那么哪些用户应该选择Hadoop系统?是否需要用户规模大到了一定程度才需要Hadoop?

  Juhan Lee:处理数据、并分析其价值在今天已经非常的普遍,我们可以将数据存储在各种纵向扩展的存储或者DBMS(数据管理系统)系统中,而如果你知道应该如何处理和分析你的业务数据,你会根据数据分析的需要把数据结构化,问题在于,一旦你根据某种分析的需要转换数据了之后,当你遇到另一个分析的需求,你需要把所有的工作重新做一遍。用Hadoop这样的系统,我们就能在分析和转换前把所有的数据归档处理,可以根据分析的需要自由的调用。举一个例子,当你去一个卖场的时候,你会试一试鞋子,试一试夹克,也许最后你会买一双鞋子。在传统的数据管理系统中,你必须明确的知道你进到商店是希望买一双鞋,但我们希望实现的是,也许你不知道你到底买什么,你会希望了解更多的信息,试一试夹克或者其他的东西,最后你买了鞋子。内部数据存储是非常重要的,能在你不知道该如何处理数据的时候尽可能多的保存数据,Hadoop系统则能够让你不断的尝试。

  问:除了Hadoop,ebay是否有考虑过别的解决方案来解决面临业务压力?

  Juhan Lee:是的,我们可以讨论一些其他的解决方案,但是我们不能离开我们自己的业务背景,我们更多的考虑的是自身的业务挑战,对我们的系统来说,应用传统的会存在一些问题,第一,你需要花费很长的时间来构建你的系统;第二,我们认为是时候搭建一个更为成熟的系统了,应用Hadoop给了我们一个很好的开始,同时能从社区的得到支持,与此同时我们也能给社区带来利益,并且与社区形成双赢。

  问:下一步您会考虑如何继续优化您的系统?

  Juhan Lee:这一点在演讲中略有提及,我们计划延伸我们的Hadoop系统,不仅仅只用于离线的数据系统,还将延伸到在线的业务系统,为此我们需要解决系统延时的问题,使之为实时的在线业务服务。这是我们即将要做的事情。

  问:最后一个问题,Hadoop最早是开源的技术,意味着成本低甚至是免费的,随着越来越多的厂商加入这个阵营,Hadoop开始变得越来越商业化?您如何看待Hadoop的商业化趋势?

  Juhan Lee:我认为这并不是一件坏事情,因为将开源的技术产品化并不是一件容易的事情,如果一个供应商能够以较低的成本提供较为成熟的Hadoop方案,对用户来说也是值得的,问题在于,这项技术和社区发展很紧密,当厂商介入进来后,也许会监控、引导社区的一些观点,会影响社区的发展。

原文发布时间为:2011-12-06

本文作者: 李隽

时间: 2024-11-10 00:52:40

eBay:将Hadoop架构延伸到在线业务系统的相关文章

Hadoop在电信大数据业务系统中的应用

文章讲的是Hadoop在电信大数据业务系统中的应用,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲IT168专题报道:http://www.it168.com/re

Hadoop架构下数据挖掘与数据迁移系统的设计与实现

Hadoop架构下数据挖掘与数据迁移系统的设计与实现 上海交通大学  吕明育 通常情况下企业的信息系统会包含多个业务系统,每个业务系统包含自身的一套在线业务系统.备份系统和归档系统,系统管理复杂,易造成存储空间的浪费,并且系统扩展性较差.针对以上缺点,本文设计并实现了一个分层存储系统,采用一个大数据平台对多个业务系统数据实行统一管理,将每个业务系统的备份系统和归档系统合二为一.此分层存储系统提供基于Hadoop架构的数据挖掘和数据迁移系统的方案.具体内容如下:(1)分析了MapReduce分布式

在线教育业务系统云上高可用部署架构设计

从2010年开始,国内新兴的在线教育公司已经越来越多选用公共云计算做为IT基础设施平台.在线教育公司使用云计算,一方面可以减少在IT基础设施方面设备及人力的投入,另一方面可以轻松获得可扩展的计算能力以及更加可靠的安全防护能力. 通过对多家在线教育公司IT部门的交流,由于在线教育公司大多处于业务发展期,IT部门的精力主要投入到支撑新业务的拓展,在应用的部署架构上考虑的不多,在高可用架构方面更是欠缺. 众所周知,云平台是一个及其复杂的综合系统,内外部的一些偶然因素可能导致其发生局部的故障,如果用户在

甲骨文宣布正式介入存储业务 超融合架构须基于对业务的深刻了解

原文:http://www.dostor.com/article/121038036.html 2015年12月10日,由DOIT传媒.存储在线和易会联合主办的2015中国存储年度峰会在北京盛大开幕.作为中国存储界有影响力的年度行业盛会,峰会以"把握数据经济,重塑商业变革"为主题,吸引了上百位存储界的顶级学者专家.数百位产业精英和企业用户出席.  由DOIT主办的中国存储峰会是中国存储产业界最为隆重的年度大会.十一年来紧贴存储产业发展,丰富地记录了存储产业在各个历史时期的变化发展,已成

云端流计算、在线业务、实时分析 闭环设计 - 阿里云RDS、HybridDB for PostgreSQL最佳实践

背景 水的流动汇成江河大海,孕育生命,形成大自然生态.数据流动,推进社会进步,拓展业务边界. <从人类河流文明 洞察 数据流动的重要性> 以某淘系业务案例展开,看看用户如何利用阿里云RDS PostgreSQL,HybridDB for PostgreSQL,海量对象存储OSS,打造一个从流计算到在线业务,再到数据分析和挖掘的业务,发挥数据的价值,拓展业务的边界. 业务简介 一个电商业务通常会涉及 商家.门店.物流.用户.支付渠道.贷款渠道.商品.平台.小二.广告商.厂家.分销商.店主.店员.

Facebook将开发在线支付系统与eBay和谷歌竞争

北京时间7月1日早间消息,据国外媒体报道,Facebook将开发在线支付系统与eBay和谷歌竞争. 谷歌Google Checkout业务负责人普拉桑特·弗洛利亚(Prashant Fuloria)上月离职后现在已经加盟Facebook,他将负责一项名为"Pay With Facebook"的在线支付业务. 尽管Facebook创始人马克·扎克伯格(Mark Zuckerberg)曾表示,在线支付只是一个长期目标,但"Pay With Facebook"的目的很显然

关于业务系统的架构思考

最近参与了很多的业务系统架构的讨论,有很多收获,也发现了很多不同领域的问题或解决方案抽象起来是一致的,这里做下简单的总结. 一.不能将团队边界.领域边界混为一谈 我们的人员是高效利用的,领域与团队间是不能一一对应的.绝大多数时候领域的边界是不变的,而团队的职责在不断调整,一个团队也很有可能是因为项目而设置,这个时候不能因为团队边界就去改变领域边界. 当我们遇到"冲突"时,应该先聚焦在领域边界,忽略团队边界,应该从如果大家是一个团队,大家一起想架构方案会是什么样的方案.确定了方案后,再思

新东方已经将在线业务分拆成一家独立的公司

摘要: 查看最新行情 导语:业内资深人士阳歌(Doug Young)今日在美国投资资讯网站SeekingAlpha发表文章称, 新东方 已经将在线业务分拆成一家独立的公司,尽管当前这部分业务占新东方总营收的 查看最新行情 导语:业内资深人士阳歌(Doug Young)今日在美国投资资讯网站SeekingAlpha发表文章称, 新东方 已经将在线业务分拆成一家独立的公司,尽管当前这部分业务占新东方总营收的比例还不大,但新东方将对该业务进行大力投资.而且,新公司很可能在未来2年至3年内上市.与此同时

详解Hadoop系统:Hadoop架构、各部分功能及对大数据的意义

如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这种对数据的要求限制了可处理的数据种类,同时这种惯性