优酷数据架构师:搭建Hadoop平台三步走

文章讲的是优酷数据架构师:搭建Hadoop平台三步走,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时,来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。


点击进入Haoop中国技术峰会

  Haoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

  在此次大会即将召开之际,IT168记者有幸采访到了本次大会的组委会专家,优酷土豆集团数据平台架构师傅杰。其个人专注于大数据基础平台架构及安全研究,并积累了丰富的平台运营经验,同时也擅长Hadoop平台性能调优及诊断各种MapReduce作业。

  优酷土豆如何打造Hadoop平台

  目前傅杰老师主要负责优酷土豆集团大数据基础平台建设,以支撑集团其他业务团队的存储与计算需求,包含Hadoop平台、日志采集系统、实时计算系统、消息系统以及天机镜系统等。据了解,Hadoop平台在优酷的发展,主要有以下几个阶段:

  平台搭建期:这个阶段主要解决一些技术问题,比如安全问题、整体规划,以及制定相关流程;

  平台发展期:这个阶段主要是在集团内部进行推广,伴随着会遇到各种各样的需求,以及解决各种各样的问题,修正相关流程,使平台进入一个稳定、高可用的水平;

  平台稳定期:这个阶段主要是从优化资源入手,内部培训调优作业,统计资源消耗合理性,构建自动化优化流程。

  “现阶段我们主要在调研Hadoop1.X 到Hadoop2.0的升级方案,预计明年初对Hadoop进行升级。今年我们也搭建了基于Storm的实时计算平台、kafka消息系统,推广到集团的线上业务中,也逐步流程化的运营起来了。”傅杰老师介绍说。

  新手如何入门Hadoop?

  据傅杰老师介绍,目前Hadoop在国内有很好的发展态势,各大企业对Hadoop的需求也比较旺盛,同时,应用Hadoop的行业也越来越多。但目前存在的问题是,Hadoop的优秀技术人才比较短缺。那么对于想踏入Hadoop领域的新手来说,应如何入门呢?

  傅杰老师给出的建议是:

  1.经常关注Hadoop官方网站;

  2.深入了解Hadoop原理,比如HDFS、MapReduce。并思考目前所在企业哪些应用可以用Hadoop解决;

  3.阅读Hadoop相关书籍。据悉,目前傅杰老师翻译的《Hadoop实战手册》将在年底出版,这本书也很适合新手阅读;

  4.搭建环境实战,比如可以试着跑一个wordcount。

  “按照这个顺序去执行,当完成一个具体业务场景的时候,你就会有一定的经验了。个新技术入门简单,但是一个工具的熟练技巧在于你是否经常使用。对Hadoop也是一样,入门根据每个人的背景不同可能只需要1-2天,但真要融汇还是需要实践。”

  作为本次Hadoop中国技术峰会的组委会专家, 傅杰老师在本次大会上讲分享的内容是,优酷土豆的实时计算生态,从日志采集到实时转发、再从实时计算到具体业务,着重会谈到各个组件之间的协作,以及安全问题的解决。“近两年Hadoop技术在各大互联网公司已经使用的比较深入,但每个企业的各自的侧重点又可能不一样,大会可以说是组织了一次大交流会,让各行各业的Hadoop使用者聚在一起交流。”

  Hadoop中国技术峰会2013是国内基于Hadoop平台的第一次全产业链的大数据行业技术峰会,大会将围绕Hadoop生态系统展开全方位的技术分享、专题讨论与成果展示。大会议题将涉及以下七大方面:Hadoop技术创新、Hadoop基础架构部署与优化、虚拟化与Hadoop、Hadoop在互联网领域的应用、Hadoop在非互联网行业的应用、Hadoop与企业现有IT架构的整合、大数据创业与投资。

  更多精彩尽在2013年11月22~23日的Hadoop中国技术峰会(China Hadoop Summit 2013),北京永泰福朋喜来登酒店。

作者:王晓东

来源:IT168

原文链接:优酷数据架构师:搭建Hadoop平台三步走

时间: 2024-12-09 12:19:59

优酷数据架构师:搭建Hadoop平台三步走的相关文章

大数据架构师:hadoop、Storm该选哪一个

首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;http://www.aliyun.com/zixun/aggregation/13431.html">Storm是内存级计算,数据直接通过网络导入内存.读写内存比读写磁盘速度快n个数量级.根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍.所以Storm更快. 注释: 1. 延时 , 指数据从产生到运算产生结果的时间,"快"应该主要指这个. 2. 吞吐, 指系统单

"大数据"相关专业人才受欢迎数据架构师薪酬最高

"随着全球对数据科学家及'大数据'研究人员和分析师需求持续增长,掌握'大数据'相关专业技能的人才往往能够获得高于平均水平的薪酬和更全面的职业发展方向."今天,悉尼科技大学高级讲师鲁海燕在接受本网记者采访时表示,数据科学家是现今需求最旺盛的职业之一,一些从海外顶尖大学取得"大数据"相关专业学位的毕业生尤其受欢迎. 鲁海燕介绍,'大数据'关乎于利用包括如数据视觉化等一些特殊新颖的手段,分析处理庞大且复杂的数据集,在许多领域都是至关重要的.目前,它应用于电子商务.疾病预防

汽车点评网张怡:数据营销“三步走”,要为用户找产品

比特网(ChinaByte)4月21日消息,通过大数据分析达到精准营销效果,正成为越来越多行业与企业的必修课.在近日启动的第六届"金网奖"案例征集活动中,"大数据营销奖"更是被列为特设大奖,以奖励利用大数据技术改变营销策略并取得成功的经典案例. 大数据同样日益影响着汽车营销领域.事实上,细心的用户很容易会发现,当他们浏览过若干汽车网站之后,即便在与汽车无关的页面上,也会看到比过去更多与汽车相关的广告. 汽车点评网(XGO.COM.CN)总经理张怡 "大数据

中航信李巍伟:云计算三步走 商业智能分析应对大数据时代

航信民航信息集团公司正式组建于2002年10月,其前身是民航总局计算机室.2001年2月在香港上市, 经过八.九年的发展航信全球现有员工近四千人.中国民航信息网络股份公司外包服务支持部的李巍伟在CCS云计算高峰论坛上介绍到,航信已经有三十年的服务经验,是中央企业中唯一从事信息服务的企业,这也让航信的使命感和社会责任感更加增强. 中国民航信息网络股份公司外包服务支持部 李巍伟 航信IT建设 航信是航空旅游行业的信息技术及商务服务提供商,共有7大业务领域.航信的平台目前每秒处理超过11000个TPS

系统 应用 数据缺一不可 云优化三步走

本文讲的是系统 应用 数据缺一不可 云优化三步走,2012年9月13日消息,由盛拓传媒旗下的IT168.ChinaUnix.ITPUB联合主办为期三天(2012年9月13日~2012年9月15日)的第四届中国系统架构师大会于在北京永泰福朋喜来登酒店隆重召开.来自百度.淘宝.腾讯.IBM.新浪.网易.奇虎360等IT巨头的讲师分享了业界最先进的技术经验与趋势. ▲架构师大会更多资讯(请点这里) 在本届系统架构师大会上我们非常激动的看到,对于IT运维来讲已经不再像过去将系统建设.将运维流程.讲技术细

问答平台推广三步走 如何利用搜搜问问来推广网站

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 问答平台推广相信大家都不陌生了,在几大问答平台里权威之最当属百度知道,其人气也是数一数二.但论整体的性价比而言,百度知道并不是最高,因为它的审核机制非常严格,很多带超链的提问与回答都会被删除,严重甚至还会被封号.封URL.也由于这些原因,越来越多的推手都转战搜搜问问.搜搜问问是腾讯的下属问答平台,上亿的QQ用户群是他得天独厚的资源之一,加之与

大数据架构师必读的NoSQL建模技术

从数据建模的角度对NoSQL家族系统做了比较简单的比较,并简要介绍几种常见建模技术. 1.前言 为了适应大数据应用场景的要求,Hadoop以及NoSQL等与传统企业平台完全不同的新兴架构迅速地崛起.而下层技术基础的革命必将影响上层建筑:数据模型和算法.简单地将传统基于第四范式结构化关系型数据库的模型拷贝到新的引擎上,无异于削足适履,不仅增加了大数据应用开发的难度和复杂度,又无法发释放新框架的潜能. 该如何构建基于NoSQL的数据模型?现在能供参考的公开知识积累要么是空虚简单的一句"去规范化&qu

优酷推出版权合作管理系统实现平台化版权管理

1月20日,优酷正式推出视频 版权合作管理系统,以大规模的购买与合作为基础,加以严密的技术监管体系,促进视频版权治理,全面屏蔽用户上传的侵犯第三方版权的视频内容.凭借版权合作系统,版权方可以通过优酷全面贯穿内容-平台-营销的产业链条. 优酷CTO姚键表示,版权合作系统目前已经进入使用阶段,欧美主要影音版权方已经开始试用,目前处于首期运营阶段,接下来我们会做不断的升级完善,不断提升版权平台管理的便利性和有效性. 2010年,优酷将在版权购买力度达到前所未有的规模,还将扩大技术研发和升级力度,全面提

优酷《我是传奇》综艺节目在三天内点击播放超过千万

和讯科技消息 5月31日,优酷今日宣布<我是传奇>综艺节目在三天内点击播放超过1100万次.<我是传奇>是由优酷携手十大卫视和十大唱片共同举办泛音乐综艺节目,该节目将于5月26日起每周六连续播出6期. 优酷提供数据显示,<我是传奇>于2012年5月26日登场,截至5月29日,该节目上线仅3天,播放量即超过1100万:当日最新优酷指数排行榜榜单上,一举蹿升至综艺棒首位.<我是传奇>刷新了中国互联网自制节目播放量.访问增速.关注度等最高纪录. 据悉,<我是