Docker将会改变Hadoop,变的更快更容易

本文讲的是Docker将会改变Hadoop,变的更快更容易,【编者的话】 最近在San Jose,Clif开幕的hadoop峰会上会有关于Docker和Hadoop的话题讨论,越来越多的创业公司致力于使用Docker技术来简化hadoop应用开发部署的速度。目前有两个方向:1)使用Docker容纳Hadoop stack;2)通过YARN来部署基于Docker开发的容器化应用。 

本周,hadoop峰会召开,其中着重讨论了新平台(例如docker)将会如何在hadoop环境下改变大数据分析行业。

BlueData,一家大数据基础架构软件平台供应商,已经把对Docker containers的支持加入其免费EPIC平台,这个平台被称为EPIC Lite,允许用户在笔记本电脑上运行虚拟的hadoop或者Spark集群。

另外,她还宣布了夏季版本,EPIC version 1.5,将会提供对新hadoop和Spark版本的支持,其中整合了Apache Ambari和Cloudera Manager, 支持通用大数据分析应用和“自建应用”能力。

VMware老员工Kumar Sreekant 和Tom Phelan在2012年创建了此家公司,期望在私有数据中心提供类似于Amazon Elastic MapReduce的大数据自服务架构,到去年九月份已经融资1900万美金,并且完成了静默期的开发工作。

EPIC软件解决方案——不要把它跟健康领域HER Giant混淆起来—— 运行在任何硬件上(任何服务器、存储),其目标就是在企业内部(基于裸机) 快速部署hadoop环境。

通过特有技术解决IO性能问题,允许计算和存储分离,提供管理虚拟架构下多用户环境工具,大大简化客户部署hadoop的难度。他们宣称采用Docker主要是因为他们想在给大数据应用提供虚拟化带来便利的同时,提供容器的简化和裸机的性能。

同时,她也承认另外的动机:

“我们想给开发者和数据科学家带来便利,让他们很容易创建自己集群,快速指向数据进行分析;而在现在这是很困难的…”Anant Chintamaneni,公司产品VP这样说到。我们的产品可以帮助他们在自己的笔记本电脑上快速获得如Cloudera或者Hortonworks之类的功能。

他说他们想给客户从自己笔记本电脑访问软件的授权,如果喜欢他,可以让IT管理者去购买他。

Anant Chintamaneni说:“Docker目前来看是此领域最成熟的…,客户通过Docker可以体验到在一台笔记本电脑或者VM上创建由多个节点构成的集群。数据科学家希望在多个节点上验证算法,或者可以弄清楚应用在真正集群上如何运作”。

企业版本面向多用户需求。Lite版本只包含几个镜像,这是因为公司想使它保持轻量级。

“随着越来越多用户采用Docker容器技术,像BlueData这类公司将Docker加入其支持的虚拟技术是势在必行的。”Tomer Shiran说,他是MapR公司产品管理VP以及Apache Drill项目管理委员会成员。

“Docker容器提供比传统虚机更好的性能,因此我希望hadoop集群能在Docker上运行的更快些。”

BlueData并不认为虚拟化正在消亡,但是像VMware,尽管也采用Docker技术,并且在某些产品中已经嵌入了Docker,看到了Docker之后的危机并且正在试图在危机出现前都改变它。

Jason Schroedl,VMware市场部VP说
:“我们认为容器是另外一种获得虚拟化好处的方法。我们的计划是开发一种可以运行在任何虚拟化环境下的大数据平台技术,我们相信容器正是这样一种可以给客户带来好处的技术。”

他还说公司目前还没有看到许多企业用户希望软件运行在Docker中的需求,但是希望很快会出现。

Tim Hall,Hortonworks产品管理VP说,Docker在企业应用中表现是成熟的,随着基于Docker的私有和共有云平台出现,hadoop变成一种必须提供的关键服务。

明天在San Jose,Clif开幕的hadoop峰会上会有关于Docker和Hadoop的三场讨论,例如,来自Hortonworks的Sidharta Seethana和来自Altiscale的Abin Shahab将会讨论Apache YARN和Docker生态环境。

Altisacle,一家提供Hadoop-as-a-service的公司,已经通过Docker容器来运行Hadoop服务,尽管这意味着他们的系统需要直接部署和管理Docker容器,而不能享受YARN(hadoop2.0带来的数据处理框架)带来的便利,然而他们发现Docker带来更多的可重复使用和自动化特性。

Pachyderm则提供更加简化的大数据分析平台,他们使用Docker来实现hadoop stack,提供了一个MapReduce的可替代选择。他们是基于CoreOS的Fleet和etcd,而不是Apache的YARN和Zookepper。

Hall说,有两种方式处理这种需求,而Hortonworks都提供。

第一种是使用Docker容纳Hadoop stack,通过Cloudbreak(最近收购SequenceIQ获得)和Hortonworks Data Platform来实现。通过使用Docker镜像在任何主流云平台启动HDP,包括微软Azure、AWS、Google Cloud Platform等。

第二种是通过YARN来部署基于Docker开发的应用。这种方式已经在HDP2.2中发布,客户可以体会如何更好利用他。

“本质上,Docker提供了一种理想的隔离和打包hadoop应用的方法,我们也正在研究如何使得Slider框架和Docker可以更好结合,从而使得部署更加简便”,Hall说。

“我们有一个客户正在考虑用同一种方法来,使用HDP和Docker,来部署他们的数据平台,他们使用Cloudbreak在云端将hadoop部署在Docker中,他们计划把他们的应用打包成Docker镜像,运行在YARN之上。还有其他很多客户和代理商采用我们基于Docker的hadoop技术来解决不可知环境下应用部署。其后台推动力主要来自于敏捷性、新方法和一致性兼顾的速度。”

另外一种传统的在虚拟环境中使用hadoop的方式是OpenStack。

他说,将hadoop运行在Docker之上带来的好处包括:

  • 快速安装(预先拉下来的RPMs)
  • 开发、QA、生产面对统一流程和镜像
  • 任意节点面对统一流程

在YARN上运行基于Docker开发应用的好处:

  • 更好的软件隔离
  • 开发、QA、生产面对统一流程和镜像
  • 更好的应用版本和发布控制

大数据应用开发者将会越来越多的学习使用Docker来打包容器化他们的应用,他说,现在又很多兴趣在裸机上运行Docker,而不是在VMs之上,这样可以对hadoop类应用提供更好的性价比。除此之外,他说YARN成为一种大数据应用分发部署平台。这种需求推动了YARN对内置容器化部署支持和在YARN上提供一种应用管理框架的需求。

原文链接:Docker Will Change Hadoop, Making it Easier and Faster(翻译:杨峰 校对:魏小红)

原文发布时间为:2015-06-22

本文作者:hokingyang

本文来自合作伙伴DockerOne,了解相关信息可以关注DockerOne。

原文标题:Docker将会改变Hadoop,变的更快更容易

时间: 2024-10-02 20:57:42

Docker将会改变Hadoop,变的更快更容易的相关文章

PCR反应中的强大新技术:让基因分析变得更快更便宜

雷锋网AIHealth栏目按:DNA在高温时可以发生变性解链,当温度降低后又可以复性成为双链.因此,通过温度变化控制DNA的变性和复性,加入设计引物,DNA聚合酶.dNTP就可以完成特定基因的体外复制,此即为PCR体外扩增DNA的原理. 范德堡大学的研究人员开发了一种PCR反应中扩增DNA链的新方法,据称这种技术可以让基因分析变得更快更便宜,研究人员称之为适应性PCR技术(adaptive PCR ),该技术的核心是通过左旋DNA调节和监控PCR反应过程. 左旋DNA 正常DNA是右旋双螺旋结构

与阿里云整个生态体系共同成长,更快更好的为房地产行业客户提供高价值的服务。

免费开通大数据服务:https://www.aliyun.com/product/odps "最早是新业务要做,但是买服务器来不及,管理员没到位,而且新业务的成本很高,是否能成功也是未知,因此明源决定采用阿里云,等资金和人到位再搬到自己内部.然而就是这种误打误撞,却让明源抓住了一个很好的机会走在了正确的轨道上."--副总裁童继龙 "阿里云数加的覆盖面很广,从存储.计算到上层应用,提供了一整套的解决方案,确实起到了马总说的普惠大数据.此外,数加也在不断的迭代,不停的有新产品出现

天翼4G到来后,大家可以体验到更快更好的网络

摘要: 12月10日,中国电信发布了天翼4G的广告形象,天翼4G微笑宝宝一时之间占据百余城市核心区域,将美好即将开始传递给大众,这种美好将带给我们更自由奔放的生活,更激情绽放的自我 12月10日,中国电信发布了"天翼4G"的广告形象,天翼4G微笑宝宝一时之间占据百余城市核心区域,将"美好即将开始"传递给大众,这种美好将带给我们更自由奔放的生活,更激情绽放的自我,这就是天翼4G"更快更好"的美好开始! 天翼4G到来后,大家可以体验到更快更好的网络,

iOS 9.3.3修复bug外"隐藏特征" 运行更快更流畅

7月20日消息,据福布斯报道,苹果已经发布了iOS 9.3.3,在两个月之内发布了五个公开测试版,这是被广泛测试的iOS小更新之一,尤其是考虑到它表示只是一个小漏洞和安全补丁,但iOS 9.3.3让人激动的方面在于它还隐藏了一个伟大的秘密特征. "伟大的特征"和"不可思议的惊喜"是我调查操作系统更新的最好特征/最大问题的两个常规方面. 苹果iOS 9.3.3实现了任何软件升级里反复但往往很空虚的承诺:"性能提升".是的,很多用户发现iOS 9.3

怎么让win7运行更快更流畅

怎么让win7运行更快更流畅   首先只有先了解系统服务的一些相关知识,然后才能根据Windows7用户的各种不同需求提供有针对性Windows7系统服务清理方案,提高Windows7的运行速度. 什么是服务? 服务是系统用以执行指定系统功能的程序或进程,其功用是支持其他应用程序,一般在后台运行.与用户运行的程序相比,服务不会出现程序窗口或对话框,只有在任务管理器中才能观察到它们的身影. 如何修改服务的启动类型? 在Win7开始菜单的"搜索程序和文件"栏里输入"service

Yarn 更快更可靠的 CI 创建工具

本文讲的是Yarn 更快更可靠的 CI 创建工具, 你可能听说过 Yarn ,它剑指苍穹,要做成一个更快.更可靠的 npm 客户端.能够更快的在本地安装扩展包的确很棒,但是为了真正能够使用 Yarn 到淋漓尽致,你最好在持续继集成务器上使用它. 当配合一台持续集成服务器使用时,Yarn 能够减少因为各式各样的安装包的解析方式不同导致的随机 CI 错误. 由于安装缓慢和 CI 产生的随机错误会降低整个团队的开发效率,它们将会成倍地给你的团队拖后腿.随机错误的出现甚至比安装缓慢更令人沮丧,因为一旦出

酷派4G手机“更快更爽” 获两会记者青睐

"4G最大的 优点是快,作为终端(体验)来讲是爽."3月5日,宇龙酷派副总裁曹井升在"酷派4G跑两会"活动启动仪式上表示,相比2G.3G而言,4G手机在http://www.aliyun.com/zixun/aggregation/9270.html">使用体验上感觉完全不同,看视频的时候不卡壳了,还可以在线传视频.而这些优势,对于"抢新闻"的两会记者而言,将会发挥更多作用──利用酷派的4G终端不仅可以实现现场高清拍照,还可以视频

Google Sitemap更快更全面收录网站

     Google新推出的sitemap,是对原来robots.txt的扩展,sitemap!使用xml格式来记录整个网站的信息并供google读取,使搜索引擎能更快更全面的收录网站的内容.     sitemap的作用就好像为网站提供了整站的rss,而google就是这些rss的订阅者,只要网站有更新就会自动通知google.这样一来,搜索引擎的收录由被动的pull变成了主动的push,辛苦的google爬虫们终于可以松一口气了.     快来尝试下:https://www.google.

活用大师和兔子 系统更快更安全_WindowsXP

Windows大师和超级兔子魔法设置是两款非常不错的软件!~菜鸟们应该灵活运用让系统更快 更好 更安全!~ 现在关于优化系统的文章实在是多如牛毛,我就介绍点实用的给菜鸟们吧!~高手可以止步. 其实很多优化软件都是基于修改注册表的方法来实现的!~ 大师也不例外 Windows大师: 运用"自动优化"和系统医生" 自动优化只需要运行一次既可 而系统医生 应该每周一次 关于上述优化都有文字说明 ~照做既可!开机优化 是个非常实用的东东! 它是通过 修改注册表HKEY_LOCAL_M