《深入理解Hadoop(原书第2版)》——3.2使用Cloudera虚拟机搭建开发环境

3.2使用Cloudera虚拟机搭建开发环境

本书着重讲解基于Hadoop系统的开发。Hadoop系统的安装是一个比较复杂的操作过程,服务提供商会提供安装工具使得该安装操作易如反掌。比如,Cloudera公司开发的Cloudera Manager就大大简化了Hadoop系统的安装。作为一个开发人员,我们希望有一个可快速安装且易于搭建的可靠的开发环境。Cloudera公司发布了基于VMware 和 VirtualBox的CDH5.0。如果你没有安装这些虚拟机的播放器,请先下载安装其最新版本。然后,从下面这个链接下载Cloudera 5 QuickStart VM:

需要注意的是,Cloudera 5虚拟机需要8GB的内存。请确保你的机器有足够的内存来运行这个虚拟机。然后,一步步地执行剩下的操作步骤,自己的开发环境最终会安装成功。

当你启动虚拟机之后,你会看到如图3-1的界面。箭头指向的是虚拟机中桌面上的Eclipse图标。因为在Eclipse环境中已经将Hadoop程序配置为以本地模式的方式执行,所以,打开Eclipse即可开发Hadoop程序代码。

你要使用Hadoop 2.0系统作为开发环境的工作就完成了。该开发环境也允许用户以伪分布式模式的方式来运行作业,以此来模拟测试该作业代码在真实集群环境下的运行情况。这是一套集程序开发、单元测试和集成测试于一体的完整全面的开发环境。在该开发环境中,只要稍加配置就可以使用Cloudera Manager,这是一个监控和管理作业的用户友好的GUI(图形用户界面)。你最好能够熟练使用这个工具,它会极大地帮你简化作业的管理和跟踪工作。

我们强烈推荐你使用上述方法来快速地搭建Hadoop2.0开发环境。

如果要使用本节讲到的Cloudera虚拟机来搭建Hadoop开发环境,你就无须了解Hadoop系统安装步骤了。但是我们仍然在附录A中介绍了Hadoop系统在Windows 和 Linux平台上的安装过程。你可以按照附录A中介绍的步骤,安装一个在伪分布式模式下运行的Hadoop系统。

时间: 2024-10-29 12:32:47

《深入理解Hadoop(原书第2版)》——3.2使用Cloudera虚拟机搭建开发环境的相关文章

《产品设计与开发(原书第5版)》——2.2 概念开发:前端过程

2.2 概念开发:前端过程 与其他阶段相比,概念开发阶段需要更多职能部门之间的协调,因此,本书提出的很多集成开发方法都集中于此.本节我们将概念开发阶段扩展为我们所称的前端过程(front-end process).前端通常包含许多相互关联的活动,其大致的排序见图表2-3.整个流程很少以顺序的(sequential)方式进行,即上游活动结束之后,下游活动才开始.实际上,这些前端的活动在时间上可以是重叠的(overlapped),也经常会发生迭代.图表2-3中的虚线箭头反映了产品开发流程中的不确定性

《SEO的艺术(原书第2版)》——3.4 在网站开发之前制订SEO计划

3.4 在网站开发之前制订SEO计划 业界普遍认为,搜索引擎优化应该从选择内容管理系统(Content Management System, CMS)和规划网站架构以开发页面内容开始,尽早地整合到整个网站开发策略中.你在第6章中将会看到,SEO从业者在这两个领域中都有重大的贡献.当然,许多企业都在构建网站之后才开始研究SEO的需求,在这种情况下,SEO应该立即启动.SEO计划有许多变动的部分,SEO决策对其他部门(例如,开发.其他营销小组和销售部门)也有显著的影响.尽早投入能够为企业带来最好的结

《产品设计与开发(原书第5版)》——1.4 产品开发的挑战

1.4 产品开发的挑战 开发大型产品并非易事.很少有企业能够达到50%的成功率,这给产品开发团队带来了重大的挑战.使产品开发具有挑战性的一些特征是: 权衡:飞机可以制造得更轻,但这可能会增加制造成本.产品开发最困难的方面是认识.理解并管理这种权衡,使产品成功的概率最大化.动态性:技术的提高.顾客偏好的变化.竞争对手推出新产品,以及宏观经济环境的变化.在不断变化的环境中做出决策是一项艰巨的任务.细节:计算机外壳选择用螺钉还是卡扣的形式,在经济上会产生几百万美元的差别.即使开发一个中等复杂程度的产品

《产品设计与开发(原书第5版)》——2.6 产品开发组织

2.6 产品开发组织 除了精心编制一个有效的开发流程,成功的企业还必须组织其产品开发人员,有效地实施流程计划.在本节中,我们将介绍几种用于产品开发的组织,并为如何选择提供指引.2.6.1 通过建立个人之间的联系形成组织产品开发组织是一个将单个设计者和开发者联系起来成为团队的体系.个体之间的联系可以是正式的或非正式的,包括以下类型:报告关系:报告关系产生了传统的上下级关系,这是组织结构图上最常见的正式联系.财务安排:个体通过成为同一个财务实体的一部分联系在一起,如一个商业单元或公司的一个部门.物理

《产品设计与开发(原书第5版)》——1.3 产品开发的周期和成本

1.3 产品开发的周期和成本 大多数缺乏产品开发经验的人都会对产品开发所需的时间和资金感到吃惊.事实上,很少有产品能在1年内开发出来,很多产品开发需要3-5年的时间,有些甚至长达10年之久.图表1-1展示了五个工程化.分离的产品.图表1-3显示了与不同产品的特征相一致的大体开发规模.产品开发的成本大致与项目团队的人数和项目的持续时间成正比.除了开发成本,企业还要在生产所需的工具和设备方面进行投资.这部分花费往往占产品开发总预算的50%,但是,有时可以把这些成本视为生产中固定成本的一部分.生产投资

《深入理解Hadoop(原书第2版)》——导读

前 言 Hadoop已经进入Apache社区发展五年多了,使用Hadoop系统进行开发的工作仍然富于挑战但收获丰厚.本书第1版在若干年前就已经出版了,在这期间,Hadoop系统已经被越来越多的企业使用,自身也得到了飞速发展. Hadoop2.0基于YARN框架做了全新升级,重写了Hadoop系统的底层平台.本书从Hadoop使用者的角度出发讲解Hadoop的实现原理,浓缩了Hadoop软件系统的精华.作为作者,我们希望可以深入到源代码级别来理解Hadoop的运行原理及其背后的设计目标,渴望与你分

《深入理解Hadoop(原书第2版)》——3.4第一个Hadoop程序

3.4第一个Hadoop程序 本节中,你将开发你的第一个Hadoop程序.开发此程序使用的开发环境是带有Maven插件的Eclipse.如果你使用Cloudera公司的虚拟机,开发环境已经预先安装于其中了.附录B讲解了如何在Eclipse中创建一个Maven工程. 首先创建一个空的Maven工程,并将所需依赖库添加其中.项目对象模型(Project Object Model,POM)如代码清单3-1所示.创建一个文件名为pom.xml的文件,把代码清单3-1中的代码拷贝到该文件中. 现在可以开发

《机器学习与R语言(原书第2版)》一2.3 探索和理解数据

本节书摘来自华章出版社<机器学习与R语言(原书第2版)>一书中的第2章,第2.3节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问"华章计算机"公众号查看. 2.3 探索和理解数据 在收集数据并把它们载入R数据结构以后,机器学习的下一个步骤是仔细检查数据.在这个步骤中,你将开始探索数据的特征和案例,并且找到数据的独特之处.你对数据的理解越深刻,你将会更好地让机器学习模型匹配你的学习问题. 理解数据探索的最好方法就是通过例子.在

《机器学习与R语言(原书第2版)》一 第2章 数据的管理和理解

本节书摘来自华章出版社<机器学习与R语言(原书第2版)>一书中的第2章,第2.1节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问"华章计算机"公众号查看. 第2章 数据的管理和理解 任何机器学习项目初期的核心部分都是与管理和理解所收集的数据有关的.尽管你可能发现这些工作不像建立和部署模型那样令人有成就感(建立和部署模型阶段就开始看到了劳动的成果),但是忽视这些重要的准备工作是不明智的.任何学习算法的好坏取决于输入数据的好坏.