3.2使用Cloudera虚拟机搭建开发环境
本书着重讲解基于Hadoop系统的开发。Hadoop系统的安装是一个比较复杂的操作过程,服务提供商会提供安装工具使得该安装操作易如反掌。比如,Cloudera公司开发的Cloudera Manager就大大简化了Hadoop系统的安装。作为一个开发人员,我们希望有一个可快速安装且易于搭建的可靠的开发环境。Cloudera公司发布了基于VMware 和 VirtualBox的CDH5.0。如果你没有安装这些虚拟机的播放器,请先下载安装其最新版本。然后,从下面这个链接下载Cloudera 5 QuickStart VM:
需要注意的是,Cloudera 5虚拟机需要8GB的内存。请确保你的机器有足够的内存来运行这个虚拟机。然后,一步步地执行剩下的操作步骤,自己的开发环境最终会安装成功。
当你启动虚拟机之后,你会看到如图3-1的界面。箭头指向的是虚拟机中桌面上的Eclipse图标。因为在Eclipse环境中已经将Hadoop程序配置为以本地模式的方式执行,所以,打开Eclipse即可开发Hadoop程序代码。
你要使用Hadoop 2.0系统作为开发环境的工作就完成了。该开发环境也允许用户以伪分布式模式的方式来运行作业,以此来模拟测试该作业代码在真实集群环境下的运行情况。这是一套集程序开发、单元测试和集成测试于一体的完整全面的开发环境。在该开发环境中,只要稍加配置就可以使用Cloudera Manager,这是一个监控和管理作业的用户友好的GUI(图形用户界面)。你最好能够熟练使用这个工具,它会极大地帮你简化作业的管理和跟踪工作。
我们强烈推荐你使用上述方法来快速地搭建Hadoop2.0开发环境。
如果要使用本节讲到的Cloudera虚拟机来搭建Hadoop开发环境,你就无须了解Hadoop系统安装步骤了。但是我们仍然在附录A中介绍了Hadoop系统在Windows 和 Linux平台上的安装过程。你可以按照附录A中介绍的步骤,安装一个在伪分布式模式下运行的Hadoop系统。