《Pig编程指南》一2.1　下载和安装Pig

2.1　下载和安装Pig

用户需要下载和安装Pig，才能在本地机器或者Hadoop集群上使用它。如果用户已经了解并完成了这一操作，那么可以直接跳到2.2节“运行Pig”进行阅读。

用户既可以直接下载Pig安装包也可以先下载源代码然后自行进行编译。当然同样也可以以Hadoop分支的方式获得Pig。

2.1.1　从Apache下载Pig软件包

这个是Apache Pig的官方版本。它是一个软件包，里面包含了运行Pig所需的所有JAR包。用户可以通过访问Pig发布页面进行下载。

Pig不需要安装到Hadoop集群中去。它运行在用户提交Hadoop任务的那台机器上。尽管用户可以从个人笔记本电脑或者台式计算机运行Pig，但是在实际操作中，大部分的集群管理员会配置好一到多台可以访问他们Hadoop集群的服务器，虽然这些服务器可以不是集群的一部分（也就是说它们既不是数据节点也不是计算节点）。通过这种方式，管理员可以方便地升级Pig和将工具集成在一起，同时也可以很好地限制人员对于集群的访问。这些机器被称为网关机或者缝边机。本书中我称之为网关机。

用户需要在这些网关机上安装Pig。如果用户是通过个人台式计算机或者笔记本电脑访问Hadoop集群的话，那么同样需要在个人台式计算机或者笔记本电脑上安装Pig。当然，如果用户想通过本地模式使用Pig的话，那么也可以将Pig安装到个人的本地机器上。

Pig的核心是用Java语言编写的，因此它是跨平台的。启动Pig的shell脚本是个bash脚本，所以它需要一个Unix环境。Pig所基于的Hadoop，即使使用的是本地模式，也需要是UNIX环境的，因为Hadoop的文件操作是基于UNIX的。实际情况是，大部分的Hadoop集群采用的是Linux系统。很多Pig开发者是在Mac OS X系统上开发和测试Pig的。

Pig需要Java 1.6支持，Pig版式从0.5到0.9需要Hadoop 0.20版本支持。对于以后的版本，请在下载页面确认该版本需要对应的Hadoop版本是多少。下载的Pig中会包含与它对应的Hadoop。如果用户想在本地模式下使用Pig或者想把它安装到一个没有安装Hadoop的网关机上，那么就不需要额外去下载Hadoop。

一旦下载完Pig，可以把它放在自己喜欢的任何位置，Pig无需依赖一个特定位置。安装第一步，将压缩包放在用户期望的目录下然后执行：

tar xzf filename

其中filename 是用户所下载的TAR压缩包文件。

安装第二步是确定环境变量JAVA_HOME是否设置指向到包含一个Java发布版的目录，这一步是为执行Pig做环境准备。如果这个环境变量没有设置，那么Pig会立即执行失败。用户可以通过shell命令设置该环境变量，也可以在调用Pig的时候通过命令行指定该环境变量，或者在位于用户刚才解压后的文件bin目录下的pig脚本文件中显式地指定好JAVA_HOME环境变量。用户可以通过执行 which java命令查看当前java所在路径，把这条命令返回的结果后面的bin/java 去掉，就是当前环境中JAVA_HOME的值。

2.1.2　从Cloudera下载Pig

除了官方的Apache版本之外，同样有一些其他的公司会重新包装和分发Hadoop以及与其相关的工具。当前这些公司中最受欢迎的是Cloudera，它为Red Hat系列的系统开发相应的RPM包以及为Debian系统开发相应的APT包。对于不可以使用这些包管理器的其他系统，Cloudera同样提供了tar压缩包文件。使用像Cloudera这样的发行版的一个优点是与Hadoop相关的所有工具都是打包在一起并且在一起测试完成的。同样，如果用户需要专业的技术支持，它也是提供的。缺点是用户将受制于其使用的发行版的提供商的发行速度。Apache推出一个新版本后，然后到各个分支给出不同的发行版，这中间会有一定的时间延迟。

如果想获得从Cloudera下载和安装Hadoop和Pig的详细说明，请访问Cloudera下载页面。需要注意的是用户需要单独下载Pig，因为Hadoop包中没有包含Pig。

2.1.3　使用Maven下载Pig

除了可以从Pig的Apache官方网站上下载发行版之外，用户还可以通过Apache的Maven资源库下载Pig。这个站点包含了Pig需要的所有JAR文件，包括源代码jar包文件，Javadocs jar包文件，同时还包括一个定义了Pig所依赖的JAR包的POM文件。如果用户使用maven或者ant进行编译，在编译过程中也会自动从这个资源库中下载相关的JAR包。

2.1.4　下载Pig源码