Nutch使用之锋芒初试

“工欲善其事，必先利其器。”经过前文的“细解”，我们已经完成了Nutch在Windows中的安装。接下来就让我们通过锋芒初试，来亲自体验一下Nutch的强大功能吧！

Nutch的爬虫抓取网页有两种方式，一种方式是Intranet Crawling，针对的是企业内部网或少量网站，使用的是crawl命令；另一种方式是Whole-web crawling，针对的是整个互联网，使用inject、generate、fetch和updatedb等更底层的命令。本文将以使用Nutch为笔者在CSDN处的个人专栏(http://blog.csdn.net/zjzcl)文章内容建立搜索功能为例，来讲述Intranet Crawling的基本使用方法（假设用户电脑系统已安装好JDK、Tomcat和Resin，并做过相应的环境配置）。

1、设置Nutch的环境变量

在Windows系统的环境变量设置中，增加NUTCH_JAVA_HOME变量，并将其值设为JDK的安装目录。比如笔者电脑中JDK安装于D:\j2sdk1.4.2_09，因此将NUTCH_JAVA_HOME的值设为D:\j2sdk1.4.2_09。

2、Nutch抓取网站页面前的准备工作

（1）在Nutch的安装目录中建立一个名为url.txt的文本文件，文件中写入要抓取网站的顶级网址，即要抓取的起始页。笔者在此文件中写入如下内容：

http://blog.csdn.net/zjzcl

（2）编辑conf/crawl-urlfilter.txt文件，修改MY.DOMAIN.NAME部分:

# accept hosts in MY.DOMAIN.NAME

+^http://blog.csdn.net/zjzcl

3、运行Crawl命令抓取网站内容

双击电脑桌面上的Cygwin图标，在命令行窗口中输入：

cd /cygdrive/i/nutch-0.7.1

不明白此命令含义的读者请参见前《细解》一文，然后再输入：

bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log

等待大约2分多钟后，程序运行结束。读者会发现在nutch-0.7.1目录下被创建了一个名为crawled的文件夹，同时还生成一个名为crawl.log的日志文件。利用这一日志文件，我们可以分析可能遇到的任何错误。另外，在上述命令的参数中，dir指定抓取内容所存放的目录，depth表示以要抓取网站顶级网址为起点的爬行深度，threads指定并发的线程数。

4、使用Tomcat进行搜索测试

（1）将tomcat\webapps下的ROOT文件夹名改成ROOT1；

（2）将nutch-0.7.1目录的nutch-0.7.1.war复制到tomcat\webapps下，并将其改名为ROOT；

（3）打开ROOT\WEB-INF\classes下的nutch-site.xml文件，修改成如下形式：

<?xml version="1.0"?> 　　 <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>


　　 <!-- Put site-specific property overrides in this file. -->

　　 <nutch-conf> 　　　 <property> 　　　　 <name>searcher.dir</name> 　　　　 <value>I:/nutch-0.7.1/crawled</value> 　　　 </property> 　　 </nutch-conf>

其中的“<value>I:/nutch-0.7.1/crawled</value>”部分，读者应根据自己的设置进行相应修改。

时间： 2024-08-31 16:14:26

Nutch使用之锋芒初试

Nutch使用之锋芒初试的相关文章

Nutch 笔记（一）：Quick Start

转编写一个最简单的Nutch插件

转解析Nutch插件系统

数据-求一份配置完整简单优化过的nutch

nutch 代理本地ip与代理ip之间转换

nutch简介

Nutch介绍及使用

Cygwin运行nutch报错：Failed to set permissions of path

开发基于Nutch的集群式搜索引擎