启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页:
console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给Heritrix的Heap使用情况
Jobs:Heritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计
Profiles:Heritrix抓取任务相关的配置
Logs:Heritrix的运行日志
Reports:Heritrix的统计报表
Setup:Heritrix实例管理界面以及Heritrix后台登录帐号密码修改
Help:Heritrix的使用帮助文档
首先我们需要切到Jobs界面,创建一个Job,如图:
根据一个已经存在的job创建抓取任务
2. 根据一个抓取任务备份来创建抓取任务
3. 根据配置创建抓取任务
4. 按照默认方式创建抓取任务
asd
一般我们选择第3种创建方式:
关于Settings里相关配置项的含义解释说明请看下面这张图:
修改好后提交创建job,然后就能切到Console界面点击Start来启动抓取任务进行页面抓取
抓取到的网页默认保存在heritrix_hone\jobs目录下,我们创建的每个job都会在jobs目录下生成一个文件夹,命名方式为job名称+当前时间戳的方式,如图:
虽然Heritrix的web后台是全英文的,但我觉得没什么使用难度,你们多点点它的功能,从宏观上多感受下Heritrix的强大之处。最后是多阅读下Help界面里列出的一些帮助文档,这是你学习Heritrix最宝贵的资料:
益达的GitHub地址:请猛戳我,用力,吃点劲儿!!!
益达的新浪微博:看这里,看这里
益达的技术交流社区:码农们,I want you!!!
益达Q-Q: 7-3-6-0-3-1-3-0-5
益达的Q-Q群: 1-0-5-0-9-8-8-0-6
转载:http://iamyida.iteye.com/blog/2236804