Heritrix1.14.4 Web后台使用简介

   启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页:

 console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给Heritrix的Heap使用情况

   Jobs:Heritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计

   Profiles:Heritrix抓取任务相关的配置

   Logs:Heritrix的运行日志

   Reports:Heritrix的统计报表

   Setup:Heritrix实例管理界面以及Heritrix后台登录帐号密码修改

   Help:Heritrix的使用帮助文档

 

 首先我们需要切到Jobs界面,创建一个Job,如图:

 

  根据一个已经存在的job创建抓取任务

2.   根据一个抓取任务备份来创建抓取任务

3.   根据配置创建抓取任务

4.   按照默认方式创建抓取任务

asd   

    一般我们选择第3种创建方式:

 

 

 

 关于Settings里相关配置项的含义解释说明请看下面这张图:

 修改好后提交创建job,然后就能切到Console界面点击Start来启动抓取任务进行页面抓取

 

 抓取到的网页默认保存在heritrix_hone\jobs目录下,我们创建的每个job都会在jobs目录下生成一个文件夹,命名方式为job名称+当前时间戳的方式,如图:

 虽然Heritrix的web后台是全英文的,但我觉得没什么使用难度,你们多点点它的功能,从宏观上多感受下Heritrix的强大之处。最后是多阅读下Help界面里列出的一些帮助文档,这是你学习Heritrix最宝贵的资料:

 

  益达的GitHub地址请猛戳我,用力,吃点劲儿!!!

益达的新浪微博:看这里,看这里

益达的技术交流社区:码农们,I want you!!!

 

   益达Q-Q:                7-3-6-0-3-1-3-0-5

 

 

   益达的Q-Q群:      1-0-5-0-9-8-8-0-6

 

转载:http://iamyida.iteye.com/blog/2236804

时间: 2024-11-18 20:56:32

Heritrix1.14.4 Web后台使用简介的相关文章

Eclipse下运行启动Heritrix1.14.4

前面我们知道了如何通过执行Heritrix官方提供的jar包去启动Heritrix,庆幸的是,Heritrix是完全开源的,所以我们可以将Heritrix的源码直接导入Eclipse去运行它. 首先解压heritrix-1.14.4-src.zip到任意盘符,这里我直接解压到桌面,解压后你会看到如图的目录结构:  src下毫无疑问是源码文件,lib是Heritrix依赖的jar包.Testdata文件夹里存放的是测试文件,可以忽略. 然后我们可以打开Eclipse,新建一个Java Projec

Heritrix1.14.4环境搭建

Heritrix是一个基于Java的开源的具有高扩展性高灵活性的Web爬虫开源项目. Heritrix的几大亮点如下:         1.开源,如果你想了解爬虫相关知识,阅读Heritrix源码是不二之选.         2.抓取性能高,配置灵活         3.扩展性很好,便于进行二次开发 不过Heritrix让我唯一遗憾的是不支持分布式抓取,不过仍然不能否定Heritrix是一款不错的爬虫开源框架.,值得我们去学习它.   这里我以Heritrix1.14.4版本为例进行讲解Heri

jsp 布局 js-Java web后台布局怎么设置?

问题描述 Java web后台布局怎么设置? 想弄一个后台管理(页面用jsp),怎么弄一个灵活点的后台布局,点击左侧菜单能够只刷新主窗体,不刷新页面.最好给个模板效果看下.第一次弄这个.谢谢 解决方案 http://www.oschina.net/news/18007/50-best-premium-admin-templates 这是搜到的一些后台模板 你可以看看 或许能用到 第12个可能跟你要的效果一样

emma jboss-emma web后台覆盖率测试

问题描述 emma web后台覆盖率测试 现在想用emma通过前台页面,测试后台java程序的覆盖率.用的是jboss,哪位大神提供一下方法啊.越具体越好.跪求!

java web后台开发规范01

java web后台开发规范01 (1)相同的代码不要重复出现 红框中的代码完全相同,所以应该抽取出来作为一个方法 (2)相同的逻辑不要重复出现 原先,有3个地方出现resCode == 200 || resCode == 201, 所以应该把这个逻辑单独抽取出来作为一个方法 重复的逻辑在多处出现,容易造成不一致 解决方法: (3)make it simple and stupid (4)待续

如何设计多个城市app公用一个web后台架构

问题描述 如何设计多个城市app公用一个web后台架构 现在公司有一个新的APP项目,要求是每个城市1个单独的APP,有很多个城市,但是后台要求只用一个.之前没有遇到过这样的系统设计.我想后台用springMVC+mybatis不知道如何去设计.请大侠们帮帮小弟,如果有经验的朋友帮忙做技术支持小弟愿意提供报酬! 谢谢大家 解决方案 这个叫多租户架构,自己google下 http://www.ibm.com/developerworks/cn/java/j-lo-dataMultitenant/h

怎么在Eclipse下搭建Heritrix-1.14.0?

问题描述 怎么在Eclipse下搭建Heritrix-1.14.0! 解决方案 怎么在Eclipse下搭建Heritrix-1.14.01.在Eclipse下新建一个Java工程,命名Heritrix2.将heritrix-1.14.0-src文件解压,在src->java文件夹下将com,org,st文件夹拷贝到工程的src目录下3.将src->conf文件夹下的effective_tld_names.dat,heritrix.cacerts,heritrix.properties,jmxr

java web android-Java做的web后台,请教服务器如何向android同时发送图片和图片的描述信息

问题描述 Java做的web后台,请教服务器如何向android同时发送图片和图片的描述信息 如题,小弟最近在学习Android,想和服务器交互,请教大神如何实现,图片可以有多张,小弟在此不胜感激 解决方案 一般就是发送一个xml或者json序列,内容包括图片路径和图片描述

Node.js开发Web后台服务

一.简介 Node.js 是一个基于Google Chrome V8 引擎的 JavaScript 运行环境.Node.js 使用了一个事件驱动.非阻塞式 I/O 的模型,使其轻量又高效.Node.js 的包管理器 npm,是全球最大的开源库生态系统. 能方便地搭建响应速度快.易于扩展的网络应用,Node.js 使用事件驱动, 非阻塞I/O 模型而得以轻量和高效,非常适合在分布式设备上运行的数据密集型的实时应用. 官网:https://nodejs.org/en/中文:https://cnode