Heritrix Extractor的问题

问题描述

我用了Heritrix写垂直爬虫我写了一个Extractor在爬虫里面不能爬到信息:下面是代码if(newUrl.matches(PATTERN_SERIES)){//将链接加入到队列中,以备后续处理addLinkFormString(curi,newUrl,"",Link.NAVLINK_HOP);}可是没有下载到一个页面,我把这个爬虫写到另一个爬虫里面,代码是一样的if(newUrl.matches(PATTERN_SERIES)){//将链接加入到队列中,以备后续处理addLinkFormString(curi,newUrl,"",Link.NAVLINK_HOP);}elseif(newUrl.matches(PATTERN_P)){//链接加入到队列中,以备后续处理addLinkFormString(curi,newUrl,"",Link.NAVLINK_HOP);}改成上面那样就下了200多个页面。。。好奇怪啊我怀疑是链接迭代的时候太靠后了,而爬虫爬完了所有页面,就停止了爬虫。。希望有高手帮忙解决

解决方案

本帖最后由 alanww 于 2009-08-27 12:00:57 编辑

时间: 2024-07-28 17:17:27

Heritrix Extractor的问题的相关文章

利用 Heritrix 构建特定站点爬虫

原文地址: http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/ 郭 艳芬, IBM 实习生, IBM 简介: Heritrix 是一个由 java 开发的.开源的网络爬虫,用户可以使用它来从网上抓取想要的资源.其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑.本文详细介绍了 Heritrix 在 Eclipse 中的配置.运行,最后以抓取北京林业大学网站为例,介绍如何对其进行扩展,实现只抓取特定网站的页面.

Heritrix3.x自定义扩展Extractor

一.引言: Heritrix3.x与Heritrix1.x版本差异比较大,全新配置模式的引入+扩展接口的变化,同时由于说明文档的匮乏,给Heritrix的开发者带来困惑,前面的文章已经就Heritrix的配置部署和运行做了说明,本文就Heritrix3.x版本就Extractor扩展做出实例说明. 二.配置说明 Heritrix3.x的WebUI发生了变化,不在是原来那种WebUI选择模式,而是变成了在线配置文件直接编辑模式.在这里自定义的Extractor要想加入Heritrix运行,首先需要

java-过滤Heritrix爬虫爬取的内容时的异常

问题描述 过滤Heritrix爬虫爬取的内容时的异常 java.lang.NullPointerException at com.luceneheritrixbook.extractor.pconline.mobile.ExtractPconlineMoblie.extract(ExtractPconlineMoblie.java:121) at com.luceneheritrixbook.extractor.Extractor.traverse(Extractor.java:208) at

T-SQL Extractor

/****************************************************************************** * Author: iret * Desc: T-SQL Extractor *           Extract the comments and blanks and tabs from the SQL statement * 为了比较两个存储过程,或者SQL语句是否一致,抽空写了一个可以删除T-SQL 语句中的注释和空格的脚本,挺

提取SWF Extractor Flash动画中的背景音乐

核心提示:当你找到一首精彩动听的Flash MTV时,一定想立即得到它的MP3歌曲文件.毕竟MP3文件不仅容易播放,而且管理和收藏也很方便. 当你找到一首精彩动听的Flash MTV时,一定想立即得到它的MP3歌曲文件.毕竟MP3文件不仅容易播放,而且管理和收藏也很方便.   谈到Flash MTV变MP3,大家首先想到的可能是找转换工具.不过,能把Flash格式的SWF文件转换为MP3的工具不多,并且在转换的过程中可能存在音质损失.其实,无需转换工具,用分解工具拆分SWF文件,直接把它里面的音

DNF Extractor修改DNF背景图片与时装

  dnf Extractor下完后直接安装就行,在这个界面有4个东西,修改DNF只需要安装DNF Extractor就足够了,其他3个是其他游戏的修改软件,装不装随便. /腾讯游戏/地下城与勇士/ImagePack2文件夹: sprite_map_cutscene.NPK 城镇和载入图背景 sprite_worldmap.NPK 进入地下城背景图 sprite_interface.NPK:背景主文件 (createcharacter.img 创建角色背景图 newselectcharacter

开源爬虫: Heritrix 1.14.4 安装/使用

Heritrix 是一个由 java 开发的.开源的网络爬虫,用户可以使用它来从网上抓取想要的资源.其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑.本文详细介绍了 Heritrix 在 Eclipse 中的配置.运行. 目前 Heritrix 的最新版本是 3.1.0(2011-10-21 发布),您可以从 SourceForge(http://sourceforge.net/projects/archive-crawler/files/)上下载.每个版本都有四个压缩包,两个 .t

关于Heritrix运行错误的问题

问题描述 各位大侠,我Heritrix配置正确了,进入后运行jobs的默认出现以下问题08:32:21.718EVENTStartingJetty/4.2.2308:32:21.875EVENTStartedWebApplicationContext[/,HeritrixConsole]08:32:21.906EVENTThescratchDiryouspecified:E:HeritrixHeritrixtargetjsp-compiled-developmentisunusable.08:3

Java函数怎样注册到heritrix程序中

问题描述 这样的.我需要在Java程序中监听heritrix的爬虫结果.heritrix每爬到一个URI,我的Java程序就能知道.请问,heritrix提供了这个扩展吗?我找了heritrix的文档,好像没提到,或许是我没看清吧.Java如何注册到一个程序中,监听这个程序中某项数据的变化.急急急,在线等求大神!!! 解决方案