问题描述
我用了Heritrix写垂直爬虫我写了一个Extractor在爬虫里面不能爬到信息:下面是代码if(newUrl.matches(PATTERN_SERIES)){//将链接加入到队列中,以备后续处理addLinkFormString(curi,newUrl,"",Link.NAVLINK_HOP);}可是没有下载到一个页面,我把这个爬虫写到另一个爬虫里面,代码是一样的if(newUrl.matches(PATTERN_SERIES)){//将链接加入到队列中,以备后续处理addLinkFormString(curi,newUrl,"",Link.NAVLINK_HOP);}elseif(newUrl.matches(PATTERN_P)){//链接加入到队列中,以备后续处理addLinkFormString(curi,newUrl,"",Link.NAVLINK_HOP);}改成上面那样就下了200多个页面。。。好奇怪啊我怀疑是链接迭代的时候太靠后了,而爬虫爬完了所有页面,就停止了爬虫。。希望有高手帮忙解决
解决方案
本帖最后由 alanww 于 2009-08-27 12:00:57 编辑
时间: 2024-07-28 17:17:27