问题描述
Heritrix中CrawlURI类什么意思?最近在研究Heritrix源码,不明白Heritrix的CrawlURI类和CandidateURI啥意思?
解决方案
CrawlURI类和CandidateURI类都是Heritrix对URL进行处理的核心类。CrawlURI代表一个候选URL,CandidateURI也是一个URL,在被发现或检查通过后会被加到队列。CrawlURI和CandidateURI的区别在于CrawlURI是由通过了调度器(Frontier)的CandidateURI转换而来的。具体你可以看看这篇博客:http://www.yun5u.com/articles/heritrix-1-crawluri.html
解决方案二:
看下 liuxinglanyue的博客,是对Heritrix源码的分析,会给你启发的http://liuxinglanyue.iteye.com/blog/818418
时间: 2024-10-24 01:59:17