问题描述
小弟最近在做一个amazon的网络爬虫,用的是开源的Heritrix,但是爬取到一半的时候出现了这样的错误:2014-10-1203:50:58.059警告thread-50org.archive.util.FileUtils.deleteSoonerOrLater()>50pendingFilestodelete;forcinggc/finalization请问这个怎么解决啊?另外:我已经得到的爬取页面的url,如何做一个限定,让Heritrix只保存这些url对应的页面啊?或者,只保存html格式的文件也行啊?谢谢了!!!
解决方案
解决方案二:
帮你顶,我觉得你可以把你需要的放在一个队列里面,不需要的就丢弃就好了
时间: 2024-09-29 18:26:15