Heritrix爬取网页时候出错

问题描述

小弟最近在做一个amazon的网络爬虫,用的是开源的Heritrix,但是爬取到一半的时候出现了这样的错误:2014-10-1203:50:58.059警告thread-50org.archive.util.FileUtils.deleteSoonerOrLater()>50pendingFilestodelete;forcinggc/finalization请问这个怎么解决啊?另外:我已经得到的爬取页面的url,如何做一个限定,让Heritrix只保存这些url对应的页面啊?或者,只保存html格式的文件也行啊?谢谢了!!!

解决方案

解决方案二:
帮你顶,我觉得你可以把你需要的放在一个队列里面,不需要的就丢弃就好了

时间: 2024-09-29 18:26:15

Heritrix爬取网页时候出错的相关文章

python-Python爬虫爬取网页源代码为空,求问原因&解决方案(向)

问题描述 Python爬虫爬取网页源代码为空,求问原因&解决方案(向) 代码如下:import urllibimport urllib2import re url ='http://www.yingjiesheng.com/guangzhou-moreptjob-2.html'req = urllib2.Request(url)try: html = urllib2.urlopen(req).read() print htmlexcept urllib2.HTTPError e: print '

如何用python 2和python 3伪装浏览器爬取网页

python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容.但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容. 今天我来分享下载python2和python3中都是如何来模拟浏览器来跳过屏蔽进行抓取的. 最基础的抓取: #! /usr/bin/env python # -*- coding=utf-8 -*- # @Author pythontab import urllib.request url = "http://w

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫.BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析. 涉及内容如下: 常用正则表达式爬取网页信息及HTML分析总结 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容

正则-如何用Java爬取网页的copyright?

问题描述 如何用Java爬取网页的copyright? 谢谢了!新人不知道要怎么爬,这是老师论文中的内容,论文中写用了11种正则来抓取 请求大家支援QAQ 解决方案 jsoup import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; public static void main(String[] args) throws IOException { Document d

如何用nutch爬取网页评论

问题描述 如何用nutch爬取网页评论 如何用nutch1.9爬取电商网站的评论.就是爬取网页的指定内容.

数据-python 实现爬取网页的审查元素,求大神路过

问题描述 python 实现爬取网页的审查元素,求大神路过 网页源代码只有 JavaScript,没有我想要的数据.只能通过审查元素看到,怎样才能抓取审查元素的内容 暂时用的是selenium,但只能看源代码.求大神路过 解决方案 selenium拿到数据后,用lxml来解析节点,获取你对应的数据 解决方案二: beautifulsoup试试吧.. 解决方案三: 我发现了一个在云上写和运行爬虫的网站,http://www.shenjianshou.cn/.被吓到了,之前就有过这种想法,终于有人帮

网络爬虫-wget爬取网页失败问题

问题描述 wget爬取网页失败问题 用wget工具爬取指定url的页面,我的url是www.baidu.com时,就没问题,要是这个url就爬不下来https://www.baidu.com/s?wd=1446544426%40qq.com&rsv_spt=1&rsv_iqid=0x93249e020001a818&issp=1&f=3&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=98050039_dg&rsv_en

ubuntu上python无法爬取网页

问题描述 ubuntu上python无法爬取网页 在ubuntu12.04下写了个简单的python测试代码: -*- coding: UTF-8 -*- import time,urllib2,urllib,StringIO,sys,os,multiprocessing,sqlite3 if name == '__main__': stockUrl="http://www.baidu.com" stockWeb = urllib.urlopen(stockUrl).read() pr

浅谈Python爬取网页的编码处理_python

背景 中秋的时候一个朋友给我发了一封邮件说他在爬链家的时候发现网页返回的代码都是乱码让我帮他参谋参谋(中秋加班真是敬业= =)其实这个问题我很早就遇到过之前在爬小说的时候稍微看了一下不过没当回事其实这个问题就是对编码的理解不到位导致的. 问题 很普通的一个爬虫代码代码是这样的 # ecoding=utf-8 import re import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://j