python爬虫抓不到网页

问题描述

python爬虫抓不到网页

抓取的时候总会出现这样的错误,IOError: [Errno socket error] [Errno 10060],求告知怎么才能解决啊。

解决方案

先在第一页捉取网页链接,存放在数据库,然后一个个从数据库读取来打开下一个网页。

解决方案二:

网络超时等错误,看上去是网络请求有问题了
或者被网站ban了

解决方案三:

造成10060(网络超时)的原因:
1.请求过于频繁,被服务器认为DDOS攻击而拒绝响应。
2.网络状态不好。
3.系统繁忙处理不过来(主要是多线程大规模请求)。
解决方法:
1.降低请求频率和增加请求间隔。
2.提高应用程序处理速度。
3.对该异常进行捕获,出现后等待一段时间重试。

解决方案四:

加tor。就好用多了。

时间: 2024-12-02 19:46:37

python爬虫抓不到网页的相关文章

python爬虫抓取图片的疑问和原理

问题描述 python爬虫抓取图片的疑问和原理 我想问一下 最简单的抓取图片保存下来的原理 如下面这段代码 response=urllib.request.urlopen("http://ww3.sinaimg.cn/mw600/006h1GB2jw1f1hbjv1eiwj30zk0qo44l.jpg") html=response.read() with open("ddd.JPG","wb") as f f.write(html) 这里htm

总结python爬虫抓站的实用技巧_python

前言 写过的这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了. 1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器 这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等. import urllib2 proxy_support = urllib2.ProxyHandler(

能够把python爬虫抓下来的放在文件夹里的图片设置成超链接吗?

问题描述 能够把python爬虫抓下来的放在文件夹里的图片设置成超链接吗? 就是用python爬了淘宝的图片下来,保存在文件夹里,想把图片设置成超链接,点击图片 就能跳转到商品详情的页面.可行吗?可以的话怎么做?谢谢! 解决方案 这个需要绑定图片的后缀来处理点击事件

用python爬虫抓站的一些技巧总结

From : http://www.pythonclub.org/python-network-application/observer-spider 1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器 这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等. import urllib2 proxy_support = urllib2.ProxyHandler({

[python爬虫] 抓取糗百

# -*- coding:utf-8 -*- # author: biezhi import urllib2 import urllib import re import thread import time #----------- 加载处理糗事百科 ----------- class QSBK: def __init__(self): self.page = 1 self.datas = [] self.enable = False # 将所有的段子都扣出来,添加到列表中并且返回列表 def

解决python写的爬虫程序抓取到的网页是乱码的问题

在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,怎么办? 下面所说的都是针对python2.7 如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码. #chardet 需要下载安装 import chardet #抓取网页html html_1 = urllib2.urlopen(line,timeout=120).read() #print html_1 mychar=chardet.detect(html_1) #print myc

零基础写python爬虫之使用urllib2组件抓取网页内容_python

版本号:Python2.7.5,Python3改动较大,各位另寻教程. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地.  类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简

使用Python编写简单网络爬虫抓取视频下载资源_python

我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚本语言,没有之一.Python的语言简洁灵活,标准库功能强大,平常可以用作计算器,文本编码转换,图片处理,批量下载,批量处理文本等.总之我很喜欢,也越用越上手,这么好用的一个工具,一般人我不告诉他... 因为其强大的字符串处理能力,以及urllib2,cookielib,re,threading这些

python 爬虫教程

转载http://blog.csdn.net/freeking101/article/details/62893343 爬虫入门初级篇 IDE 选择 PyCharm(推荐).SublimeText3.VS2015.wingIDE 装python2还是python3 python社区需要很多年才能将现有的模块移植到支持python3. django web.py flask等还不支持python3.所以推荐安装python2 最新版. Windows 平台 从 http://python.org/