python爬虫抓不到网页

问题描述

python爬虫抓不到网页: 抓取的时候总会出现这样的错误，IOError: [Errno socket error] [Errno 10060]，求告知怎么才能解决啊。

解决方案

先在第一页捉取网页链接，存放在数据库，然后一个个从数据库读取来打开下一个网页。

解决方案二：

网络超时等错误，看上去是网络请求有问题了
或者被网站ban了

解决方案三：

造成10060（网络超时）的原因：
1.请求过于频繁，被服务器认为DDOS攻击而拒绝响应。
2.网络状态不好。
3.系统繁忙处理不过来（主要是多线程大规模请求）。
解决方法：
1.降低请求频率和增加请求间隔。
2.提高应用程序处理速度。
3.对该异常进行捕获，出现后等待一段时间重试。

解决方案四：

加tor。就好用多了。

时间： 2024-12-02 19:46:37

python爬虫抓不到网页的相关文章

python爬虫抓取图片的疑问和原理

问题描述 python爬虫抓取图片的疑问和原理我想问一下最简单的抓取图片保存下来的原理如下面这段代码 response=urllib.request.urlopen("http://ww3.sinaimg.cn/mw600/006h1GB2jw1f1hbjv1eiwj30zk0qo44l.jpg") html=response.read() with open("ddd.JPG","wb") as f f.write(html) 这里htm

总结python爬虫抓站的实用技巧_python

前言写过的这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了. 1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等. import urllib2 proxy_support = urllib2.ProxyHandler(

能够把python爬虫抓下来的放在文件夹里的图片设置成超链接吗？

问题描述能够把python爬虫抓下来的放在文件夹里的图片设置成超链接吗? 就是用python爬了淘宝的图片下来,保存在文件夹里,想把图片设置成超链接,点击图片就能跳转到商品详情的页面.可行吗?可以的话怎么做?谢谢! 解决方案这个需要绑定图片的后缀来处理点击事件

用python爬虫抓站的一些技巧总结

From : http://www.pythonclub.org/python-network-application/observer-spider 1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等. import urllib2 proxy_support = urllib2.ProxyHandler({

[python爬虫] 抓取糗百

# -*- coding:utf-8 -*- # author: biezhi import urllib2 import urllib import re import thread import time #----------- 加载处理糗事百科 ----------- class QSBK: def __init__(self): self.page = 1 self.datas = [] self.enable = False # 将所有的段子都扣出来,添加到列表中并且返回列表 def

解决python写的爬虫程序抓取到的网页是乱码的问题

在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,怎么办? 下面所说的都是针对python2.7 如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码. #chardet 需要下载安装 import chardet #抓取网页html html_1 = urllib2.urlopen(line,timeout=120).read() #print html_1 mychar=chardet.detect(html_1) #print myc

零基础写python爬虫之使用urllib2组件抓取网页内容_python

版本号:Python2.7.5,Python3改动较大,各位另寻教程. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简

使用Python编写简单网络爬虫抓取视频下载资源_python

我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚本语言,没有之一.Python的语言简洁灵活,标准库功能强大,平常可以用作计算器,文本编码转换,图片处理,批量下载,批量处理文本等.总之我很喜欢,也越用越上手,这么好用的一个工具,一般人我不告诉他... 因为其强大的字符串处理能力,以及urllib2,cookielib,re,threading这些

python 爬虫教程

转载http://blog.csdn.net/freeking101/article/details/62893343 爬虫入门初级篇 IDE 选择 PyCharm(推荐).SublimeText3.VS2015.wingIDE 装python2还是python3 python社区需要很多年才能将现有的模块移植到支持python3. django web.py flask等还不支持python3.所以推荐安装python2 最新版. Windows 平台从 http://python.org/