爬虫遇到403问题

问题描述

最近在做一个爬虫获取论坛信息,访问200左右个页面后,就返回403,远程服务器访问。已经设置了request.UserAgent="Mozilla/4.0(compatible;MSIE4.5;WindowNT5.1)";且浏览器也没办法访问了。如何解决?

解决方案

解决方案二:
把你封了?
解决方案三:
放慢速度,尽量模拟手工点击的频率,这样大部分网站还是可以通过的。
解决方案四:
引用1楼的回复:

把你封了?

没有完全封,20分钟左右就解封了
解决方案五:
引用2楼的回复:

放慢速度,尽量模拟手工点击的频率,这样大部分网站还是可以通过的。

这样的话爬虫的效率也太慢了吧,没有什么其他的途径解决么?
解决方案六:
多弄几个账号,多几个线程,同时爬呗。请求太快服务器防火墙会认为是受到攻击,这样就会被封账号,或者是IP段。
解决方案七:
我也想做个这东西来玩玩,有没有相关的资料,发给我学习一下呀
解决方案八:
引用5楼的回复:

多弄几个账号,多几个线程,同时爬呗。请求太快服务器防火墙会认为是受到攻击,这样就会被封账号,或者是IP段。

开放平台,不需要账号,已经是多线程了。
解决方案九:
请求时间间隔长一点。(这一点是必需的)多线程请求

时间: 2024-09-13 07:31:54

爬虫遇到403问题的相关文章

豆瓣-python爬虫,遇到403 forbidden,求助。

问题描述 python爬虫,遇到403 forbidden,求助. # -*- coding: utf-8 -*- import re import sys import requests reload(sys) sys.setdefaultencoding("utf-8") if __name__ == '__main__': url = 'https://movie.douban.com/subject/1433330/photos?type=W' # 获取网页源码 html =

用Python编写网络爬虫(三):异常的处理和HTTP状态码的分类

先来说一说HTTP的异常处理问题. 当urlopen不能够处理一个response时,产生urlError. 不过通常的Python APIs异常如ValueError,TypeError等也会同时产生. HTTPError是urlError的子类,通常在特定HTTP URLs中产生. 1.URLError 通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生. 这种情况下,异常同样会带有"reason"属性,它是一个tuple(可以理解为不可变的

python 爬虫教程

转载http://blog.csdn.net/freeking101/article/details/62893343 爬虫入门初级篇 IDE 选择 PyCharm(推荐).SublimeText3.VS2015.wingIDE 装python2还是python3 python社区需要很多年才能将现有的模块移植到支持python3. django web.py flask等还不支持python3.所以推荐安装python2 最新版. Windows 平台 从 http://python.org/

互联网网站的反爬虫策略浅析

中介交易 SEO诊断 淘宝客 云主机 技术大厅 因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的. 一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十上百个请求循环重复抓取,这种爬虫对中小型网站往往是毁灭性打

python爬虫入门基本知识

基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器索取数据,如何向服务器索取数据,所以了解HTTP协议就显得很有必要了. HTTP协议中文名称是超文本传输协议,是一个基于请求与响应模式的.无状态的.应用层的协议,常基于TCP的连接方式.请求和响应模式很好理解,客户端发送请求,服务器响应客户端的请求,就像学校食堂打菜一样,你和打菜阿姨说要哪份菜,她才

独家 | 一文读懂网络爬虫

前言 在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域.进入领域最想要的就是获取大量的数据来为自己的分析提供支持,但是如何获取互联网中的有效信息?这就促进了"爬虫"技术的飞速发展. 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统

总结:常用的 Python 爬虫技巧

用python也差不多一年多了,python应用最多的场景还是web快速开发.爬虫.自动化运维:写过简单网站.写过自动发帖脚本.写过收发邮件脚本.写过简单验证码识别脚本 爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情. 1.基本抓取网页 get方法 post方法 2.使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP; 在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段: 3.Cookies处理 cook

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

        本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识.         感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~ 一. 引入Selenium自动爬取百度图片         下面这部分Selenium代码的主要功能是:        

pyspider爬虫教程 (2):AJAX和HTTP

在上一篇教程<pyspider 爬虫教程 (1):HTML 和 CSS 选择>中,我们使用 self.crawl API 抓取豆瓣电影的 HTML 内容,并使用 CSS 选择器解析了一些内容.不过,现在的网站通过使用 AJAX 等技术,在你与服务器交互的同时,不用重新加载整个页面.但是,这些交互手段,让抓取变得稍微难了一些:你会发现,这些网页在抓回来后,和浏览器中的并不相同.你需要的信息并不在返回 HTML 代码中. 在这一篇教程中,我们会讨论这些技术 和 抓取他们的方法. AJAX AJAX