爬虫遇到403问题

问题描述

最近在做一个爬虫获取论坛信息，访问200左右个页面后，就返回403，远程服务器访问。已经设置了request.UserAgent="Mozilla/4.0(compatible;MSIE4.5;WindowNT5.1)"；且浏览器也没办法访问了。如何解决？

解决方案

解决方案二：
把你封了？
解决方案三：
放慢速度，尽量模拟手工点击的频率，这样大部分网站还是可以通过的。
解决方案四：
引用1楼的回复:

把你封了？

没有完全封，20分钟左右就解封了
解决方案五：
引用2楼的回复:

放慢速度，尽量模拟手工点击的频率，这样大部分网站还是可以通过的。

这样的话爬虫的效率也太慢了吧，没有什么其他的途径解决么？
解决方案六：
多弄几个账号，多几个线程，同时爬呗。请求太快服务器防火墙会认为是受到攻击，这样就会被封账号，或者是IP段。
解决方案七：
我也想做个这东西来玩玩，有没有相关的资料，发给我学习一下呀
解决方案八：
引用5楼的回复:

多弄几个账号，多几个线程，同时爬呗。请求太快服务器防火墙会认为是受到攻击，这样就会被封账号，或者是IP段。

开放平台，不需要账号，已经是多线程了。
解决方案九：
请求时间间隔长一点。（这一点是必需的）多线程请求

时间： 2024-09-13 07:31:54

爬虫遇到403问题的相关文章

豆瓣-python爬虫，遇到403 forbidden，求助。

问题描述 python爬虫,遇到403 forbidden,求助. # -*- coding: utf-8 -*- import re import sys import requests reload(sys) sys.setdefaultencoding("utf-8") if __name__ == '__main__': url = 'https://movie.douban.com/subject/1433330/photos?type=W' # 获取网页源码 html =

用Python编写网络爬虫（三）：异常的处理和HTTP状态码的分类

先来说一说HTTP的异常处理问题. 当urlopen不能够处理一个response时,产生urlError. 不过通常的Python APIs异常如ValueError,TypeError等也会同时产生. HTTPError是urlError的子类,通常在特定HTTP URLs中产生. 1.URLError 通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生. 这种情况下,异常同样会带有"reason"属性,它是一个tuple(可以理解为不可变的

python 爬虫教程

转载http://blog.csdn.net/freeking101/article/details/62893343 爬虫入门初级篇 IDE 选择 PyCharm(推荐).SublimeText3.VS2015.wingIDE 装python2还是python3 python社区需要很多年才能将现有的模块移植到支持python3. django web.py flask等还不支持python3.所以推荐安装python2 最新版. Windows 平台从 http://python.org/

互联网网站的反爬虫策略浅析

中介交易 SEO诊断淘宝客云主机技术大厅因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的. 一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十上百个请求循环重复抓取,这种爬虫对中小型网站往往是毁灭性打

python爬虫入门基本知识

基础知识 HTTP协议我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器索取数据,如何向服务器索取数据,所以了解HTTP协议就显得很有必要了. HTTP协议中文名称是超文本传输协议,是一个基于请求与响应模式的.无状态的.应用层的协议,常基于TCP的连接方式.请求和响应模式很好理解,客户端发送请求,服务器响应客户端的请求,就像学校食堂打菜一样,你和打菜阿姨说要哪份菜,她才

独家 | 一文读懂网络爬虫

前言在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域.进入领域最想要的就是获取大量的数据来为自己的分析提供支持,但是如何获取互联网中的有效信息?这就促进了"爬虫"技术的飞速发展. 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统

总结：常用的 Python 爬虫技巧

用python也差不多一年多了,python应用最多的场景还是web快速开发.爬虫.自动化运维:写过简单网站.写过自动发帖脚本.写过收发邮件脚本.写过简单验证码识别脚本爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情. 1.基本抓取网页 get方法 post方法 2.使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP; 在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段: 3.Cookies处理 cook

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识. 感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~ 一. 引入Selenium自动爬取百度图片下面这部分Selenium代码的主要功能是:

pyspider爬虫教程 (2)：AJAX和HTTP

在上一篇教程<pyspider 爬虫教程 (1):HTML 和 CSS 选择>中,我们使用 self.crawl API 抓取豆瓣电影的 HTML 内容,并使用 CSS 选择器解析了一些内容.不过,现在的网站通过使用 AJAX 等技术,在你与服务器交互的同时,不用重新加载整个页面.但是,这些交互手段,让抓取变得稍微难了一些:你会发现,这些网页在抓回来后,和浏览器中的并不相同.你需要的信息并不在返回 HTML 代码中. 在这一篇教程中,我们会讨论这些技术和抓取他们的方法. AJAX AJAX

猜你喜欢

Photoshop高级助手——EXTENSIS Photo Graphics（三）

高级现在让我们看看菜单栏中命令.在这个滤镜的菜单栏中包含了--File.Edit.Graphic.Text.View.Windows.Help七个菜单. 在File菜单中我们可以看到在这儿包含了大多 ...

JDK1.5新特性一览

"JDK1.5"(开发代号猛虎)的一个重要主题就是通过新增一些特性来简化开发,这些特性包括泛型,for-each 循环,自动装包/拆包,枚举,可变参数, 静态导入 .使用这些特性有 ...

对于“冷中热”三类关键词的外链优化策略

各位站长都知道,我们通常对于关键词进行筛选的时候一般划分等级为:冷门关键词,中等关键词,热门关键词,三种情况,所以我们针对不同类型的网站,不同等级划分好关键词之后,除了对其网站本身进行优化之外,必不可 ...

apache的fastcgi配置导致的故障

[Tue Jan 10 13:54:30 2012] [alert] [client 192.168.1.200] (13)Permission denied: FastCGI: failed to ...

台式组装电脑配置单

AMD平台独立显卡带显示器 CPU: AMD 速龙II X2 245 主频:2900MHz 450元 Athlon II X2 245处理器:主频为2.9GHz,外频200MHz,倍频14.5X. ...

Win7右键菜单的小秘密

使用过Win7系统的朋友应该都知道,Win7的强大之处有时候就是一些小功能,正是这些微不足道的小功能让Win7的应用更加贴心和便捷,也可见开发者背后所付出的努力可谓是无微不至.今天我们就来说说在Win ...

什么样的空状态设计才能留住用户？

空状态,或称零数据状态,很多时候不太招设计师的待见.我们基本都是在主要流程界面的设计工作完成之后才会回过头来考虑完善一下,因为从表现上来看,空状态给人的感觉就是临时性的,有些微不足道.不要被空状态 ...

避免3种响应式设计灾祸

设计响应式网页时也会遇到一些问题,菜单.图片.内容排布如果处理不善,会破坏网站的视觉效果与内容层次关系. 响应式设计方法对开发者非常有用,因为它使我们的内容在各种设备上广为传播.不用保留几个独立版 ...

Excel中快速删除表中大量空白行的方法

1.启动Excel并打开工作表,选择工作表中的某列,在"数据"选项卡的"排序和筛选"组中单击"筛选"按钮,如图1所示. 图1 单击&qu ...

麦咖啡(Mcafee)杀毒软件卸载工具

适用范围: 6000219:SWS软件支持;6000222:软件知识文档;6000241:病毒与系统漏洞;6000242:安装.卸载; 解压后运行,按照步骤操作,特别提示到了如下图所示的地方,需要 ...

Win8系统安装msi程序出现2502/2503错误该怎么办

Msi是微软格式的安装版,一般是程序的安装软件,功能其实就是OFFICE软件的安装程序,在win8系统中安装msi程序的时候可能会经常遇到错误代码2502/2503,导致无法安装成功,出现这样的问 ...

360重装大师能装Win7吗？

360重装系统大师的优点是,只要你的电脑还能上网,那就可以一键重装系统,超简单超易用!傻瓜都能轻松一键重装系统Win7 32/64位等系统! ●360重装大师能装Win7吗? 360重装系统大师目 ...

注销的菜单里面为什么没有用户切换

问:在Windows XP系统下,单击"开始"菜单→"注销"后并没有出现"用户切换"按钮,请问这是为什么? 答:这主要是由于以下几个原因 ...

Windows 2008共享资源无法打开怎么办?

一.一般来说,当我们用鼠标双击目标共享资源图标时,Windows Server 2008系统会先对共享访问操作进行身份验证,验证通过之后才会判断是否有权访问,最后才决定是否要将目标共享资源内容显示 ...

打开电脑文件部分文字显示为乱码该怎么办？

电脑的系统文字乱码了怎么办,首先不要慌张,马上来看看解决windows系统文字出现乱码的问题方法 1.点击开始按钮,然后点击"控制面板 " 2.先将"查看方式&quo ...

【转载】每个程序员都应该学习使用Python或Ruby

如果你是个学生,你应该会C,C++和Java.还会一些VB,或C#/.NET.多少你还可能开发过一些Web网页,你知道一些HTML,CSS和JavaScript知识.总体上说,我们很难发现会 ...

《Windows 8 权威指南》——1.5　版本对比

1.5 版本对比 Windows 8 权威指南当今电脑操作系统有许多的分支,总而言之分为三部分.其一是微软代表的Windows系统家族:其二是UNIX以及其分支Linux:其三就是苹果的Mac Os ...

软件工程疑问-win10系统usb转串口驱动安装不上怎么回事？有没有朋友知道……

问题描述 win10系统usb转串口驱动安装不上怎么回事?有没有朋友知道-- win10系统usb转串口驱动安装不上怎么回事?有没有朋友知道-- 是驱动不对? 解决方案可以尝试用驱动精灵,驱动人生安 ...

性能优化系列总篇

本文为性能优化系列的总纲,主要介绍性能调优专题计划.何为性能问题.性能调优方式及前面介绍的数据库优化.布局优化.Java(Android)代码优化.网络优化具体对应的调优方式. 1.调优专题博客计划 ...

重啤执着搞疫苗研究第三军医大保持沉默

自乙肝疫苗揭盲数据公布已有半年多,重庆啤酒(600132)终于下定决心,停止单独用药组临床试验,并仍打算继续进行联合用药组的II期临床研究.但是该项目的联合申办方中国人民解放军第三军医大学却在保持沉默 ...

json返回数据去掉中括号

问题描述 json返回数据去掉中括号

Cloudstack web 界面404错误

问题描述安装完成之后打不开web界面,404错误HTTPStatus404-typeStatusreportmessagedescriptionTherequestedresource()isnot ...

冰雪奇缘--用爱酿就一部经典

冰雪奇缘--用爱酿就一部经典看过<冰雪奇缘>(frozen)之后,最大的心愿就是,如果我会魔法就好了,想堆雪人的时候,我就挥一挥手,下一场鹅毛大雪,看看北 ...

人，技术与流程（转）

我先做一下自我介绍,我是 2007 年加入的 Google,在 Moutain View 总部任 Google SRE,今年年初回国加入 Coding. 在 Google 我参与了两个 Project ...

使用jquery实现放大镜效果

原文:使用jquery实现放大镜效果实现原理首先,我们讲解一下放大镜效果的实现方式: 方法一:准备一张高像素的大图,当鼠标放到原图上,加载显示大图的对应位置. 方法二:对原图片进行放大,也就是调整 ...

事件-Android 要做一个滑动按钮如图

问题描述 Android 要做一个滑动按钮如图要求:向上推或向下拉会触发Action move事件,松手按钮弹回,提供点思路卡了好久了,请高人支招. 解决方案 onTouch监听,view跟着手势 ...

《为iPad而设计：打造畅销App》——注重市场竞争

注重市场竞争为iPad而设计:打造畅销App 对多数程序员来说"市场运作"是个贬义词.软件设计师也偏爱创作一些东西的实际过程(不善于处理市场相关事务),把市场运作看作骗人的东西- ...

eclipse中项目状态问题

问题描述 eclipse中项目状态问题如题:直接上图图片那里用红色标记的文件状态是什么意思? 文件在svn上同步的状态是有一个黄色的圆柱,更改文件后是有一个黑色的小米,那上图的状态是什么意思? 解 ...

来java树结构高手-求助ssh树结构代码来个大神

问题描述求助ssh树结构代码来个大神本人初学求个树结构的代码 ssh平台结合js做的我写了jso js 但action老是写不对 dao service全弄好了

请教Runtime.getRuntime().exec调用cmd时命令中有特殊字符的问题

问题描述先看段代码Processp=Runtime.getRuntime().exec("cmd.exe/cwmic/node:127.0.0.1/user:administrator/p ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.026 s.