问题描述
最近在做一个爬虫获取论坛信息,访问200左右个页面后,就返回403,远程服务器访问。已经设置了request.UserAgent="Mozilla/4.0(compatible;MSIE4.5;WindowNT5.1)";且浏览器也没办法访问了。如何解决?
解决方案
解决方案二:
把你封了?
解决方案三:
放慢速度,尽量模拟手工点击的频率,这样大部分网站还是可以通过的。
解决方案四:
引用1楼的回复:
把你封了?
没有完全封,20分钟左右就解封了
解决方案五:
引用2楼的回复:
放慢速度,尽量模拟手工点击的频率,这样大部分网站还是可以通过的。
这样的话爬虫的效率也太慢了吧,没有什么其他的途径解决么?
解决方案六:
多弄几个账号,多几个线程,同时爬呗。请求太快服务器防火墙会认为是受到攻击,这样就会被封账号,或者是IP段。
解决方案七:
我也想做个这东西来玩玩,有没有相关的资料,发给我学习一下呀
解决方案八:
引用5楼的回复:
多弄几个账号,多几个线程,同时爬呗。请求太快服务器防火墙会认为是受到攻击,这样就会被封账号,或者是IP段。
开放平台,不需要账号,已经是多线程了。
解决方案九:
请求时间间隔长一点。(这一点是必需的)多线程请求
时间: 2024-09-13 07:31:54