重定向-请教python 爬虫 ip代理 的问题

问题描述

请教python 爬虫 ip代理 的问题

我在做一个从淘宝上抓照片的爬虫,然后在应对重定向问题的时候用ip代理,使用代理部分的代码如下,ip代理是从西刺代理上抓下来并检验的,高匿的,但还是没能解决这个问题。请问下这是怎么个情况,该如何解决。如果说这样用代理是没有错的话,那是怎么被反爬虫了?

```proxies = [
{'http':'222.83.14.145:3128'},
{'http':'211.144.76.58:9000'},
{'http':'101.200.138.85:3128'},
{'http':'114.40.79.27:8080'},
{'http':'119.29.53.211:80'},
{'http':'58.49.144.208:8090'},
{'http':'42.96.197.187:80'},
{'http':'119.29.171.208:80'},
{'http':'124.160.194.71:80'},
{'http':'27.10.109.113:8118'},
{'http':'58.23.182.211:8118'},
{'http':'119.188.94.145:80'},
{'http':'113.243.132.120:8080'},
{'http':'122.96.59.107:843'},
{'http':'42.233.18.143:8118'},
{'http':'122.237.107.30:80'},
{'http':'117.69.6.181:8118'},
{'http':'118.113.7.48:8118'},
{'http':"222.83.14.145:3128"},
{'http':"115.160.137.178:8088"}
]
IPNum = ipcount%len(proxies)
print IPNum
print proxies[IPNum]
html = requests.get(each,headers = header,proxies = proxies[IPNum])


解决方案

只能说这些代理也被加到人家的爬虫黑名单了 所以还是被识别出爬虫了

解决方案二:

爬虫 代理问题
python IP代理爬虫,download 代理IP

解决方案三:

使用收费的代理ip?我记得有一个专门讲爬虫的教程有专门讲过代理ip等反反爬虫的,你可以看看学习学习:http://blog.csdn.net/youmumzcs/article/details/51396283

时间: 2024-11-03 01:35:13

重定向-请教python 爬虫 ip代理 的问题的相关文章

通过Python爬虫代理IP快速增加博客阅读量_python

写在前面 题目所说的并不是目的,主要是为了更详细的了解网站的反爬机制,如果真的想要提高博客的阅读量,优质的内容必不可少. 了解网站的反爬机制 一般网站从以下几个方面反爬虫: 1. 通过Headers反爬虫 从用户请求的Headers反爬虫是最常见的反爬虫策略.很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer). 如果遇到了这类反爬虫机制,可以直接在爬虫中添加Headers,将浏览器的User-Agen

利用Python爬虫代理IP快速增加博客阅读量的教程

写在前面 题目所说的并不是目的,主要是为了更详细的了解网站的反爬机制,如果真的想要提高博客的阅读量,优质的内容必不可少. 了解网站的反爬机制 一般网站从以下几个方面反爬虫: 1. 通过Headers反爬虫 从用户请求的Headers反爬虫是最常见的反爬虫策略.很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer). 如果遇到了这类反爬虫机制,可以直接在爬虫中添加Headers,将浏览器的User-Agen

用python爬虫登陆网页时网页的重定向问题

问题描述 用python爬虫登陆网页时网页的重定向问题 用python爬虫登陆一个网站 用urlopen打开后 打印获得的内容发现返回的一直是登陆界面 检查了cookie,表单内容的编码都是正确的 在网页上登陆后抓包发现返回的是一个302重定向 这个重定向是导致返回内容一直是登陆界面的原因吗?如果是的话应该怎么处理? 解决方案 注意cookie的问题,参考:http://lilydjwg.is-programmer.com/posts/22121.htmlhttp://iyuan.iteye.c

数据-请教一个 Python 爬虫信息提取问题

问题描述 请教一个 Python 爬虫信息提取问题 最近在学写爬虫,聚合程序员的招聘信息,已经聚合了几个网站数据: http://www.codejob.me 但在写智联招聘爬虫的时候,薪酬如'6001-8000' 我的python代码: s = '6001-8000' if '-' in s: m = re.match(r'(.*?)-(.*?)', s) print m.group(1) print m.group(2) 为什么m.group(1)成功得到6001,而m.group(2)得到

python 爬虫教程

转载http://blog.csdn.net/freeking101/article/details/62893343 爬虫入门初级篇 IDE 选择 PyCharm(推荐).SublimeText3.VS2015.wingIDE 装python2还是python3 python社区需要很多年才能将现有的模块移植到支持python3. django web.py flask等还不支持python3.所以推荐安装python2 最新版. Windows 平台 从 http://python.org/

python爬虫入门基本知识

基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器索取数据,如何向服务器索取数据,所以了解HTTP协议就显得很有必要了. HTTP协议中文名称是超文本传输协议,是一个基于请求与响应模式的.无状态的.应用层的协议,常基于TCP的连接方式.请求和响应模式很好理解,客户端发送请求,服务器响应客户端的请求,就像学校食堂打菜一样,你和打菜阿姨说要哪份菜,她才

如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读. 甩锅の声明 1.本数据节选自新浪热门微博评论,不代表本人任何观点 2.本人不接受任何非技术交流类批评指责(夸我可以) 3.本次分析结果因技术问题存在一定误差(是引入的包的问题,不是我的) 4.本次选取热门微博为一个月以前的(翻译一下:热点已经冷了,我只是个写教程的) 顶锅盖逃 继上次更完"国庆去

Python爬虫实战

引言 网络爬虫是抓取互联网信息的利器,成熟的开源爬虫框架主要集中于两种语言Java和Python.主流的开源爬虫框架包括: 1.分布式爬虫框架:Nutch 2.Java单机爬虫框架:Crawler4j, WebMagic, WebCollector.Heritrix 3.python单机爬虫框架:scrapy.pyspider Nutch是专为搜索引擎设计的的分布式开源框架,上手难度高,开发复杂,基本无法满足快速开发的需要. Java单机类爬虫框架普遍容易上手,最大的优势是在Java技术的生态圈

《Python爬虫开发与项目实战》——3.2 HTTP请求的Python实现

3.2 HTTP请求的Python实现 通过上面的网络爬虫结构,我们可以看到读取URL.下载网页是每一个爬虫必备而且关键的功能,这就需要和HTTP请求打交道.接下来讲解Python中实现HTTP请求的三种方式:urllib2/urllib.httplib/urllib以及Requests.3.2.1 urllib2/urllib实现 urllib2和urllib是Python中的两个内置模块,要实现HTTP功能,实现方式是以urllib2为主,urllib为辅. 1.?首先实现一个完整的请求与响