1、什么是网络爬虫
网络爬虫是现代搜索引擎技术的一种非常核心、基础的技术,网络就好比是一张蜘蛛网,网络爬虫就像是一只蜘蛛,在网络间‘爬来爬去’,搜索有用的信息。
2、抓取代理服务器的网络爬虫
本文介绍用python实现抓取代理服务器的网络爬虫,主要步骤是:
1)利用urllib2获取提供代理服务的网页信息(本文以http://www.cnproxy.com/proxy1.html为例)
2)利用正则表达式获取代理ip信息
3)利用多线程技术验证代理ip的有效性
1)、抓取代理ip列表
def get_proxy_list(): ''''' http://www.cnproxy.com/proxy1.html http://www.cnproxy.com/proxy2.html http://www.cnproxy.com/proxy3.html ''' portdicts = {'z':"3",'m':"4",'a':"2",'l':"9",'f':"0",'b':"5",'i':"7",'w':"6",'x':"8",'c':"1"} proxylist = [] p=re.compile(r'''''<tr><td>(.+?)<SCRIPT type=text/javascript>document.write\(":"\+(.+?)\)</SCRIPT></td><td>(.+?)</td><td>.+?</td><td>(.+?)</td></tr>''') for i in range(1,4): target = r'http://www.cnproxy.com/proxy%d.html' %i req = urllib2.urlopen(target) result = req.read() match = p.findall(result) for row in match: ip = row[0] port =row[1] port = map(lambda x:portdicts[x],port.split('+')) port = ''.join(port) agent = row[2] addr = row[3].decode("cp936").encode("utf-8") proxylist.append([ip,port,agent,addr]) return proxylist
首先利用urllib2模块获取网页信息,然后利用re模块匹配代理服务器信息,把所有抓取的代理服务器信息存入proxylist里,并返回。
以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索网络
, 反爬虫
, 网络爬虫
, webmagic 爬虫
, 代理
, python爬虫
, 网络爬虫 c++
, proxy
, 信息
, port
, python 爬虫
, re 爬虫
, 图片python爬虫
网络爬虫搜索技术搜索
python实现网络爬虫、go语言实现网络爬虫、c语言实现网络爬虫、python实现爬虫、python 四周实现爬虫,以便于您获取更多的相关知识。