用Python语言实现网络爬虫

1、什么是网络爬虫

网络爬虫是现代搜索引擎技术的一种非常核心、基础的技术，网络就好比是一张蜘蛛网，网络爬虫就像是一只蜘蛛，在网络间‘爬来爬去’，搜索有用的信息。

2、抓取代理服务器的网络爬虫

本文介绍用python实现抓取代理服务器的网络爬虫，主要步骤是：

1）利用urllib2获取提供代理服务的网页信息（本文以http://www.cnproxy.com/proxy1.html为例）

2）利用正则表达式获取代理ip信息

3）利用多线程技术验证代理ip的有效性

1）、抓取代理ip列表

def get_proxy_list():
    '''''
    http://www.cnproxy.com/proxy1.html
    http://www.cnproxy.com/proxy2.html
    http://www.cnproxy.com/proxy3.html
    '''
    portdicts = {'z':"3",'m':"4",'a':"2",'l':"9",'f':"0",'b':"5",'i':"7",'w':"6",'x':"8",'c':"1"}
    proxylist = []
    p=re.compile(r'''''<tr><td>(.+?)<SCRIPT type=text/javascript>document.write\(":"\+(.+?)\)</SCRIPT></td><td>(.+?)</td><td>.+?</td><td>(.+?)</td></tr>''')
    for i in range(1,4):
        target = r'http://www.cnproxy.com/proxy%d.html' %i
        req = urllib2.urlopen(target)
        result =  req.read()
        match = p.findall(result)
        for row in match:
            ip = row[0]
            port =row[1]
            port = map(lambda x:portdicts[x],port.split('+'))
            port = ''.join(port)
            agent = row[2]
            addr = row[3].decode("cp936").encode("utf-8")
            proxylist.append([ip,port,agent,addr])
    return proxylist

首先利用urllib2模块获取网页信息，然后利用re模块匹配代理服务器信息，把所有抓取的代理服务器信息存入proxylist里，并返回。

以上是小编为您精心准备的的内容，在的博客、问答、公众号、人物、课程等栏目也有的相关内容，欢迎继续使用右上角搜索按钮进行搜索网络
，反爬虫
，网络爬虫
， webmagic 爬虫
，代理
， python爬虫
，网络爬虫 c++
， proxy
，信息
， port
， python 爬虫
， re 爬虫
，图片python爬虫
网络爬虫搜索技术搜索
python实现网络爬虫、go语言实现网络爬虫、c语言实现网络爬虫、python实现爬虫、python 四周实现爬虫，以便于您获取更多的相关知识。

时间： 2024-08-06 04:04:23

用Python语言实现网络爬虫

用Python语言实现网络爬虫的相关文章

[Python学习] 简单网络爬虫抓取博客文章及思想介绍

使用Python编写简单网络爬虫抓取视频下载资源_python

《Python爬虫开发与项目实战》——第3章初识网络爬虫 3.1　网络爬虫概述

用Python编写网络爬虫（六）：一个简单的百度贴吧的小爬虫

精通Python网络爬虫（0）：网络爬虫学习路线

精通Python网络爬虫：核心技术、框架与项目实战.3.6　网络爬虫实现技术

精通Python网络爬虫：核心技术、框架与项目实战.3.8　小结

基于Python实现的百度贴吧网络爬虫实例_python

用Python编写网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析