python Gevent – 高性能的Python并发框架

来源:http://www.xuebuyuan.com/1604603.html

「Gevent 指南」直达地址: http://sdiehl.github.io/gevent-tutorial/ 

 中文版:http://xlambda.com/gevent-tutorial 推荐给正在学习或正在踩坑的少年,少走点弯路。

话说gevent也没个logo啥的,于是就摆了这张图= =|||,首先这是一种叫做greenlet的鸟,而在python里,按照官方解释greenlet是轻量级的并行编程,而gevent呢,就是利用greenlet实现的基于协程的python的网络library,好了,关系理清了。。。

话说pycon没有白去阿,了解了很多以前不知道的东西,比如说协程,gevent,greenlet,eventlet。说说协程,进程和线程大家平时了解的都比较多,而协程算是一种轻量级进程,但又不能叫进程,因为操作系统并不知道它的存在。什么意思呢,就是说,协程像是一种在程序级别来模拟系统级别的进程,由于是单进程,并且少了上下文切换,于是相对来说系统消耗很少,而且网上的各种测试也表明,协程确实拥有惊人的速度。并且在实现过程中,协程可以用以前同步思路的写法,而运行起来确是异步的,也确实很有意思。话说有一种说法就是说进化历程是多进程->多线程->异步->协程,暂且不论说的对不对,单从诸多赞誉来看,协程还是有必要理解一下的。

比较惭愧,greenlet没怎么看就直接看gevent,官方文档还是可以看看的,尤其是源码里的examples都相当不错,有助于理解gevent的使用。

gevent封装了很多很方便的接口,其中一个就是monkey

from gevent import monkey
monkey.patch_all()

这样两行,就可以使用python以前的socket之类的,因为gevent已经给你自动转化了,真是超级方便阿。

而且安装gevent也是很方便,首先安装依赖libevent和greenlet,再利用pypi安装即可

sudo apt-get install libevent-dev
sudo apt-get install python-dev
sudo easy-install gevent

然后,gevent中的event,有wait,set等api,方便你可以让某些协程在某些地方等待条件,然后用另一个去唤醒他们。

再就是gevent实现了wsgi可以很方便的当作python的web server服务器使。

最后放送一个我利用gevent实现的一个带有缓存的dns server

# -*- coding: UTF-8 -*-

import gevent
import dnslib
from gevent import socket
from gevent import event

rev=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)
rev.bind(('',53))
ip=[]
cur=0

def preload():
    for i in open('ip'):
        ip.append(i)
    print "load "+str(len(ip))+"
ip"

def send_request(data):
    global cur
    ret=rev.sendto(data,(ip[cur],53))
    cur=(cur+1)%len(ip)

class Cache:
    def __init__(self):
        self.c={}
    def get(self,key):
        return self.c.get(key,None)
    def set(self,key,value):
        self.c[key]=value
    def remove(self,key):
        self.c.pop(key,None)

cache=Cache()

def handle_request(s,data,addr):
    req=dnslib.DNSRecord.parse(data)
    qname=str(req.q.qname)
    qid=req.header.id
    ret=cache.get(qname)
    if ret:
        ret=dnslib.DNSRecord.parse(ret)
        ret.header.id=qid;
        s.sendto(ret.pack(),addr)
    else:
        e=event.Event()
        cache.set(qname+"e",e)
        send_request(data)
        e.wait(60)
        tmp=cache.get(qname)
        if tmp:
            tmp=dnslib.DNSRecord.parse(tmp)
            tmp.header.id=qid;
            s.sendto(tmp.pack(),addr)

def handle_response(data):
    req=dnslib.DNSRecord.parse(data)
    qname=str(req.q.qname)
    print qname
    cache.set(qname,data)
    e=cache.get(qname+"e")
    cache.remove(qname+"e")
    if e:
        e.set()
        e.clear()

def handler(s,data,addr):
    req=dnslib.DNSRecord.parse(data)
    if req.header.qr:
        handle_response(data)
    else:handle_request(s,data,addr)

def main():
    preload()
    while True:
        data,addr=rev.recvfrom(8192)
        gevent.spawn(handler,rev,data,addr)

if __name__ == '__main__':
    main()

这个是直接利用了dict来作为缓存查询了,在这里还有我将dict换成redis持久化实现的另一个版本(话说redis的python api也可以利用pypi安装,pypi(PyPI -
the Python Package Index : Python Package Index
)这真是个好东西阿),话说可以将这段代码放到国外的服务器上去运行,然后修改dns的地址去指向它,然后你懂的。。。

##################################

gevent相关,请去官网http://pypi.python.org/pypi/gevent#downloads下载gevent模块

程序及注释如下:

# -*- coding: cp936 -*-

import gevent 

import time
from gevent import event #调用gevent的event子模块
#三个进程需要定义三个事件event1,event2,event3,来进行12,23,31循环机制,即进程一,进程二,进程三顺序执行

def fun1(num,event1,event2):#固定格式

    i=0

    while i<10: #设置循环10次

        i+=1

        time.sleep(1) #睡眠1秒

        print'进程一:111111111'

        event2.set() #将event2值设为True

        event1.clear()#将event1值设为False

        event1.wait()#event1等待,其值为True时才执行

def fun2(num,event2,event3):

    i=0

    while i<10:

        i+=1

        time.sleep(1)

        print'进程二:222222222'

        event3.set()#将event3值设为True

        event2.clear()#将event2值设为False

        event2.wait()#event2等待,其值为True时才执行
def fun3(num,event3,event1):

    i=0

    while i<10:

        i+=1

        time.sleep(1)

        print'进程三:333333333'

        event1.set()

        event3.clear()

        event3.wait()
if __name__=="__main__": #执行调用格式

    act1=gevent.event.Event() #调用event中的Event类,用act1表示

    act2=gevent.event.Event() 

    act3=gevent.event.Event()

    #三个进程,act1,act2,act3

    Gevents=[] #建立一个数列,用来存和管理进程

    g=gevent.Greenlet(fun1,1,act1,act2) #调用gevent中的Greenlet子模块,用Greenlet创建进程一

    g.start() 

    print'进程一启动:'

    Gevents.append(g) #将进程一加入到Gevents数列
    g=gevent.Greenlet(fun2,2,act2,act3)

    g.start()

    print'进程二启动:'

    Gevents.append(g)
    g=gevent.Greenlet(fun3,3,act3,act1)

    g.start()

    print'进程三启动:'

    print'所有进程都已启动!'

    Gevents.append(g)
    gevent.joinall(Gevents) #调用Greenlet中的joinall函数,将Gevents的进程收集排列

##################################

看看Gevent
您可以创建几个 Greenlet 对象为几个任务。
每个 greenlet 是绿色的线程

from gevent import monkey
monkey.patch_all()
import gevent
from gevent import Greenlet

class Task(Greenlet):
    def __init__(self, name):
        Greenlet.__init__(self)
        self.name = name
    def _run(self):
        print "Task %s: some task..." % self.name

t1 = Task("task1")
t2 = Task("task2")
t1.start()
t2.start()
# here we are waiting all tasks
gevent.joinall([t1,t2])

##################################

关于gevent

首先,gevent是一个网络库:libevent是一个事件分发引擎,greenlet提供了轻量级线程的支持。所以它不适合处理有长时间阻塞IO的情况。

gevent就是基于这两个东西的一个专门处理网络逻辑的并行库。

 

1. gevent.spawn启动的所有协程,都是运行在同一个线程之中,所以协程不能跨线程同步数据。

 

2. gevent.queue.Queue 是协程安全的。

 

3. gevent启动的并发协程,具体到task function,不能有长时间阻塞的IO操作。因为gevent的协程的特点是,当前协程阻塞了才会切换到别的协程。

如果当前协程长时间阻塞,则不能显示(gevent.sleep(0),或隐式,由gevent来做)切换到别的协程。导致程序出问题。

 

4. 如果有长时间阻塞的IO操作,还是用传统的线程模型比较好。

 

5. 因为gevent的特点总结是:事件驱动+协程+非阻塞IO,事件驱动值得是libvent对epool的封装,来基于事件的方式处理IO。

协程指的是greenlet,非阻塞IO指的是gevent已经patch过的各种库,例如socket和select等等。

 

6. 使用gevent的协程,最好要用gevent自身的非阻塞的库。如httplib, socket, select等等。

 

7. gevent适合处理大量无阻塞的任务,如果有实在不能把阻塞的部分变为非阻塞再交给gevent处理,就把阻塞的部分改为异步吧。

##################################

gevent注意事项

1. gevent.server.StreamServer 会针对每个客户端连接启动一个greenlet处理,要注意的是,如果不循环监听( 阻塞在read ),

每个greenlet会在完成后立即退出,从而导致客户端退出( 发送FIN_ACK给客户端 )。这个问题折腾了一晚上,终于弄明白了。坑爹啊。。

2. 要非常仔细的检查,greenlet处理的代码,发现有可能阻塞IO的地方,尽量用gevent提供的库。

3. 一些第三方库隐藏了自己的实现( 通常是直接封装C库),要使得gevent兼容它们,可以用monkey_patch,但不保证全部管用。

4. 最后最后的一点,gevent的greenlet性能非常高,所以如果是用它作为并发的client端,那么一定要注意,你的server端处理速度一定要足够快!

否则你的客户端代码会因为服务端的慢速,而失去了greenlet的优势。。。

####################################

安装 libevent:apt-get install libevent-dev

安装python-dev:apt-get install python-dev

安装greenlet:easy_install greenlet

安装gevent:easy_install gevent

一个小测试,测试gevent 的任务池

from gevent import pool
g = pool.Pool()
def a():
    for i in xrange(100):
        g.spawn(b)
def b():
    print 'b'
g.spawn(a)
g.join()

以上内容转自互联网:http://www.coder4.com/archives/1522

时间: 2024-12-07 14:55:16

python Gevent – 高性能的Python并发框架的相关文章

【Python爬虫8】Scrapy 爬虫框架

安装Scrapy 新建项目 1定义模型 2创建爬虫 3优化设置 4测试爬虫 5使用shell命令提取数据 6提取数据保存到文件中 7中断和恢复爬虫 使用Portia编写可视化爬虫 1安装 2标注 3优化爬虫 4检查结果 使用Scrapely实现自动化提取 1.安装Scrapy 用pip命令安装Scrapy:pip install Scrapy wu_being@ubuntukylin64:~/GitHub/WebScrapingWithPython$ scrapy -h Scrapy 1.3.0

Python控制多进程与多线程并发数总结_python

一.前言 本来写了脚本用于暴力破解密码,可是1秒钟尝试一个密码2220000个密码我的天,想用多线程可是只会一个for全开,难道开2220000个线程吗?只好学习控制线程数了,官方文档不好看,觉得结构不够清晰,网上找很多文章也都不很清晰,只有for全开线程,没有控制线程数的具体说明,最终终于根据多篇文章和官方文档算是搞明白基础的多线程怎么实现法了,怕长时间不用又忘记,找着麻烦就贴这了,跟我一样新手也可以参照参照. 先说进程和线程的区别: 地址空间:进程内的一个执行单元;进程至少有一个线程;它们共

利用Python的装饰器解决Bottle框架中用户验证问题

  这篇文章主要介绍了Python的Bottle框架中解决用户验证问题,代码基于Python2.x版本,需要的朋友可以参考下 首先来分析下需求,web程序后台需要认证,后台页面包含多个页面,最普通的方法就是为每个url添加认证,但是这样就需要每个每个绑定url的后台函数都需要添加类似或者相同的代码,但是这样做代码就过度冗余,而且不利于扩展. 接下来我们先不谈及装饰器,我们都知道Python是个很强大的语言,她可以将函数当做参数传递给函数,最简单的: ? 1 2 3 4 5 6 7 8 9 10

精通Python网络爬虫:核心技术、框架与项目实战导读

前 言 为什么写这本书 网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储. 随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来.对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫.在大数据时代,聚焦网络爬虫的应用需求越来越大. 目前在国内Python网络爬虫的书籍基本上都是从国外引进翻译的,

python实现可以断点续传和并发的ftp程序_python

前言 下载文件时,最怕中途断线,无法成功下载完整的文件.断点续传就是从文件中断的地方接下去下载,而不必重新下载.这项功能对于下载较大文件时非常有用.那么这篇文章就来给大家分享如何利用python实现可以断点续传和并发的ftp程序. 一.要求      1.用户md5认证      2.支持多用户同时登陆(并发)      3.进入用户的命令行模式,支持cd切换目录,ls查看目录子文件      4.执行命令(ipconfig)      5.传输文件: a.支持断点续传 b.传输中显示进度条 二

Python控制多进程与多线程并发数

Python控制多进程与多线程并发数 0x01 前言 本来写了脚本用于暴力破解密码,可是1秒钟尝试一个密码2220000个密码我的天,想用多线程可是只会一个for全开,难道开2220000个线程吗?只好学习控制线程数了,官方文档不好看,觉得结构不够清晰,网上找很多文章也都不很清晰,只有for全开线程,没有控制线程数的具体说明,最终终于根据多篇文章和官方文档算是搞明白基础的多线程怎么实现法了,怕长时间不用又忘记,找着麻烦就贴这了,跟我一样新手也可以参照参照. 先说进程和线程的区别: (1)地址空间

可爱的Python:JPython和Python for .NET内幕

David Mertz 采访了 JPython 和 Python for .NET 的开发者 Mark Hammond.Finn Bock 和 Barry Warsaw.他从 Mark 那里了解到一些有关微软开发的最新独家新闻内幕(当然所有内容都在保密合同限制内)并从 Finn 和 Barry 那里了解到有关 JPython 和他们将要发布的 Jython 项目的一些信息. 尽管 Python 通常等同于 CPython,但它的规范曾在其它地方实现过多次,包括在用于 Java 和 .NET 的应

J.U.C并发框架

 J.U.C并发框架 作者:Doug Lea SUNY Oswego Oswego NY 13126 dl@cs.oswego.edu 翻译:书卷多情 在J2SE1.5中,java.util.concurrent包下的大部分同步工具(锁.屏障等)以AbstractQueuedSynchronizer类为基础来构建.这个框架提供了一些常用机制用于自动管理并发状态.阻塞及非阻塞线程,以及队列.本论文描述了该框架的根源.设计.实现.用法及性能. 关键字:synchronized, java 1.介绍

Python网络01 原始Python服务器

原文:Python网络01 原始Python服务器 作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢!   之前我的Python教程中有人留言,表示只学Python没有用,必须学会一个框架(比如Django和web.py)才能找到工作.而我的想法是,掌握一个类似于框架的高级工具是有用的,但是基础的东西可以让你永远不被淘汰.不要被工具限制了自己的发展.今天,我在这里想要展示的,就是不使用框架,甚至不使用Python标准库中的高级包,