也许有同学很迷惑:tornado不是标榜异步非阻塞解决10K问题的嘛?但是我却发现不是torando不好,而是你用错了.比如最近发现一个事情:某网站打开页面很慢,服务器cpu/内存都正常.网络状态也良好. 后来发现,打开页面会有很多请求后端数据库的访问,有一个mongodb的数据库业务api的rest服务.但是它的tornado却用错了,一步步的来研究问题:
说明
以下的例子都有2个url,一个是耗时的请求,一个是可以或者说需要立刻返回的请求,我想就算一个对技术不熟,从道理上来说的用户, 他希望的是他访问的请求不会影响也不会被其他人的请求影响
代码如下 | 复制代码 |
#!/bin/env python
import tornado.httpserver import time from tornado.options import define, options class SleepHandler(tornado.web.RequestHandler): class JustNowHandler(tornado.web.RequestHandler): if __name__ == "__main__": |
假如你使用页面请求或者使用哪个httpie,curl等工具先访问http://localhost:8000/sleep,再访问http://localhost:8000/justnow.你会发现本来可以立刻返回的/jsutnow的请求会一直阻塞到/sleep请求完才返回.
这是为啥?为啥我的请求被/sleep请求阻塞了?如果平时我们的web请求足够快我们可能不会意识到这个问题,但是事实上经常会有一些耗时的进程,意味着应用程序被有效的锁定直至处理结束.
这是时候你有没有想起@tornado.web.asynchronous这个装饰器?但是使用这个装饰器有个前提就是你要耗时的执行需要执行异步,比如上面的time.sleep,你只是加装饰器是没有作用的,而且需要注意的是 Tornado默认在函数处理返回时关闭客户端的连接,但是当你使用@tornado.web.asynchonous装饰器时,Tornado永远不会自己关闭连接,需要显式的self.finish()关闭
我们大部分的函数都是阻塞的, 比如上面的time.sleep其实tornado有个异步的实现:
代码如下 | 复制代码 |
#!/bin/env python
import tornado.httpserver import time from tornado.options import define, options class SleepHandler(tornado.web.RequestHandler): class JustNowHandler(tornado.web.RequestHandler): if __name__ == "__main__": 这里有个新的tornado.gen.coroutine装饰器, coroutine是3.0之后新增的装饰器.以前的办法是用回调,还是看我这个例子: class SleepHandler(tornado.web.RequestHandler): |
使用了callback, 但是新的装饰器让我们通过yield实现同样的效果:你在打开/sleep之后再点击/justnow, justnow的请求都是立刻返回不受影响.但是用了asynchronous的装饰器你的耗时的函数也需要执行异步
刚才说的都是没有意义的例子,下面写个有点用的:读取mongodb数据库数据,然后再前端按行write出来
代码如下 | 复制代码 |
#!/bin/env python
import tornado.httpserver import time class SleepHandler(BaseHandler): def _on_response(self, message, error): class JustNowHandler(BaseHandler): if __name__ == "__main__": |
一个同事提示为什么这个耗时的东西不能异步的丢给某工具去执行而不阻塞我的请求呢?好吧,我也想到了:celery,正好github有这个东西:tornado-celery
执行下面的程序首先你要安装rabbitmq和celery:
代码如下 | 复制代码 |
#!/bin/env python
import tornado.httpserver import time from tornado.options import define, options tcelery.setup_nonblocking_producer() class SleepHandler(tornado.web.RequestHandler): class JustNowHandler(tornado.web.RequestHandler): if __name__ == "__main__": task是celery的任务定义的文件,包含我们说的time.sleep的函数 import time celery = Celery("tasks", broker="amqp://guest:guest@localhost:5672") @celery.task if __name__ == "__main__": |
然后启动celelry worker(要不然你的任务怎么执行呢?肯定需要一个消费者取走):
代码如下 | 复制代码 |
celery -A tasks worker --loglevel=info |
但是这里的问题也可能很严重:我们的异步非阻塞依赖于celery,还是这个队列的长度,假如任务很多那么就需要等待,效率很低.有没有一种办法把我的同步阻塞函数变为异步(或者说被tornado的装饰器理解和识别)呢?
代码如下 | 复制代码 |
#!/bin/env python
import tornado.httpserver import time from tornado.options import define, options class SleepHandler(tornado.web.RequestHandler): @run_on_executor class JustNowHandler(tornado.web.RequestHandler): if __name__ == "__main__": |
但是有朋友留言和我说为什么在浏览器打开多个url请求还是会阻塞一个个的响应呢?
这个事浏览器自身实现的可能是缓存把,当请求的资源相同就会出现这个问题,可以使用多浏览器(多人)或者命令行下的curl登都不会有这个问题,还有个比较恶的解决方法:
给你的请求添加一些无用参数,比如: http://localhost:8000/sleep/?a=1 也可以是个时间戳
代码如下 | 复制代码 |
from concurrent.futures import ThreadPoolExecutor from functools import partial, wraps import time import tornado.ioloop from tornado.options import define, options EXECUTOR = ThreadPoolExecutor(max_workers=4) def unblock(f): @tornado.web.asynchronous def callback(future): EXECUTOR.submit( return wrapper class JustNowHandler(tornado.web.RequestHandler): def get(self): class SleepHandler(tornado.web.RequestHandler): @unblock class SleepAsyncHandler(tornado.web.RequestHandler): @tornado.web.asynchronous def callback(future): EXECUTOR.submit( def get_(self, n): application = tornado.web.Application([ if __name__ == "__main__": |