IO模型

一、
简介

介绍同步、异步、阻塞、非阻塞的区别。

介绍五中IO模型。

介绍IO多路复用使用的Ractor设计模式；介绍异步IO的Proactor设计模式，以及Proactor的流程。

IO模型的对比。

二、
同步、异步、阻塞、非阻塞

1.Â 阻塞（blocking）VS非阻塞（non-blocking）

依读操作为例：当用户线程发起一个IO读请求时，内核会去查看要读取的数据是否就绪，对于阻塞IO来说，如果数据没有就绪，则会一直在那等待，直到数据就绪；对于非阻塞IO来说，如果数据没有就绪，则会返回一个标志信息告知用户线程当前要读的数据没有就绪，当数据就绪之后，再将数据拷贝到用户线程。

一个完整的IO读请求操作包括两个阶段：

²
查看数据是否就绪；

²
进行数据拷贝（内核将数据拷贝到用户线程）。

阻塞和非阻塞的区别就在于第一个阶段，如果数据没有就绪，在查看数据是否就绪的过程中是一直等待，还是直接返回一个标志信息。

2.Â 同步VS异步

同步与异步的区别在于线程执行时，一个线程执行时否会导致其他的线程暂时等待。同步一个线程执行时，其他线程全部暂停；异步一个线程执行时，其他线程不暂停。

同步IO：当用户发出IO请求操作之后，如果数据没有就绪，需要通过用户线程或者内核不断地去轮询数据是否就绪，当数据就绪时，再将数据从内核拷贝到用户线程；

异步IO：只有IO请求操作的发出是由用户线程来进行的，IO操作的两个阶段都是由内核自动完成，然后发送通知告知用户线程IO操作已经完成。也就是说在异步IO中，不会对用户线程产生任何阻塞。

三、
IO模型

1.Â 同步阻塞IO（Blocking
IO）

同步阻塞IO模型是最简单的IO模型，用户线程在内核进行IO操作时被阻塞。

用户线程通过系统调用read发起IO读操作，由用户空间转到内核空间。内核等到数据包到达后，然后将接收的数据拷贝到用户空间，完成read操作。

Java io从文件中读取内容或者向文件中写入数据均使用此模型；从sokect读取数据或者向socket中写入数据也使用此模型。

2.Â 同步非阻塞IO（Non-blocking IO）

同步非阻塞IO是在同步阻塞IO的基础上，将socket设置为NONBLOCK。这样做用户线程可以在发起IO请求后可以立即返回。

由于socket是非阻塞的方式，因此用户线程发起IO请求时立即返回。但并未读取到任何数据，用户线程需要不断地发起IO请求，直到数据到达后，才真正读取到数据，继续执行。

第一阶段：用户进程没有阻塞，也就是没有挂起，它一值在询问数据有没有到达kernel buffer中，忙等…；

第二个阶段：数据从kernel buffer复制到用户进程空间，是阻塞的。

这种IO模型会大量的占用CPU的时间，效率很低效，很少使用。

3.Â IO多路复用（IO Multiplexing / 异步阻塞IO）

IO多路复用模型是建立在内核提供的多路分离函数select，poll，epoll基础之上的，使用这些函数可以避免同步非阻塞IO模型中轮询等待的问题。

1)
Rector模式

IO多路复用使用的是Reactor模式，我们先看一下Rector模式。

a)
Handle

表示操作系统中的句柄，是对资源在操作系统层面上的一种抽象，它可以是打开的文件、一个连接(Socket)、Timer等。由于Reactor模式一般使用在网络编程中，因而这里一般指Socket Handle，即一个网络连接（Connection，在Java NIO中的Channel）。这个Channel注册到Synchronous Event Demultiplexer中，以监听Handle中发生的事件，对ServerSocketChannnel可以是CONNECT事件，对SocketChannel可以是READ、WRITE、CLOSE事件等。

b)
EventHandler

表示IO事件处理器，它拥有IO文件句柄Handle（通过getHandle获取），以及对Handle的操作handleEvent（读/写等）。

继承于EventHandler的子类可以对事件处理器的行为进行定制。

c)
Reactor类

用于管理EventHandler（注册、删除等），并使用handleEvents实现事件循环，不断调用同步事件多路分离器的多路分离函数select，只要某个文件句柄被激活（可读/写等），select就返回，handleEvents就会调用与文件句柄关联的事件处理器的handleEEvent进行相关操作。

d)
Synchronous event demultiplexer

阻塞等待一系列的Handle中的事件到来。这个模块一般使用操作系统的select来实现,在Java NIO中用Selector来封装。当执行Selector.select()时会执行pollWrapper.poll()方法，此方法会调用native的epoll方法，当Selector.select()返回时，可以调用Selector的selectedKeys()方法获取Set<SelectionKey>，一个SelectionKey表达一个有事件发生的Channel以及该Channel上的事件类型。

2)
模型

通过Reactor的方式，可以将用户线程轮询IO操作状态的工作统一交给handleEvents事件循环进行处理。

用户线程注册事件处理器之后可以继续执行做其他的工作（异步），而Reactor线程负责调用内核的select函数检查socket状态。

当有socket被激活时，则通知相应的用户线程（或执行用户线程的回调函数），执行handleEvent进行数据读取、处理的工作。

由于select函数是阻塞的，因此多路IO复用模型也被称为异步阻塞IO模型。这里的所说的阻塞是指select函数执行时线程被阻塞，而不是指socket。一般在使用IO多路复用模型时，socket都是设置为NONBLOCK的，不过这并不会产生影响，因为用户发起IO请求时，数据已经到达了，用户线程一定不会被阻塞。

3)
伪代码

select(socket);
while(true) {
    sockets = select();
    for(socket in sockets) {
        if(can_read(socket)) {
            read(socket, buffer);
            process(buffer);
        }
    }
}

4)
NIO示例代码

详细示例，请参考《NIO》

4.Â 信号驱动式IO（signal-driven
IO）

首先我们允许Socket进行信号驱动IO,并安装一个信号处理函数，进程继续运行并不阻塞。当数据准备好时，进程会收到一个SIGIO信号，可以在信号处理函数中调用I/O操作函数处理数据。

5.Â 异步IO（Asynchronous IO）

“真正”的异步IO需要操作系统更强的支持。在IO多路复用模型中，事件循环将文件句柄的状态事件通知给用户线程，由用户线程自行读取数据、处理数据。而在异步IO模型中，当用户线程收到通知时，数据已经被内核读取完毕，并放在了用户线程指定的缓冲区内，内核在IO完成后通知用户线程直接使用即可。

1)
Proactor模式

异步IO模型使用了Proactor设计模式，先看一下Proactor设计模式。

Proactor模式和Reactor模式在结构上比较相似，不过在用户（Client）使用方式上差别较大。用户线程通过向Reactor对象注册感兴趣的事件监听，然后事件触发时调用事件处理函数。

AsynchronousOperationProcessor异步操作处理器；负责执行异步操作，一般由操作系统内核实现。

2)
时序

用户线程将AsynchronousOperation（读/写等）、Proactor、CompletionHandler注册到AsynchronousOperationProcessor，当用户线程调用异步API后，便继续执行自己的任务。

AsynchronousOperationProcessor会开启独立的内核线程执行异步操作，当异步IO操作完成时，AsynchronousOperationProcessor将AsynchronousOperation、Proactor、CompletionHandler取出，连同IO操作的结果数据一起转发给Proactor。

Proactor负责触发CompletionHandler中handleEvent函数。

虽然Proactor模式中每个异步操作都可以绑定一个Proactor对象，但是一般在操作系统中，Proactor被实现为Singleton模式，以便于集中化分发操作完成事件。

3)
模型

异步IO模型中，用户线程直接使用内核提供的异步IO API发起read请求，且发起后立即返回，继续执行用户线程代码。不过此时用户线程已经将调用的AsynchronousOperation和CompletionHandler注册到内核，然后操作系统开启独立的内核线程去处理IO操作。当read请求的数据到达时，由内核负责读取socket中的数据，并写入用户指定的缓冲区中。最后内核将read的数据和用户线程注册的CompletionHandler分发给内部Proactor，Proactor将IO完成的信息通知给用户线程（一般通过调用用户线程注册的完成事件处理函数），完成异步IO。

不少高性能并发服务程序使用IO多路复用模型+多线程任务处理的架构基本可以满足需求。况且目前操作系统对异步IO的支持并非特别完善，更多的是采用IO多路复用模型模拟异步IO的方式（IO事件触发时不直接通知用户线程，而是将数据读写完毕后放到用户指定的缓冲区中）。

四、
IO模型对比

1.Â IO模型功能对比

2.Â IO模型特性对比

	同步阻塞IO BIO	伪异步IO	非阻塞IO NIO	异步IO AIO
客户端连接数:IO线程数	1:1	M:N(M可以大于N)	M:1（1个线程处理多个连接）	M:0（被动回调，不需要额外线程）
阻塞	阻塞	阻塞	非阻塞	非阻塞
同步	同步	同步	同步（IO多路复用）	异步
Api使用难度	简单	简单	非常复杂	复杂
调试难度	简单	简单	复杂	复杂
可靠性	非常差	差	高	高
吞吐量	低	中	高	高

3.Â 伪异步IO

在NIO没有流行之前，为了解决tomcat通信线程铜鼓IO导致业务线程被挂住的问题，大家想到一个拌饭：在通信线程和业务线程之间做一个缓冲区，这个缓冲区用于隔离IO线程和业务线程的直接访问，实现业务线程不被IO线程阻塞。对于后端业务来说，将消息或者Task放在线程池中就直接返回了，它不在直接访问IO线程或者对IO读写，这样就不会被同步阻塞。另外，接收到客户端封装的Task后，放在后端的线程池，让后端的线程异步取任务执行，这样就解决了一连接一线程的问题。这种做法常被称之为伪异步IO。

五、
epoll原理

epoll是Linux下的一种IO多路复用技术，可以非常高效的处理数以百万计的socket句柄。

1.Â epoll方法

int epoll_create(int size)

epoll_create建立一个epoll对象。参数size是内核保证能够正确处理的最大句柄数，多于这个最大数时内核可不保证效果。

int epoll_ctl(int epfd, int op, int fd, struct epoll_event
*event)

epoll_ctl可以操作epoll_create创建的epoll，如将socket句柄加入到epoll中让其监控，或把epoll正在监控的某个socket句柄移出epoll。

int epoll_wait(int epfd, struct epoll_event *events,int
maxevents, int timeout)

epoll_wait在调用时，在给定的timeout时间内，所监控的句柄中有事件发生时，就返回用户态的进程。

2.Â epoll内部实现

epoll初始化时，会向内核注册一个文件系统，用于存储被监控的句柄文件，调用epoll_create时，会在这个文件系统中创建一个file节点。同时epoll会开辟自己的内核高速缓存区，以红黑树的结构保存句柄，以支持快速的查找、插入、删除。还会再建立一个list链表，用于存储准备就绪的事件。

当执行epoll_ctl时，把socket句柄放到epoll文件系统里file对象对应的红黑树上；给内核中断处理程序注册一个回调函数，告诉内核，如果这个句柄的中断到了，就把它放到准备就绪list链表里。所以，当一个socket上有数据到了，内核在把网卡上的数据copy到内核中后，就把socket插入到就绪链表里。

当epoll_wait调用时，仅仅观察就绪链表里有没有数据，如果有数据就返回，否则就sleep，超时时立刻返回。

3.Â epoll的工作模式

LT：level-trigger，水平触发模式

只要某个socket处于readable/writable状态，无论什么时候进行epoll_wait都会返回该socket。

ET：edge-trigger，边缘触发模式

只有某个socket从unreadable变为readable或从unwritable变为writable时，epoll_wait才会返回该socket。

六、
参考资料

高性能IO模型浅析

http://www.cnblogs.com/fanzhidongyzby/p/4098546.html

reactor-siemens.pdf

http://www.dre.vanderbilt.edu/~schmidt/PDF/reactor-siemens.pdf

深入浅出NIO
Socket实现机制

http://www.jianshu.com/p/0d497fe5484a

时间： 2024-10-26 21:45:22

IO模型

一、
简介

二、
同步、异步、阻塞、非阻塞

1.Â 阻塞（blocking）VS非阻塞（non-blocking）

2.Â 同步VS异步

三、
IO模型

1.Â 同步阻塞IO（Blocking
IO）

2.Â 同步非阻塞IO（Non-blocking IO）

3.Â IO多路复用（IO Multiplexing / 异步阻塞IO）

1)
Rector模式

2)
模型

3)
伪代码

4)
NIO示例代码

4.Â 信号驱动式IO（signal-driven
IO）

5.Â 异步IO（Asynchronous IO）

1)
Proactor模式

2)
时序

3)
模型

四、
IO模型对比

1.Â IO模型功能对比

2.Â IO模型特性对比

3.Â 伪异步IO

五、
epoll原理

1.Â epoll方法

2.Â epoll内部实现

3.Â epoll的工作模式

六、
参考资料

IO模型的相关文章

Linux IO模型漫谈（6）- 信号驱动IO模型

[转]高性能IO模型浅析

浅析IO模型

Linux五种IO模型性能分析

高性能IO模型浅析

几种服务器端IO模型的简单介绍及实现

Linux IO模型漫谈（2）

Java IO：操作系统的IO处理过程以及5种网络IO模型

Linux IO模型漫谈（1）

Linux的Socket IO模型趣解_Linux

IO模型

一、 简介

二、 同步、异步、阻塞、非阻塞

1.Â 阻塞（blocking）VS非阻塞（non-blocking）

2.Â 同步VS异步

三、 IO模型

1.Â 同步阻塞IO（Blocking IO）

2.Â 同步非阻塞IO（Non-blocking IO）

3.Â IO多路复用（IO Multiplexing / 异步阻塞IO）

1) Rector模式

2) 模型

3) 伪代码

4) NIO示例代码

4.Â 信号驱动式IO（signal-driven IO）

5.Â 异步IO（Asynchronous IO）

1) Proactor模式

2) 时序

3) 模型

四、 IO模型对比

1.Â IO模型功能对比

2.Â IO模型特性对比

3.Â 伪异步IO

五、 epoll原理

1.Â epoll方法

2.Â epoll内部实现

3.Â epoll的工作模式

六、 参考资料

IO模型的相关文章

一、
简介

二、
同步、异步、阻塞、非阻塞

三、
IO模型

1.Â 同步阻塞IO（Blocking
IO）

1)
Rector模式

2)
模型

3)
伪代码

4)
NIO示例代码

4.Â 信号驱动式IO（signal-driven
IO）

1)
Proactor模式

2)
时序

3)
模型

四、
IO模型对比

五、
epoll原理

六、
参考资料