SQL Server事务遭遇网络异常时的处理机制浅析

SQL Server数据库中,如果应用程序正在执行一个事务的时候突然遭遇了网络异常,例如网络掉包,网络中断等,那么这个事务会怎么样? SQL Server数据库是通过什么机制来判断处理呢? 估计很多人跟我一样都有不少疑问, 我们下面构造一个测试实验来测试验证一下。如下所示:

 

 

步骤1:在客户端连使用SSMS工具连接到测试数据库,执行下面脚本,显性事务既不提交也不回滚。模拟事务正在执行当中。

 

USE AdventureWorks2012;

GO

SELECT@@SPID;

 

 

BEGINTRAN

 

    DELETEFROM [dbo].[Products] WHERE ProductID=1;

 

    --ROLLBACK;

 

 

输出的会话ID为59

 

 

 

步骤2:在测试服务器上开启Profiler跟踪一下具体信息。具体步骤略过。

 

 

 

步骤3:通过VMware vSphere Client的控制台连接到测试服务器,禁用网卡,然后启用网卡,模拟网络异常。(注意:玩过Vmware的应该都知道,这里不详细介绍!)

 

 

如下截图所示,在跟踪过程中,我们可以看到当我构造网络异常时,会话ID=59的事务立即回滚了。

 

 

 

 

当然你也可以使用下面函数查看日志里面的相关记录信息。如下所示:

 

 

SELECT*

FROMfn_dblog(NULL,NULL)

WHERE Operation ='LOP_ABORT_XACT';

 

 

你可以看到 LOP_BEGIN_XACT (事务开始)->   LOP_DELETE_ROWS (删除记录) ->  LOP_INSERT_ROWS (插入记录)  ->LOP_ABORT_XACT (事务回滚)

 

 

 

通过上面实验测试,我们知道当应用程序遭遇网络异常时,数据库会回滚未提交的事务。那么接下来的问题有下面几个:

 

 

 

1: SQL Server需要多长时间才能检测到会话的网络异常?

 

如上所示,我断开的是服务器的网络,会话立即就回滚了。但是如果我断开的是客户端(执行SSMS客户端的网络),那么会话回滚的时间是30秒。如下截图所示

 

事务开始时间为: 2017-07-27 13:48:01:820

事务回滚时间为: 2017-07-27 13:48:32.043

 

 

 

 

这个是服务器上Keep Alive参数控制的,具体位置 “SQL Server Configuration Manager”->  “SQL Server Network Configuration” ->  "Protocol for MSSQLSERVER" ->  "TCP/IP " 右键单击属性,如下截图所示:

 

 

30000 的单位是毫秒, 等价于30秒, 如果你将这个设置为60000 ,那么测试结果就会是60秒或超过60秒。

 

 

 

当然这个时间差是你断开网络的时间和事务结束的时间差,而不是事务开始时间与结束时间差,如下测试所示,截图1,由于需找到禁用网络的位置,然后又切换窗口,导致延误了几秒,这个事务开始、结束时间差为70秒。 当然这个值不可能完全等于Keep Alive的值,因为还涉及参数Keep Alive Interval的值,所以这个值玩玩是大于等于Keep Alive的值。具体后面会讲述!

 

 

 

 

 

2: SQL Server通过什么机制来判断当前会话遭遇了网络异常?

 

在这篇“ORACLE的Dead Connection Detection浅析”文章里面, 我介绍了Linux系统下TCP KeepAlive概念,顾名思义,TCP keepalive它是用来保持TCP连接的,注意它只适用于TCP连接。系统会替你维护一个timer,时间到了,就会向remote peer发送一个probe package,当然里面是没有数据的,对方就会返回一个应答,这时你就知道这个通道保持正常。与TCP keepalive有关的三个参数tcp_keepalive_time、tcp_keepalive_intvl、tcp_keepalive_probes

 

/proc/sys/net/ipv4/tcp_keepalive_time        当keepalive起用的时候,TCP发送keepalive消息的频度。默认是2小时。

/proc/sys/net/ipv4/tcp_keepalive_intvl      当探测没有确认时,keepalive探测包的发送间隔。缺省是75秒。

/proc/sys/net/ipv4/tcp_keepalive_probes     如果对方不予应答,keepalive探测包的发送次数。缺省值是9。

 

 

其实在Windows系统中也有类似的参数,分别是KeepAliveTime、KeepAliveInterval、TcpMaxDataRetransmissions

 

 

KeepAliveTime               默认是7,200,000 milliseconds = 2 hours 

KeepAliveInterval                默认是1,000 milliseconds = 1 second

TcpMaxDataRetransmissions           默认值是5次

 

 

https://technet.microsoft.com/en-us/library/cc957549.aspx

https://technet.microsoft.com/en-us/library/cc957548.aspx

https://technet.microsoft.com/en-us/library/cc938210.aspx

 

 

根据上面文档描述,几个值可以在HKLM\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters里设置,但是我检查过Windows 2000/2003/2008/2012  默认情况下,在注册表里面都没有这个值,但是可以在注册表里添加该选项。当然好像在有些操作系统下,有些参数是硬编码值,有些还不能修改.“Important note: If OS is Windows Vista/2008, the number of TCP Keepalive attempts are hardcoded to 10 and could not be adjusted via the registry.” 。 具体参考下面链接,当然这些值个人没有测试过。

 

  https://blogs.technet.microsoft.com/nettracer/2010/06/03/things-that-you-may-want-to-know-about-tcp-keepalives/

 

 

 

那么SQL Server是否也是通过OS的这三个参数来判断会话是否orphaned, 很显然不是。它是通过SQL Server的Keep Alive、Keep Alive Interval来判断会话是否遭遇网络异常。那么操作系统的KeepAliveTime跟SQL Server的Keep Alive是不是一回事? 又有什么区别呢? 其实这个可以参考https://blogs.msdn.microsoft.com/apgcdsd/2011/05/02/sql-server-connection-keepalive-faq/。摘抄部分原文如下:

 

 

1、什么是SQL Server TCP连接的Keep Alive?

 

 

简单说,Keep Alive 是SQL Server在建立每一个TCP 连接的时候,指定了TCP 协议的Keepaliveinterval 和 Keepalivetime参数。这样对每个TCP连接,如果该连接空闲时间(没有任何数据交互)超过Keepalivetime,TCP协议会自动发出Keepalive 包检测连接存活与否。如果Keepalive检测次数超过注册表TcpMaxDataRetransmissions定义的值而对方还是没有回应,那么TCP就认为该连接有问题而关闭它。通过这样的机制SQL Server能够检测出Orphaned Connection等问题。

 

SQL  Server 对每个TCP连接缺省指定Keep Alive 为30秒,Keepaliveinterval为1秒。Windows TCP配置的TcpMaxDataRetransmissions缺省是5次。就是说,如果TCP连接idle了30秒,那么TCP会发送第一个keepalive检查。如果失败,那么TCP会每隔1秒重发Keepalive 包,直到重发5次。如果第五次检测依然失败,则该连接就被Close。所以,一个TCP连接如果出现异常问题,大概在35秒的时候就会被Close。的机制SQL Server能够检测出Orphaned Connection等问题。

 

3、SQL Server的Keepalive 和Windows的TCP协议里面的Keepalive 是一样的吗?

 

原理一样,但不相互干扰。Windows 的TCP协议也有keep alive 配置,位置如下:

 

HKLM\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters

 

OS的TCP协议的Keep Alive 和SQL Server 的Keep Alive 工作原理一样的,就是在建立TCP连接的时候指定TCP连接的Keepalive属性(参见后面描述)。但是SQL Server读取自己注册表的Keep Alive来设置TCP连接属性,不理会Windows OS的注册表里面的Keepalivetime和Keepaliveinterval的值。如果一个应用程序没有显式调用函数设置TCP连接的Keepalive属性,那么他的TCP连接默认使用OS 的TCP配置。OSkeep Alive配置默认是关闭的。

 

 

 

 

 

参考资料:

 

 

https://blogs.msdn.microsoft.com/sql_protocols/2006/03/08/understand-special-tcpip-property-keep-alive-in-sql-server-2005/

https://blogs.technet.microsoft.com/nettracer/2010/06/03/things-that-you-may-want-to-know-about-tcp-keepalives/

https://blogs.msdn.microsoft.com/apgcdsd/2011/05/02/sql-server-connection-keepalive-faq/

https://blogs.msdn.microsoft.com/apgcdsd/2012/06/07/sql-server-connection-keep-alive-faq3/

时间: 2024-12-21 20:00:21

SQL Server事务遭遇网络异常时的处理机制浅析的相关文章

关于SQL Server 事务、异常和游标详解(1/3)

本教程来说一下关于SQL Server 事务.异常和游标的事情下面来看教程,希望对你有帮助. 1. 事务的特点         事务有若干条T-SQL指令组成,并且所有的指令昨晚一个整体提交给数据库教程系统,执行时,这组指令要么全部执行完成,要么全部取消.因此,事务是一个不可分割的逻辑单元.           事务有4个属性:原子性(Atomicity).一致性(Consistency).隔离性(Isolation)以及持久性(Durability),也称作事务的ACID属性.        

SQL Server数据库邮件发送异常案例

  最近遇到两起关于SQL Server数据库邮件发送异常的案例,这些问题也有点意思,顺便记录一下.方便以后遇到类似问题的人参考,不要被这些问题弄得抓狂!   案例1:我们一台数据库服务器突然发送邮件都不行了,出现问题时,检查邮件发送记录,你会发现发送状态都是failed. SELECT * FROM msdb.dbo.sysmail_faileditems   SELECT * FROM msdb.dbo.sysmail_mailitems   检查Database Mail Log,你会发现

SQL Server事务隔离级别详解

SQL Server事务隔离级别详解 标签: SQL SEERVER/MSSQL SERVER/SQL/事务隔离级别选项/设置数据库事务级别 SQL 事务隔离级别 概述      隔离级别用于决定如果控制并发用户如何读写数据的操作,同时对性能也有一定的影响作用. 步骤 事务隔离级别通过影响读操作来间接地影响写操作:可以在回话级别上设置事务隔离级别也可以在查询(表级别)级别上设置事务隔离级别.事务隔离级别总共有6个隔离级别:READ UNCOMMITTED(未提交读,读脏),相当于(NOLOCK)

SQL Server事务日志被填满的原因是什么

SQL Server事务日志可能会被填满,这会阻止之后的数据库操作,包括UPDATE, DELETE, INSERT 和CHECKPOINT. 事务日志填满会导致1105错误: Can't allocate space for object syslogs in database dbname because the logsegment is full. If you ran out of space in syslogs, dump the transaction log. Otherwis

SQL Server 事务隔离级别详解

原文:SQL Server 事务隔离级别详解 标签: SQL SEERVER/MSSQL SERVER/SQL/事务隔离级别选项/设计数据库事务级别 SQL 事务隔离级别 概述      隔离级别用于决定如果控制并发用户如何读写数据的操作,同时对性能也有一定的影响作用. 步骤 事务隔离级别通过影响读操作来间接地影响写操作:可以在回话级别上设置事务隔离级别也可以在查询(表级别)级别上设置事务隔离级别.事务隔离级别总共有6个隔离级别:READ UNCOMMITTED(未提交读,读脏),相当于(NOL

人人都是 DBA(VI)SQL Server 事务日志

原文:人人都是 DBA(VI)SQL Server 事务日志 SQL Server 的数据库引擎通过事务服务(Transaction Services)提供事务的 ACID 属性支持.ACID 属性包括: 原子性(Atomicity) 一致性(Consistency) 隔离性(Isolation) 持久性(Durability) 事务日志(Transaction Log) 事务日志(Transaction Log)存储的是对数据库所做的更改信息,让 SQL Server 有机会恢复数据库.而恢复

SQL Server事务日志的几个常用操作

我们知道,SQL Server事务日志主要是用来记录所有事务对数据库所做的修改,如果系统出现故障,它将成为最新数据的唯一来源.日志的操作常有以下几个应用: 一.事务日志文件LDF的丢失 当我们不小删除或者LDF文件丢失的时候,数据库只剩下MDF文件,此时直接通过附加MDF是无法恢复数据库的,那我们怎么样才能恢复数据库呢?我们可以把SQL Server的日志文件分为两种形式:一类是无活动事务的日志,另一类是有活动事务的日志,我们分别根据两种情况来进行数据库恢复. 1.无活动事务的日志恢复 当文件并

SQL Server中多表连接时驱动顺序对性能的影响

原文:SQL Server中多表连接时驱动顺序对性能的影响   本文出处:http://www.cnblogs.com/wy123/p/7106861.html (保留出处并非什么原创作品权利,本人拙作还远远达不到,仅仅是为了链接到原文,因为后续对可能存在的一些错误进行修正或补充,无他)   最近在SQL Server中多次遇到开发人员提交过来的有性能问题的SQL,其表面的原因是表之间去的驱动顺序造成的性能问题,具体表现在(已排除其他因素影响的情况下),存储过程偶发性的执行时间超出预期,甚至在调

sql服务器-2008 sql server(mssqlserver)和网站运行时的问题求解决

问题描述 2008 sql server(mssqlserver)和网站运行时的问题求解决 sql server(mssqlserver)不能启动了 只有关了mssqlserver 协议里的TCP/IP才能启动,一启动了TCP/IP 就自动停止 还有就是我在装的sql serve2008里打开一个网站总是有这个问题求大神帮忙解决啊 解决方案 因为端口被占用的原因,只要禁用SQLexpress的TCP/IP协议就解决了 或者把端口更改掉也可以,可以参考以下链接 http://www.jb51.ne