SQL Server on Linux列存储索引

问题引入

“鸟儿啊,听说微软至SQL Server 2012以来,推出了一种全新的基于列式存储的索引,你去研究看看SQL Server on Linux对这个功能的支持度如何,效率有多大的提升?”。老鸟又迫不及待的开始给菜鸟分配任务。

分析问题

的确如老鸟所说,从SQL Server 2012开始推出了列存储索引,这个版本限制颇多,但是它对统计查询的效率提升又是实实在在的。所以,让我们来看看SQL Server on Linux列存储索引对统计查询的效率提升情况如何。
这里也顺便提一下SQL Server 2012 列存储索引的限制,比如:
非聚集列存储索引是只读的,换句话说,基表会变成Read-Only
仅支持非聚集列存储索引
只能通过删除及创建索引的方式重建索引,而不可使用ALTER INDEX命令
对应的表不可包含唯一性约束、主键约束或外键约束
......

解决问题

这一小节,我们以一组对比测试来看看列存储索引相对于B-Tree索引对统计查询的效率提升,真正是强大到没有敌人。

创建测试对象

测试之前,我们需要创建测试表对象,B-Tree索引和列存储索引,并且初始化500万条记录数据,做为测试的基础数据。

use tempdb
GO
IF OBJECT_ID('dbo.Table_with_5M_rows','U') IS NOT NULL
    DROP TABLE dbo.Table_with_5M_rows
GO

CREATE TABLE [dbo].[Table_with_5M_rows](
    [OrderItemId] [bigint] NULL,
    [OrderId] [int] NULL,
    [Price] [int] NULL,
    [ProductName] [varchar](240) NULL
) ON [PRIMARY]

GO
;WITH a
AS (
    SELECT *
    FROM (VALUES(1),(2),(3),(4),(5),(6),(7),(8),(9),(10)) AS a(a)
)
INSERT INTO Table_with_5M_rows
SELECT TOP(5000000)
    OrderItemId = ROW_NUMBER() OVER (ORDER BY a.a)
    ,OrderId = a.a + b.a + c.a + d.a + e.a + f.a + g.a + h.a
    ,Price = a.a * 10
    ,ProductName = cast(a.a as varchar)  + cast(b.a as varchar)  + cast(c.a as varchar)  + cast(d.a as varchar)  + cast(e.a as varchar)  + cast(f.a as varchar)  + cast(g.a as varchar)  + cast(h.a as varchar)
FROM a, a AS b, a AS c, a AS d, a AS e, a AS f, a AS g, a AS h;
GO

--Create regular index
CREATE NONCLUSTERED INDEX IX_OrderId_@price
ON dbo.Table_with_5M_rows(OrderId)
INCLUDE(price) WITH(ONLINE =ON)
GO

--create columnstore index
CREATE CLUSTERED COLUMNSTORE INDEX CSIX_Table_with_5M_rows ON dbo.Table_with_5M_rows;
GO

对象创建完毕后,截图如下:

执行测试查询

首先,我们来测试使用B-Tree常规索引的查询效率,业务场景是统计每一个订单的消费总额和平均每单价格。这里,我们强制查询语句使用索引IX_OrderId_@price,需要注意的地方是,在执行查询语句之前,我们需要清空缓存来避免缓存对执行结果的影响。查询语句如下:

--clear data cache
DBCC DROPCLEANBUFFERS
DBCC FREEPROCCACHE
GO

--open statistics
SET STATISTICS IO ON
SET STATISTICS TIME ON
GO

--Testing using B-tree index
SELECT
    OrderId
    ,totalAmount = sum(price)
    ,avgPrice = avg(price)
FROM Table_with_5M_rows WITH(NOLOCK, INDEX=IX_OrderId_@price)
GROUP BY OrderId
GO

同样的道理,在对比组查询测试最开始,我们需要清空SQL Server缓存,然后强制使用列存储索引CSIX_Table_with_5M_rows,语句如下:

--clear data cache
DBCC DROPCLEANBUFFERS
DBCC FREEPROCCACHE
GO

--Testing using Column store index
SELECT
    OrderId
    ,totalAmount = sum(price)
    ,avgPrice = avg(price)
FROM Table_with_5M_rows WITH(NOLOCK, INDEX=CSIX_Table_with_5M_rows)
GROUP BY OrderId
GO

对比测试结果

两组查询测试语句执行完毕,以下我通过统计信息和执行计划两个方面来对比测试结果。
B-Tree索引查询统计信息:

Table 'Table_with_5M_rows'. Scan count 1, logical reads 16136, physical reads 0, read-ahead reads 7, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.

 SQL Server Execution Times:
   CPU time = 1295 ms,  elapsed time = 1313 ms.

列存储索引查询统计信息:

Table 'Table_with_5M_rows'. Scan count 1, logical reads 0, physical reads 0, read-ahead reads 0, lob logical reads 73, lob physical reads 7, lob read-ahead reads 0.
Table 'Table_with_5M_rows'. Segment reads 6, segment skipped 0.

 SQL Server Execution Times:
   CPU time = 5 ms,  elapsed time = 15 ms.

从查询执行的统计信息输出来看,基于B-Tree索引的查询逻辑读IO为16136,CPU消耗为1295毫秒,执行时间为1313毫秒,而基于列存储索引的查询逻辑读IO为0,CPU消耗为5毫秒,执行时间15毫秒。CPU和执行时间上有259倍和87倍的性能提升
B-Tree索引查询执行计划截图:

列存储索引查询执行计划截图:

从实际的执行计划对比来看,IO消耗从11.912降低到0.003125,大大节约了IO的性能开销,这也是为什么性能提升非常显著的原因。

写在最后

SQL Server on Linux对列存储索引的支持这点非常强大,对于统计查询效率的提升尤其是IO的提升相当明显。

时间: 2025-01-31 01:37:58

SQL Server on Linux列存储索引的相关文章

MSSQL-应用案例-SQL Server 2016基于内存优化表的列存储索引分析Web Access Log

问题引入 在日常的网站运维工作中,我们需要对网站客户端访问情况做统计.汇总.分析和报表展示,以数据来全面掌控网站运营和访问情况.当不可预知的意外情况发生时,我们可以快速发现问题以及采取相应的措施.比如:当网站受到黑客攻击时的流量陡增,又或者是网站某个资源发生意外抛异常等情况. 在提供Web服务的服务器上,比如IIS.Apache都存在访问日志记录,这篇是文章是以SQL Server 2016基于内存优化表的列存储索引来分析Apache Web Access Log为例,讲解分析网站访问情况,因此

SQL Server · 特性分析 · 2012列存储索引技术

摘要 MS SQL Server 2012首次引入了列存储索引(Columnstore Index)来加速数据分析(OLAP)和数据仓库(Data Warehouse)场景的查询,它主要是通过将数据按列压缩存储的方式来减少查询对磁盘IOPS开销和CPU开销,最终达到提升查询效率,降低响应时间的目的.当然,列存储索引也不是一把万能的钥匙,在SQL Server 2012版本中它有诸多非常严苛限制条件. 这篇文章会从以下几个方面来介绍列存储索引: 列存储索引所涉及到的基本概念 列存储索引的结构 列存

SQL Server 2012列存储索引技术

title: SQL Server 2012列存储索引技术 author: 风移 摘要 MS SQL Server 2012首次引入了列存储索引(Columnstore Index)来加速数据分析(OLAP)和数据仓库(Data Warehouse)场景的查询,它主要是通过将数据按列压缩存储的方式来减少查询对磁盘IOPS开销和CPU开销,最终达到提升查询效率,降低响应时间的目的.当然,列存储索引也不是一把万能的钥匙,在SQL Server 2012版本中它有诸多非常严苛限制条件. 这篇文章会从以

善用列存储索引:打造数据的高速公路

几个月前,我们带您了解了微软下一代数据库平台SQL Server Denali的列存储索引功能.针对数据仓库级别的表,它能够在很大程度上改善查询性能.在最新的社区预览版CTP3中,我们有幸接触到列存储索引的完整功能,那么在本文中,我们就将深入了解一下其中的奥秘. 同我们熟悉的"行存储"格式不一样,新的架构中每一列索引中的数据都是单独分组并存放的,而列数据是可以被压缩的.此外,当DBA在列存储索引上运行一个查询的时候,SQL Server只读取查询中使用到的列.这样的结果就是:更少的磁盘

解读SQL Server 2014可更新列存储索引——存储机制

概述 SQL Server 2014被号称是微软数据库的一个革命性版本,其性能的提升的幅度是有史以来之最. 可更新的列存储索引作为SQL Server 2014的一个关键功能之一,在提升数据库的查询性能方面贡献非常突出.据微软统计,在面向OLAP查询统计类系统中,相比其他SQL传统版本的数据库,报表查询的性能最大可提升上十倍. 下面我们从存储的角度来了解下SQL Server 2014的可更新列存储索引.   什么是列存储 微软为了提升SQL Server的查询性能,更好的支持大数据分析,早在S

SQL Server 2012 列存储索引分析(翻译)

一.概述   列存储索引是SQL Server 2012中为提高数据查询的性能而引入的一个新特性,顾名思义,数据以列的方式存储在页中,不同于聚集索引.非聚集索引及堆表等以行为单位的方式存储.因为它并不要求存储的列必须唯一,因此它可以通过压缩将重复的列合并,从而减少查询时的磁盘IO,提高效率. 为了分析列存储索引,我们先看看B树或堆中的数据的存储方式,如下图,在page1上,数据是按照行的方式存储数据的,假设一行有10列,那么在该页上,实际的存储也会以每行10列的方式存储,如下图中的C1到C10.

SQL SERVER FOR 多列字符串连接 XML PATH 及 STUFF

原文:SQL SERVER FOR 多列字符串连接 XML PATH 及 STUFF 本来用 Writer 写一篇关于一列多行合并的博客来的,结果快写完了时候,在一个插入代码时候,崩了,重新打开,居然连草稿都没有--哎,我也是无语了-- 于是没有心情再写,直接发一下代码,再顺便留几个其他博文的链接 1.FOR XML PATH http://www.cnblogs.com/doubleliang/archive/2011/07/06/2098775.html 2.STUFF http://www

SQL Server on Linux的文件和目录结构

问题引入 "鸟儿啊,我记得你写过一篇<SQLServer On Linux Package List on CentOS>的文章,从这篇文章,我们很清楚的知道了SQL Server on Linux包含有哪些必要的包.那么,我们怎么知道SQL Server on Linux到底包含哪些重要的文件和目录结构呢?他们的作用是什么?". "的确,当我们在排错或者需要改变MSSQL Server on Linux配置的时候,我们需要对SQL Server的各个工作目录和文

SQL Server on Linux BCP工具导出RDS SQL Server数据

摘要: SQL Server发布了Linux版本之后,客户增加了一些新需求,总结主要有以下两种: 1.是否支持在Linux操作系统保存,RDS SQL Server的CSV格式文件到文件系统 2.在一台Linux系统的主机同时管理RDS MySQL实例数据和RDS SQL Server数据 需求解读: SQL Server BCP工具可以满足以上需求,这个工具提供了导出CSV格式的文本,可以保存在Linux文件系统,同时也可以方便的讲这个CSV文件导入到RDS MySQL实例或其他支持标准CSV