数据仓库中拉动查询性能的三驾马车

前言

在数据仓库领域中,无论是在生产系统中,还是 POC(Proof Of Concept) 性能测试,查询性能对于客户来说都是非常重要的性能指标。良好的查询性能 为各类数据仓库应用的高效作业奠定了基础。而对于查询性能来说,众所周知, 其主要性能瓶颈来自于系统 I/O,因此本文从数据仓库物理设计的角度出发, 阐述了影响查询性能的三项关键技术,并以基准测试 TPC-H 进行了实例演示, 展示性能提升的效果。

关于分区数据库,表分区和多维集群(MDC),developerWorks 上已经有 很多优秀的文章对其基本原理和特点分别进行了阐述,本文将不再赘述。本文 重点关注该三项技术在物理设计方面对查询性能的影响。

理论依据

分区数据库(Database Partitioning Feature)

分区数据库中的 Share-Nothing 架构,将繁重而又耗时的系统 I/O 作业平均分配到集群中的各个节点,结合 SAN(Storage Area Network)存储 网络,能够充分利用磁盘控制器的 I/O 性能以及存储网络的带宽。

为了能够平衡各节点的 I/O 繁忙程度,均衡的数据分布,就显得尤为重要。 数据的分布情况取决于数据本身以及数据库分区键的选择,数据库分区键的 选择应遵循以下原则:

1. 唯一数值较多、较分散的列;

2. 经常用于联结(JOIN)的列;

在数据均衡分布的情况下 , 才能避免某一节点因处理过多数据造成 I/O 过度 繁忙从而成为整个集群的瓶颈。

在单机数据库环境下,查询的处理只能利用单机中的系统资源(CPU, Memory,I/O),当数据存储在单张大表时,BI(Business Intelligence) 查询通常需要访问表中的大部分数据,如对于查询 sql1 来说,在单机环境下, 数据的物理分布如图 1 所示。在没有创建索引的情况下,数据库需要扫描整张 大表来查询符合条件的记录,不难想象扫描大表所需要的繁忙 I/O 对查询整体 性能的影响。

清单 1. 查询 sql1

1

2

3


SELECT C_NAME, C_TOTAL_SPEND, C_LOYALTY_TIER from CUSTOMER

where C_REGION = ‘ North America ’ AND C_MONTH= ‘ March ’ AND C_TYPE= ‘ VIP ’

(注:蓝色三角形代表符合查询条件的数据,即 C_REGION= ‘ North America ’ AND C_MONTH= ‘ March ’ AND C_TYPE= ‘ VIP ’)

图 1. 单机数据库环境中数据的物理分布

采用多分区数据库,可以将数据均衡地分布于集群中的各节点,虽然 BI 查询 仍需要扫描整张大表、读取大部分数据,但查询可以并行到所有节点,如图 2 所示。

图 2. 分区数据库环境中数据的物理分布

时间: 2024-09-19 02:29:54

数据仓库中拉动查询性能的三驾马车的相关文章

从数据仓库物理设计分析影响查询性能的三项关键技术

实例演示采用 IBM BCU 设计 架构,以基准测试 TPC-H 为数据源(300GB 数据量)和测试案例,展示了"三驾马车" 对查询性能的拉动效果.无论是在 POC 测试还是在现实生产系统中,查询性能都是 客户非常关注的重要指标.通过本文,读者可以充分了解"三驾马车"的奥秘所在, 文中的实例演示对读者有借鉴和参考意义. 在http://www.aliyun.com/zixun/aggregation/8302.html">数据仓库领域中,无论是在生

阿里集团明确五新战略三驾马车:基础设施落地 战略思维输出 投资拉动

北京时间11月15日,阿里巴巴集团首席执行官张勇宣布,阿里集团为更聚焦五新战略,将升级组织保障.阿里集团将在强化现有的新零售战略部署的前提下,明确五新战略的三驾马车:基础设施落地.战略思维输出.生态圈投资拉动.以全球化为核心,在关键领域和关键岗位上部署得力人才及组织队形,确保五新战略的高效运转和加速实施. 阿里巴巴集团CEO张勇 对于阿里巴巴集团而言,刚刚收官的2017年双11全球狂欢节的意义不仅在于收获了1682亿的交易数字,而是它充分证明了阿里集团选择新零售作为系统战略落地实施突破口的正确性

“三驾马车”拉动大数据征信 行业格局突变

2016年,科技领域里的谷歌机器人4:1战胜李世石,商业领域里阿里巴巴超越沃尔玛,可以算是人类历史上划时代的两件大事.大数据.云计算正推动互联网与传统行业的结合向纵深发展. 所有互联网影响比较大的行业必然容易数据化,正发展如火如荼的行业包括金融.医疗.零售等行业.对于所有的互联网金融相关方来说,征信就像水电煤一样,是互联网金融基础配置,而征信体系是风险管控的核心内容. 2016年大数据征信对金融行业的创新颠覆,最重要的一点将是:令金融行业的客户监测实现了动态风控.传统的评估.交易形态正在被数据化

“三驾马车”拉动大数据征信, “数据—信用—财富”闭环初现

2016年,科技领域里的谷歌机器人4:1战胜李世石,商业领域里阿里巴巴超越沃尔玛,可以算是人类历史上划时代的两件大事.大数据.云计算正推动互联网与传统行业的结合向纵深发展. 所有互联网影响比较大的行业必然容易数据化,正发展如火如荼的行业包括金融.医疗.零售等行业.对于所有的互联网金融相关方来说,征信就像水电煤一样,是互联网金融基础配置,而征信体系是风险管控的核心内容. 2016年大数据征信对金融行业的创新颠覆,最重要的一点将是:令金融行业的客户监测实现了动态风控.传统的评估.交易形态正在被数据化

PHP中模糊查询并关联三个select框

1.在php中我们经常用到下拉框,并相互关联,如果下拉框的option非常多,那么我们就要用到模糊搜索功能,那么怎么做呢? 在此功能中,走了弯路,最好不要关联两个select的id值后select属性选中,并不可修改.再次选择的时候去除属性,这样在去除select属性的时候存在火狐和google js兼容的问题.很容易出现不对应或者属性不能去除的情况,且功能麻烦.另外在后台一定要判断两者的对应关系.(在后台比对两者的对应关系的时候,要去数据库查询,找到企业的id,去数据库查询担保公司的id比对.

云计算、大数据与智能 三驾马车驾驭数字化转型

以数字化转型为代表的第四次工业革命已经到来,世界各地不同行业.不同规模.不同业务模式的企业,都将共同面对技术更迭带来的冲击与影响. 推动这次数字化转型的原动力,来自于三个相互依存.相互促进的技术趋势:颠覆传统IT模式,为企业带来更经济.更灵活并可无限扩展的数字化平台的云计算:在物联网.社交媒体.移动计算的快速增长中爆发的大数据:以及借由机器学习.高级分析.神经网络,帮助我们发掘业务洞察.实现自然人机交互的智能. 数据,是连接三大技术趋势的纽带,也是驱动数字化转型的"新电力".对任何一家

押注Fintech,打造消费金融三驾马车,招行想这样走完转型下半场

在说到金融业一个重要"风口"消费金融时,其中的佼佼者招行银行总是屡屡被提及. 雷锋网(公众号:雷锋网)获悉,8月31日,在银监会召开的第127场银行业例行新闻发布会上,招商银行副行长刘建军以"招行做大做强消费金融驶向蓝海"为主题进行了演讲,介绍了招商银行在金融科技及消费金融方面的发展及布局情况.  目前,招行消费金融形成了攻防有道的立体格局."攻"的具体布局体现在,招行整合行内零售信贷部与信用卡中心资源,此外与中国联通合资成立了招联消费金融公司,

大数据那些事(2):三驾马车之永垂不朽的GFS

但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable.如果我们拉长时间轴到20年为一个周期来看呢,这三驾马车到今天的影响力其实已然不同. MapReduce作为一个有很多优点又有很多缺点的东西来说,很大程度上影响力已经释微了.BigTable以及以此为代表的各种KeyValue Store还有着它的市场,但是在Google内部Spanner作为下一代的产品,也在很大程度上开始取代各种各样的的BigTab

【Intel】英特尔:三驾马车驱动开放云计算

近一年多来,IT业界在开放的架构和开放的生态系统将是推动云计算发展的关键动力上达成共识后,不少IT厂商和企业用户就把目光投向了英特尔公司,这一方面是因为英特尔已借助开放架构和开放生态系统的优势成就了在服务器.存储和以太网等与云计算载体--数据中心密切相关的领域的优势地位:另一方面,也是受到了它于2010年10月正式发布的2015云愿景的感召. 英特尔的2015云愿景完全可被视为一个构建理想云计算平台的具体行动纲领,或是方向明晰的技术创新路线.根据英特尔的说明,其三大要素--"互通".&