专家解读微软并行数据仓库

微软并行数据仓库(Parallel Data Warehouse,简称PDW)去年同SQL Server 2008 R2一同发布,该产品设计初衷是为了同Oracle Exadata和Teradata等展开竞 争。PDW真正意义上实现了混合工作负载的能力,用户可以在使用熟悉的SQL Server数据库引擎的情况下,将数据从多个物理服务器上进行扩展。

并行 数据仓库并不是一款软件系统产品,在购买之后你不能简单地将其安装在硬件上 。PDW最基本的配置是双机架,其中一个机架是管理服务器,作为管理节点、控制 节点、lzone节点和备份节点。另一个机架将存放所谓的计算节点,用来真正存储 数据,我们将其称为一个数据机架,它里面是一个10核芯片服务器(具体情况具体 分析)和专有的SAN存储设备。对PDW进行扩展十分简单,添加更多的数据机架即可 。

控制节点提供了一系列的功能,最重要的是,它们提供了查询并行数据 仓库的功能。你连接到控制节点时,并不是使用熟悉的SQL Server Management Studio(SSMS),而是使用一款第三方工具——Nexus Chameleon,它是包含在PDW 安装之内的。由于SSMS不能够直接连接到PDW控制节点,因此用户在使用PDW之前 需要熟悉这款工具。

运行在控制节点上的是一个特殊版本的SQL Server数 据库,它能够将Transact-SQL查询送到PDW计算节点来执行。事实上,来自数据仓 库的数据并不会存储在这个实例上,取而代之,它会存放数据库设置方面的元数 据,并提供暂存空间作为临时数据库。

除了处理数据查询请求之外,控制 节点还会处理你的数据加载过程。数据加载能够通过几种不同的方式来完成,最 简单的一种就是使用Business Intelligence Development Studio (BIDS)工具和 最新SQL Server集成服务(SSIS)的目标连接对象,后者是特别针对PDW研发出的产 品;另外一种方式是将数据加载到所谓的磁头停放区(landing zone),然后使用一 个新的工具叫做DWLOADER来批量加载数据到PDW。DWLOADER的工作原理同bcp工具 非常相似,它可以将数据快速地加载到目标table中。

许多人认为,微软 并行数据仓库同SQL Server或者Oracle的分区表相类似,虽然二者的概念听上去 很像,但实际上有着很大的差别。分区表是指你讲特定区域的数据分割到单独的 分区上,这样在查询的时候就可以只查询一个分区就够了;而PDW中的原理则是截 然相反的,你是将当前数据推送到系统中的每一个计算节点上,这样当你查询数 据的时候实际是由多个计算节点来响应数据请求的。

因此,当使用所有的 计算节点时,你可以增加CPU的数量并提高一次生成的I/O总数。这样的设计增加 了大量的计算资源,可以很大程度上减小响应时间。之前需要几天来完成的操作 ,在使用PDW时仅需几分钟,传统SQL Server实例无法运行的报表,PDW可以快速 地完成。

但是并行数据仓库并不是万能的,它也有自身的缺点。比如在 PDW运行插入insert操作会比传统SQL Server更慢,由于数据插入PDW时,每一行 都需要进行检测才能够决定存储在哪些计算节点上。当在PDW内部创建一个表时, 你需要明确数据是否需要复制到所有存储节点上;往往一个维度表可以这样设置。

第二个表设置选项将用来在计算节点之间发布数据,并具体根据每一列来 决定。当数据加载之后,声明过的列被hash,而hash值将同一个内部表进行比较 ,以决定哪个控制节点存储该数据。由于数据是通过控制节点来加载到系统之内 的,所以必须经过hash过程。然后行数据将从控制节点转移到计算节点进行存储 。

另外一个PDW的缺点就是聚合功能。根据编写的查询,所有被聚合的数 据需要从计算节点转移到控制节点,并存储在临时数据库中,当转移完成后再进 行聚合。如果数据量非常大的话,这个过程将是非常耗费时间的,因为数据的转 移需要网络连接来完成。在一定程度上,用户可以避免此类情况的发生,因此我 们需要对表进行特别的设计,并重新审视我们的查询语句。如果你打算做一个聚 合日志,那么一定要确保彻底测试所有的查询。

并行数据仓库的基础架构 是高度冗余的, PDW内几乎所有的组件都有备份内建在几家之内。两个管理节点 作为并行数据仓库的主控制器可以允许系统管理员对其他服务器进行相应配置 (PDW拥有自身的动态目录,可以将机器同其他任何组策略进行隔绝)。控制节点起 到了一个主动/被动Windows集群的作用,计算节点也可以配置为一个单独的集群 ,因此如果物理服务器宕机,PDW将不会失去所有的CPU计算资源。

微软的 并行数据仓库是一个非常强大的系统,企业可以根据自身需求将其的价值发挥到 最大。但记住PDW并不是SQL Server实例的替代品,二者在工作原理上并不相同。 企业在购买并行数据仓库之前,一定要理解本文中所讲到的内容,以避免操作不 当带来的不必要的麻烦。

时间: 2024-09-29 09:05:07

专家解读微软并行数据仓库的相关文章

解读微软大数据

"安装在Windows server和System Center的大数据平台叫Microsoft HDInsight Server,安装在Windows Azure上的叫Microsoft HDInsight Service"这个定义来自MSDN的一篇博客,也许看上去有些抽象,TechEd 2012技术大会现场,微软亚太研发集团首席技术官孙博凯的演讲中,为大家Demo演示了HDInsight的应用场景. Excel的用户就可以ODBC读取Hadoop资料 孙博凯在接受51CTO记者专访

.Net:解读微软互联网新战略(下)

互联网|微软|战略 .Net:解读微软互联网新战略(下)(玺龙阁收藏,强力推荐!) MSN网络服务 在.Net的整体策略出现之前,MSN实际上一直是微软的一个心病.自1995年随Windows 95推出以来,MSN虽然在信息内容建设方面卓有成效,但是其在微软公司内部的整体策略中的位置以及本身的发展策略一直摇摆不定.从在线服务的注册用户数量上,MSN根本无法和AOL相比,而作为一个纯粹网络服务门户又很难保证盈利.但是自从微软用.Net的思路把软件/服务融合为一个概念后,MSN就真正有了新的作用.它

Net:解读微软互联网新战略(上)

互联网|微软|战略 Net:解读微软互联网新战略(上)(玺龙阁收藏,强力推荐!) http://www.chinabyte.com/column/column_page.shtm?column_type=comp_search&coluid=2215 [作者]毛向辉 陈志红 文章纲要: 一.战略大转移 1..Net是什么? 2..Net是计算模式的转变 3..Net对软件商业模式的转变 4.微软的终极目标 5..Net对网络商业的影响 二.整体策略与产品目标的紧密配合 1.PC时代的延伸 2.面

【V直播】三专家解读波士顿动力Atlas惊艳后空翻7大技术难点

会后空翻的波士顿动力Atals机器人 三位嘉宾分别是: 段晋军,东南大学博士生,2015年9月-2016年9月在新加坡南洋理工大学访学.研究方向是多机器人协作.基于阻抗模型的灵巧双臂位置力协调控制.增强学习等. 孙广彬,东北大学工学博士,研究方向为多臂.多足机器人智能运动规划.控制及人机协作.2010年9月至2012年9月在卡耐基梅隆大学交流访问,2015年11月至2017年2月在新加坡南洋理工大学从事博士后研究. 梁聪慧,目前是新加坡科技研究局先进制造与技术中心的高级科学家,是一名经验丰富的机

云计算如何提升竞争力?解读微软云构想

文章讲的是云计算如何提升竞争力,解读微软云构想,工具为人类所用,IT也是如此.云计算作为第三次IT革命,如何才能增强企业的竞争力?这个问题是许多企业所关注的,但同时也困扰着不少企业的IT人员. 为了就这一问题进行探讨,IT168采访了微软云计算产品经理李琳.那么,作为云计算领域的领头羊之一,微软如何理解云计算作为工具对于提升企业竞争力的价值?这个众人眼里的云计算大头又是如何帮助企业利用云计算提升竞争力的?2012年,微软将为企业的云计算之路带来哪些惊喜?李琳在访谈中就这些问题发表了自己的看法.

专家解读网址新规:商标权不代表网络标识使用权

专家解读网址新规:商标权 不代表网络标识使用权 针对日前被受关注的无线网址.通用网址争议解决办法的正式实施,国际贸易仲裁委员会网上争议解决中心焦亚尼秘书长作出自己的解读:"网络的品牌资产遵循先注先得的原则,只要被投诉人证明其注册的善意,企业也不一定能夺回有争议的域名及网址品牌." 商标权不代表网络标识权 "目前国内企业对于品牌的认识和保护还稍显狭隘."中国企业联合会.中国企业家协会蓝传仿先生认为,"企业的品牌不仅仅指商标,如今企业应该把品牌提到战略的高度,

专家解读十二五公报4大亮点

中国共产党第十七届中央委员会第五次全体会议昨天闭幕.着力保障和改善民生,合理调整收入分配关系,强调消费在发展国民经济中的首要战略地位,本次全会传递出的亮点多而且新,本报为此请专家给予了解读. 公报中没出现GDP的指标 公报摘录:促进经济长期平稳较快发展和社会和谐稳定,为全面建成小康社会打下具有决定性意义的基础. 专家解读:中国人民大学财经学院副院长赵锡军分析,这次公报中没有出现GDP的指标,而是说长期平稳较快的发展.这意味着,在下一步经济发展中要兼顾增长和稳定两个方面.这正是十二五与十一五规划的

专家解读CPI上涨

专家解读 CPI上涨是短期阶段性上涨,还是已经形成一个趋势性上涨?CPI上涨之后,是否会有加息等货币政策出台?昨日,本报采访了左晓蕾.马光远两位知名经济学家,两人对今年余下几个月CPI走势给出了不同的判断,但是,两人对是否会加息的观点是一致的. 左晓蕾:CPI属短期上涨 知名经济学者.银河证券首席经济学家左晓蕾表示,CPI涨幅达到3.3%是可以接受的,即使达到4%也是可以接受的."7月份CPI涨幅比较大主要是受翘尾因素和农副产品的价格上涨影响所致,这是短期阶段性的上涨,如果分析清楚其中的原因,就

4位专家解读2015大数据技术进展

2015年,整个IT技术领域发生了许多深刻而又复杂的变化.本文是大数据解读篇,在这篇文章里我们将回顾2015展望2016,看看过去的一年里广受关注的技术有哪些进展,了解下数据科学家这个职业的火热. 在关键技术进展部分,从大数据生态圈众多技术中选取了Hadoop.Spark.Elasticsearch和Apache Kylin四个点,分别请了四位专家:Hulu的董西成.明略数据的梁堰波.精硕科技的卢亿雷.eBay的韩卿,来为大家解读2015里的进展. [回顾2015] 1,关键技术进展: Hado