浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

综述

随着越来越多的组织的数据从GB、TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据 时代。对海量数据的处理、分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的应用,也在潜移 默化地渗透到社会的方方面面,影响到每一个人的日常生活,人们日常生活中看到的电视节目、浏览的网页、接收到的 广告,都将是基于大数据分析之后提供的有针对性的内容。

微软在大数据领域的战略重点,在于更好地帮助客户“消费”大数据,让所有的用户都能够从几乎任何规 模任何类型的任何数据当中获得可以转化为业务执行的洞察力。基于这一战略,微软发布了新一代并行数据仓库一体机 SQL Server Parallel Data Warehouse(简称PDW),提供大规模并行处理并具备灵活线性横向扩展能力的数据仓库平台 ,其主要新特性主要体现在以下3个方面:

为大数据而建: 通过Polybase这一数据处理的突破性技术统一查询结构化、半结构划和非结构化数据,帮助用户使 用最熟悉的标准SQL语言即可轻松实现Hadoop表和关系型数据库表的关联查询。同时,由于目前大部分常用的商业智能分 析工具都无法直接查询Hadoop, 而Polybase技术通过从数据库平台层面对Hadoop的集成,使用户可以采用熟悉的现有商 业智能工具即可实现对大数据的灵活分析和展现。例如,用户可以利用熟悉的Microsoft Excel在同一表格中分析结构化 和非结构化的数据。

新一代性能与规模:采用可更新的 xVelocity 聚集列存储技术,实现高至50倍的性能提升。基于大规模并行处理引 擎技术,提供从几个TB到PB级数据的线性横向扩展能力。

最优化的软硬件价值:SQL Server 并行数据仓库一体机具备预装的硬件和软件,集成了目前微软最新一代的软件创 新技术如xVelocity 列存储、Polybase、Windows Server 2012 Hyper-V虚拟化技术,Storage Spaces存储技术等驱动精 简高效的硬件架构,提供性价比优势。

本文将深入介绍SQL Server 2012 Parallel Data Warehouse的Polybase技术,并结合具体业务场景示例讲解 Polybase技术如何为业务人员提供简单易用的大数据解决方案。

Polybase技术

总体来讲,Polybase技术包含以下具体功能:

用一个外部表来定义Hadoop中数据的结构。

通过运行SQL语句实现对Hadoop数据的查询。

通过PDW可关联查询Hadoop数据与关系型数据库PDW中的表,实现Hadoop与PDW数据的整合。

通过运行SQL命令来查询Hadoop并将结果集保存到PDW的表中,轻松实现将Hadoop数据导入到PDW。

Hadoop也可以作为PDW的一个在线数据归档系统,通过运行简单SQL命令即可将PDW中的数据导出到Hadoop,并随时通 过PDW对归档在Hadoop中的数据进行在线查询。

下面我们通过一个示例来进一步说明上述Polybase技术的应用场景及使用方法,在这个示例当中我们将基于与美国 Sandy飓风相关的一些数据,通过对这些数据的分析来协助决策派往美国各州救援资源的调配计划。

首先,在PDW关系型数据库中可以创建一张表[dbo].[nws_ffg7],存储来自于美国海洋气象局National Oceanic and Atmospheric Administration(简称NOAA)的数据。与SQL Server 2012的体验相同,我们可以通过标准的SQL Server Data Tools工具来连接PDW,如下图所示。基于[dbo].[nws_ffg7]表可以创建一个视图CREATE VIEW flashflood AS SELECT * FROM [dbo].[nws_ffg7]。通过查询flashflood视图返回的结果集可以看到,这张表里面主要存储美国各个州 的名称、地理属性信息如经度、纬度,以及各州在未来多个时间段的降雨量预测信息,如未来1小时(HR1列)、3小时( HR3列)、6小时(HR6列)等等。

时间: 2024-08-31 10:37:14

浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案的相关文章

浅析基于SQL Server PDW大数据解决方案

文章讲的是浅析基于SQL Server PDW大数据解决方案,随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的应用,也在潜移默化地渗透到社会的方方面面,影响到每一个人的日常生活,人们日常生活中看到的电视节目.浏览的网页.接收到的广告,都将是基于大数据分析之后提供的有针对性的内容. 微软在大数据领域的战略重点,在于更好地帮助客户"消费"大数据,

SQL Server 2012全力打造大数据特性

本文讲的是SQL Server 2012全力打造大数据特性,同其他IT厂商一样,微软公司也做好了全面进军"大数据"领域的准备,而即将发布的SQL Server 2012将成为微软大数据战略的支点.最新的数据库平台将提供一系列的大数据功能,其中包括Apache Hadoop连接器.开源分布式计算架构,能够存储并处理海量的结构化与非结构化数据. 为了让用户对于SQL Server 2012的大数据功能有一个更直观的了解,记者采访微软数据库平台专家Mark Kromer,让他来谈一谈SQL

SQL Server 2012中使用T-SQL操作FileTable目录实例

在SQL Server 2008提供FileStream,以借助Windows系统本身的API来强化SQL Server对于非结构化数据的支持后,SQL Server 2012更是推出了像Contained Database.FileTable等令人期待的新功能.对于FileTable的功能和特性,在此无需赘述,本文主要针对FileTable的T-SQL操作目录做一个实例演示. 关于FileTable的介绍,请参阅MSDN:http://technet.microsoft.com/zh-cn/l

SSAS:在SQL Server 2012下查看SSAS分析服务的模型及模型简介

在SSDT中部署一个 SSAS 项目到本地服务器上出现错误 You cannot deploy the model because the localhost deployment server is not running in multidimensional mode. 错误原因是因为我在本地安装 SQL Server 2012 的时候只选择安装了 Tabular Mode, 而这个Demo项 目是多维数据集项目, 在 SQL Server 2012 中被称之为 Multidimensio

《T-SQL性能调优秘笈——基于SQL Server 2012 窗口函数》——1.1 窗口函数的背景

1.1 窗口函数的背景 T-SQL性能调优秘笈--基于SQL Server 2012 窗口函数 在开始学习具体的窗口函数之前,先了解其背景和内涵,会对后续的学习有所帮助.本节先谈谈窗口函数的背景,解释基于集合方式和基于游标/迭代方式进行查询的不同,以及窗口函数如何对二者的差异进行弥补.最后,本节也提到了窗口函数的替代方法,以及为什么窗口函数会优于其替代方法.注意,尽管窗口函数能非常高效地解决很多问题,但在某些案例中,替代方法会好于窗口函数.第4章会具体谈论对窗口函数的优化,解释在什么情况下,计算

《T-SQL性能调优秘笈——基于SQL Server 2012 窗口函数》导读

前言 T-SQL性能调优秘笈--基于SQL Server 2012 窗口函数 对我而言,窗口函数是标准SQL和Microsoft SQL Server的语言(T-SQL)所支持的最深奥的特性.它们使得我们可以针对一组数据行进行灵活.清晰而且高效的操作.窗口函数的设计极富创意,克服了传统替代方式的种种不足.窗口函数可以解决的问题非常之广,值得我们投入时间认真学习.SQL Server 2005开始引入窗口函数,SQL Server 2012对已有函数进行了增强,并增加了一些新的函数.本书既覆盖由S

《T-SQL性能调优秘笈——基于SQL Server 2012 窗口函数》——1.7 小结

1.7 小结 T-SQL性能调优秘笈--基于SQL Server 2012 窗口函数 本章介绍了SQL中窗口的概念,提供了窗口函数的背景,解释了人们使用窗口函数的动机.本章随后提供了一个使用窗口函数完成查询任务的案例简介--标识序列中存在的值的区间--又称为标识数据岛.然后本章对窗口函数的设计进行了解释,包括窗口描述中涉及的元素:分区.排序.框架.最后,本章解释了标准SQL如何解决窗口描述或部分描述的重复使用问题.第2章将对窗口函数进行分别讲解,进入更多的细节. 本文仅用于学习和交流目的,不代表

《T-SQL性能调优秘笈——基于SQL Server 2012 窗口函数》——1.6 窗口定义的重复使用

1.6 窗口定义的重复使用 T-SQL性能调优秘笈--基于SQL Server 2012 窗口函数 假设我们需要在同一个查询中调用多个窗口函数,并且部分窗口描述(或所有描述)适用于多个函数.如果我们在所有函数中都给出完整的窗口描述,代码的长度会急速增加,从下面的示例中可以看到问题: 标准SQL对此有解决方法,它有一个叫做WINDOW的子句,允许我们对窗口描述或部分窗口描述进行命名:然后在定义其他窗口--即将被窗口函数使用或用来定义另一个命名窗口时,指代这个命名的窗口描述.从概念上来说,这个子句在

《T-SQL性能调优秘笈——基于SQL Server 2012 窗口函数》——1.5 潜在的额外筛选器

1.5 潜在的额外筛选器 T-SQL性能调优秘笈--基于SQL Server 2012 窗口函数 上面提供T-SQL中的一个变通方法,它可以在不直接支持窗口函数的查询元素里,间接地使用窗口函数.这个变通的方法就是CTE形式的表表达式或派生表.有变通方法当然很好,但表表达式给查询增加了一个层次,也增加了其复杂性.我展示的那些示例都很简单,但可以想象一下,如果本身的查询已经很长和复杂,这样做确实会增加难度.是否有更简单的方法,无须增加查询的层次就可达到目的? 对于窗口函数,SQL Server目前还