Hadoop教程:SQL Server+Hadoop变身大数据解决方案

  在数据库市场中,微软的SQL Server是最受关注的产品之一。在数据库知识网站DB-Engines每月公布的数据库流行度排行榜中,SQL Server几乎稳占第二名的位置。但从这个榜单每月的变化中也可以看出,大量NoSQL数据库的排名不断上升,已经开始威胁到传统数据库的地位。

  “以不变应万变”不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场,微软就是其中的一个代表。微软的改变最早是为了向Bing提供高质量的搜索结果,这与Google的情况类似,互联网行业总是最早面临大数据挑战的。

  微软端到端的大数据解决方案可以总结为SQL Server、Windows Azure和Hadoop,用微软自己的话说就是数据管理、数据扩充和洞察力。下面笔者将按照自下而上的顺序盘点微软大数据解决方案的具体内容:

一、数据管理

  在微软的大数据解决方案中,数据管理是最底层和最基础的一环。灵活的数据管理层,可以支持所有数据类型,包括结构化、半结构化和非结构化的静态或动态数据。在数据管理层中主要包括三款产品:SQL Server、SQL Server并行数据仓库和Hadoop on Windows。

  针对不同的数据类型,微软提供了不同的解决方案。具体来说,针对结构化数据可以使用SQL Server和SQL Server并行数据仓库处理; 非结构化数据可以使用Windows Azure和Windows Server上基于Hadoop的发行版本处理;而流数据可以使用 SQL Server StreamInsight管理,并提供接近实时的分析。

  1、SQL Server。去年发布的SQL Server 2012针对大数据做了很多改进,其中最重要的就是全面支持Hadoop,这也是 SQL Server 2012与SQL Server 2008最重要的区别之一。今年年底即将正式发布的SQL Server 2014 中,SQL Server进一步针对大数据加入内存数据库功能,从硬件角度加速数据的处理,也被看为是针对大数据的改进。

  2、SQL Server并行数据仓库。并行数据仓库(Parallel Data Warehouse Appliance,简称PDW)是在 SQL Server 2008 R2中推出的新产品,目前已经成为微软主要的数据仓库产品,并将于今年发布基于SQL Server 2012的新款并行数据仓库一体机。SQL Server并行数据仓库采取的是大规模并行处理(MPP)架构,与传统的单机版SQL Server存在着根本上的不同,它将多种先进的数据存储与处理技术结合为一体,是微软大数据战略的重要组成部分。

  3、Hadoop on Windows。微软同时在Windows Azure平台和Windows Server上提供Hadoop,把 Hadoop的高性能、高可扩展与微软产品易用、易部署的传统优势融合到一起,形成完整的大数据解决方案。微软大数据解决方案还通过简单的部署以及与 Active Directory和System Center等组件的集成,为Hadoop提供了Windows的易用性和可管理性。凭借 Windows Azure上基于Hadoop的服务,微软为其大数据解决方案在云端提供了灵活性。

二、数据扩充

  社交媒体的兴起给企业带来独特的计划,以获取更多商业价值,最终实现竞争优势。微软大数据解决方案将数据和模型与公用的数据和服务(包括 Twitter、Facebook和LinkedIn等社交媒体网站)相结合,从而能够实现突破性的发现。在数据扩充层,微软提供的最重要的平台是 Windows Azure Marketplace。

  Windows Azure Marketplace是一个在线市场,用于购买和销售完成的软件即服务(SaaS)应用程序和高级数据集。 Windows Azure Marketplace可以帮助将寻求基于云的创新解决方案的公司与开发了准备使用的解决方案的合作伙伴连接到一起,使客户能够使用Windows Azure Marketplace上的应用程序和挖掘算法来发现隐藏的模式。

  通过Windows Azure Marketplace进行共享和协作:微软大数据解决方案可让客户通过 Windows Azure Marketplace共享数据并发现新的洞察力,Windows Azure Marketplace可通过开放数据协议 (OData)展露数百种来自微软和第三方的应用程序和数据挖掘算法。

  与社交媒体集成:微软大数据解决方案可让客户通过来自社交媒体网站(例如Twitter和Facebook)的公用数据来扩展他们的分析。微软的一款代号为“Social Analytics”的基于云的项目允许企业将社交媒体信息与业务应用程序相集成。

  借助Hadoop执行高级分析:微软大数据解决方案支持传统的BI以及高级分析(例如数据挖掘和图形挖掘),从而可让客户从他们所有的数据中发现新价值。Hive ODBC Driver可让客户使用SQL Server数据挖掘工具执行预测分析。微软还将支持Mahout等其他高级分析工具,以及使用C++、C#、Python、Ruby和Pearl编写的挖掘算法。

  三、洞察力

  企业收集、存储和处理数据,最终目的还是要获得洞察力。企业需要能够轻松处理和分析PB 级的新数据,而不用担心建立复杂的分布式存储和计算集群,并且要能够随着需求的增加实现缩放。微软大数据解决方案可让客户用熟悉的BI工具从他们的结构化和非结构化数据中获得可执行的洞察力。

  从洞察力的层面,微软提供了两款主要的产品,分别是Office Powerpivot和SharePoint Power View。 PowerPivot和Power View工具,能够帮助企业快速的从数据中发现信息,从而解决业务问题。其中,PowerPivot可以用来设计数据模型,Power View可以用来设计可视化报表,报表还可以发布到SharePoint平台上。最终用户能够根据自己业务视角及要求设计数据模型并展示出来,充分利用数据和前台界面的力量,满足业务需求。

  使用熟悉的工具分析Hadoop数据:微软可让用户利用Excel的Hive组件在熟悉的Excel环境中与Hadoop中的非结构化数据进行交互并加以分析。

  通过任何数据获得深入的洞察力:企业可以用熟悉的BI工具(例如 Microsoft SQL Server Analysis Services (SSAS)、PowerPivot和Power View)通过 Hive Open Database Connectivity (ODBC) Driver来分析Hadoop中的非结构化数据。企业还可以用 SQL Server 2012上的PowerPivot和Power View对关系型数据采用自助服务的 BI 产品。

  通过简化的编程驱动洞察力:微软通过与.NET和新的JavaScript库集成简化了Hadoop的编程。开发人员可以在JavaScript中使用新的JavaScript库来轻松编写MapReduce程序,然后通过简单的浏览器来部署他们的JavaScript代码。

  小结

  微软的大数据解决方案从本质上看还是原有SQL Server和Office产品的升级,最大的亮点是在SQL Server、 Windows Server和Windows Azure中都集成了Hadoop功能,使Hadoop成为连接这三者之间的桥梁。微软的大数据解决方案产品丰富、功能齐全,但相对缺乏创新。在用户看来,微软最大的特色就是产品的易用性和界面的友好性,这也是用户选择微软的主要原因。

时间: 2024-09-11 21:12:18

Hadoop教程:SQL Server+Hadoop变身大数据解决方案的相关文章

SQL Server+Hadoop 变身大数据解决方案

文章讲的是SQL Server+Hadoop 变身大数据解决方案,在数据库市场中,微软的SQL Server是最受关注的产品之一.在数据库知识网站DB-Engines每月公布的数据库流行度排行榜中,SQL Server几乎稳占第二名的位置.但从这个榜单每月的变化中也可以看出,大量NoSQL数据库的排名不断上升,已经开始威胁到传统数据库的地位. "以不变应万变"不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场,微软就是其中的一个代表.微软的改变最早是为

Hadoop高级编程——构建与实现大数据解决方案---部分

问题描述 Hadoop高级编程--构建与实现大数据解决方案---部分这篇文档,译自美国资深专家著作,介绍了Hadoop许多其生态系统演化的流行方向,和Hadoop在企业里的项目应用,是国内很少见的重要资料.值得收藏和学习. 解决方案

SQL Server参数化查询大数据下的实践

身为一名小小的程序员,在日常开发中不可以避免的要和where in和like打交道,在大多数情况下我们传的参数不多简单做下单引号.敏感字符转义之后就直接拼进了SQL,执行查询,搞定.若有一天你不可避免的需要提高SQL的查询性能,需要一次性where in 几百.上千.甚至上万条数据时,参数化查询将是必然进行的选择.然而如何实现where in和like的参数化查询,是个让不少人头疼的问题. where in 的参数化查询实现 首先说一下我们常用的办法,直接拼SQL实现,一般情况下都能满足需要.

浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据 时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的应用,也在潜移 默化地渗透到社会的方方面面,影响到每一个人的日常生活,人们日常生活中看到的电视节目.浏览的网页.接收到的 广告,都将是基于大数据分析之后提供的有针对性的内容. 微软在大数据领域的战略重点,在于更好地帮助客户"消费"大数据,让所有的用户都能够从几乎任何规 模任何类型的任何数

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析   低成本的Blob存储是一个强大的,通用的Hadoop兼容Azure存储解决方案无缝集成HDInsight.通过Hadoop分布式文件系统(HDFS)接口,完整的组件集合在HDInsight可以 在Blob存储数据的直接操作.在本教程中,学习如何建立一个容器的Blob存储,然后在里面处理的数据. 在BLOB存储中存储的数据能够用于计算的HDInsight集群被安全地删除,而不会丢失用户数据. 注意: 该ASV://语法中不

浅析基于SQL Server PDW大数据解决方案

文章讲的是浅析基于SQL Server PDW大数据解决方案,随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的应用,也在潜移默化地渗透到社会的方方面面,影响到每一个人的日常生活,人们日常生活中看到的电视节目.浏览的网页.接收到的广告,都将是基于大数据分析之后提供的有针对性的内容. 微软在大数据领域的战略重点,在于更好地帮助客户"消费"大数据,

Hadoop:你不得不了解的大数据工具

本文讲的是Hadoop:你不得不了解的大数据工具,如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这

Hadoop:大数据解决方案的常胜将军

架构大数据解决方案的软件工程师们都知道,http://www.aliyun.com/zixun/aggregation/13782.html">业务分析有一项技术跨越了SQL数据库.NoSQL数据库,非结构化数据.面向文档数据存储及大型处理.如果你猜到了Hadoop,那你回答正确.Hadoop也是许多巨头公司具有的一个共性,如亚马逊.雅虎.AOL.Netflix.eBay.微软.谷歌.Twitter和Facebook.IBM甚至是走在时常的前沿,促进Hadoop进行企业分析.此开源模型无处

Hadoop没有消亡,它是大数据的未来

文章讲的是Hadoop没有消亡,它是大数据的未来,人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,为了反驳此前一篇文章<为什么 Hadoop 正在消亡?(Why Hadoop is Failing)>的观点,他在自己的博客上写了一篇论述自己看法的文章,他认为达尔文式的开源生态系统正在确保 Hadoop 成为稳固和成熟的技术平台. 「女士,那么刚出生的孩子能干什么?」--迈克尔·法拉第,在 18 世纪被