Hadoop——Microsoft大数据战略的核心

导读:众所周知,大数据浪潮正在渐渐的席卷全球的各个角落。而Hadoop正是这股风暴的动力之源。Microsoft更是史无前例的与Apache Hadoop社区合作。Microsoft此举就是希望利用自己在软件领域的优势构建一个打上Microsoft烙印的Hadoop生态圈。

如今,Microsoft已经将Hadoop作为自身大数据战略的核心。Microsoft此举的理由就是看中了Hadoop的潜力,在大数据领域Hadoop已经成为分布式数据处理的标准。通过集成Hadoop技术,Microsoft允许客户访问快速增长的Hadoop生态系统。同时随着越来越多善于在Hadoop平台进行开发的人才涌出,这对Hadoop发展极其有利。

Microsoft的目标不仅仅是将Hadoop集成到Windows系统之中,Microsoft有意向Apache Hadoop社区贡献代码,并希望得到社区的采纳。最终使任何人都可以在Windows上运行纯粹开源的Hadoop。

打上Microsoft烙印的Hadoop

Microsoft的Hadoop版本目前发展到“客户技术预览版”的阶段。这意味着Microsoft在接受客户群体的评价,预计正式版会在2012年中期推出。Microsoft的Hadoop基于Windows Server平台或Microsoft云平台Azure之上。在将要推出的1.0版本之中,产品核心包括MapReduce、HDFS、以及Hadoop组件Pig和Hive。

Microsoft的目标是兼容所有的Hadoop组件。Hadoop生态系统中的Zookeeper、HBase、HCatalog和Mahout等组件也会被附加到Microsoft的Hadoop版本之中。

同时Microsoft推出的Hadoop还会与自身之前的商业智能分析产品做整合。

●Hadoop连接器将使Hadoop与SQL Server和SQL Server并行数据仓库之间的通信变得简单。

●Hive的ODBC驱动,允许任何Windows应用程序访问并对Hive数据仓库进行查询。

●Excel对Hive的访问,使数据直接从Hive移动到Excel和PowerPivot。

在后端,Microsoft对Hadoop进行了其他的改善,Microsoft将整合Active Directory方便访问控制。同时集成System Center用于管理人员管理。

Microsoft官方计划在即将于6月举行的TechED大会上公布有关WAAD(Windows Azure Active Directory)的更多细节。这与Microsoft在Windows Server系统上的Active Directory的概念如出一辙。未来使用ACS(Access Control Service)与现有的Active Directory部署时可保证良好的互操作性。

利用JavaScript API与C#进行Hadoop开发

对于Microsoft推出的Hadoop版本最具特色的特点之一是附加JavaScript API。Hadoop上的编程工作是乏味的,这就是为什么别的高级语言会出现(如Pig)。

Microsoft选择在Hadoop环境中添加JavaScript层,开发人员可以使用它创建MapRedcue的工作,甚至在浏览器模式下与Pig和Hive进行数据交互。JavaScript层所带来的真正优势是将自身集成到Hadoop商业环境中,这使得开发人员能够轻松创建内网分析环境以便于商业用户访问。

Microsoft通过Node.js将JavaScript引入服务器端的Windows Server以及Windows Azure平台之上。同时Microsoft计划将自身的JavaScript API贡献给Apache Hadoop开源社区。这对于Hadoop社区也是一个利好的消息。

更重要的是Microsoft使得使用.NET平台开发Hadoop应用成为可能。Microsoft计划直接利用现有Hadoop API使用.NET平台创建MapReduce任务。更高级别的接口或许将出现在未来的版本中。随着时间的推移,未来在Visual Studio中对Hadoop项目开发的支持将不断提高。同时未来运行在Azure之上的Hadoop项目将允许使用.Net Framework框架之上基于Common Language Runtime (CLR)语言(如C#语言)进行编程。

流数据处理系统与NoSQL

对于大数据人谈论最多的无疑是Hadoop,但流数据处理以及NoSQL对于大数据同样重要。对于Microsoft,他们自然会有所准备。Microsoft推出了被称之为StreamInsight的流数据解决方案。NoSQL方面,Microsoft也具备了Windows Azure平台上被称之为Azure Tables的NoSQL数据库。

展望未来,Microsoft对Hadoop兼容性的承诺意味着,流数据解决方案StreamInsight以及Azure Tables会作为Hadoop环境的一部分与Microsoft分布式HBase作为核心产品推出。同时现今的流数据解决方案(如Yahoo S4)将会与Microsoft相兼容。

与现有工具集成

Microsoft正倾向与向大数据工具集成现有的主要组件,这是否意味着Microsoft打算为企业提供一个综合数据科学平台?Microsoft大数据资深产品规划负责人Madhu Reddy给出了肯定的答案。Microsoft Hadoop开发工作的主要宗旨就是让人们使用熟悉的工具,Microsoft专注于与现有工具的互操作性。Microsoft此举涉及各个层面的使用人员,包括开发者、分析师、企业用户等。Excel是一个无处不在的软件,Excel与Hive的互联就是一个很好的例子。不过其他的工具也同样重要,如MATLAB、SAS或R。

总结

Microsoft大数据战略确保Windows平台能够在大数据时代继续发挥自身的作用。并使得在数据中心业务中使自身的云服务具备更强的竞争力。Microsoft的另一个做法是将大数据与自身庞大和多样化软件无缝集成。可以看出Microsoft的重点是进行大力整合。Microsoft与Apache Hadoop社区的合作确保了新的工具和天才的开发人员向这个平台迁移。(李智/编译)

(责任编辑:吕光)

时间: 2024-07-30 08:25:34

Hadoop——Microsoft大数据战略的核心的相关文章

商业银行大数据战略与规划思考

随着现代科技的不断进步,信息技术呈现出跨越式大发展的格局,以移动互联网.物联网.大数据和云计算等为代表的新技术应用,大幅提高了社会的生产生活效率.移动互联网的应用降低了互联网的接入成本,增加了互联网的覆盖广度和深度,加速了各行业的互联网化进程:物联网的应用让"人与物"."物与物"相联,实现了更加精细化.动态化的生产生活管理,提高了资源利用和生产力水平:以大规模并行计算.人工智能.机器学习等为特征的大数据应用,使得大范围快速分析和智能预测成为可能,将革命性地改变政府机

SQL Server+Hadoop 变身大数据解决方案

文章讲的是SQL Server+Hadoop 变身大数据解决方案,在数据库市场中,微软的SQL Server是最受关注的产品之一.在数据库知识网站DB-Engines每月公布的数据库流行度排行榜中,SQL Server几乎稳占第二名的位置.但从这个榜单每月的变化中也可以看出,大量NoSQL数据库的排名不断上升,已经开始威胁到传统数据库的地位. "以不变应万变"不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场,微软就是其中的一个代表.微软的改变最早是为

实施大数据战略 推动经济社会创新发展

大数据是继云计算.物联网之后信息技术领域的又一次创新浪潮,是新时期的"数字石油",是国家战略性基础资源,蕴藏着巨大潜力和能量,前景广阔."十三五"是我国全面建成小康社会的决胜阶段,也是大数据蓬勃发展.激发经济发展新动能的关键时期.我国大数据发展已经具备良好的产业基础,加快实施大数据发展战略,对拓展网络经济空间.推动经济社会转型发展具有重要意义. 党中央.国务院高度重视大数据的发展和运用.2014年2月,习近平总书记在中央网信领导小组第一次会议上指出,信息资源日益成为

BMC拓展大数据战略

数字化企业IT解决方案提供商BMC宣布拓展大数据战略,以使企业级Hadoop?环境实现部署自动化.加快运行并得到安全保护,进而帮助企业出色地运行和维护IT系统,增强在数字化时代的竞争优势.同时,BMC还宣布推出专为提高Hadoop应用部署敏捷性而设计的Control-M Automation API,进一步增强BMC大数据战略的威力. 据了解,Control-M Automation API是一套编程接口,帮助Hadoop设计师.工程师和开发人员以自助服务方式,将Control-M部署在应用发布

贝恩:企业大数据战略指南

拥有优秀大数据能力的企业,做出正确决策的可能性高出竞争对手3倍.决策速度比竞争对手快5倍. 当某在线视频网站准备推出自制剧的时候,评论家纷纷嘲笑他们把握观众品味的能力.很难有谁会想到,该公司通过分析其积累的多年用户观影偏好的大数据,来指导制片人.主演选择和编剧内容并一炮走红,帮助其在一个季度内获取数百万新增用户,并在接下来的一两年内里获得数倍的股价提升. 打造大数据战略的四大挑战 我们正在迎来一个数据爆炸的时代:各类设备和互动产生的数据量正以年均大于50%的速度增长,预计在2020年可能会达到4

张亚勤:大数据战略、管理与生态

        张亚勤:微软公司资深副总裁.微软亚太研发集团主席         大数据这个话题,从西到东,从IT业内到政府官员,已经火了两年,但还没有完全一致的定义.目前业界一般认同Gartner的描述,即:凡是具有"3V"特性的数据集,就是大数据.其一为Volume,极大的数据量:其二为Variety,极复杂的数据类型与数据来源:其三为Velocity,极高的数据产生.传播,以及反应速度. 在我看来,组织决策者要跨越大数据时代的"数据鸿沟",就需要具备大数据战略

大数据战略为何受发达国家追捧?背后原因揭秘

<企业网D1Net>3月21日讯 随着大数据时代的来临,大数据已经上升为世界各国的国家战略,尤其受到发达国家的追捧.大数据正在成为国家竞争的前沿,以及产业竞争力和商业模式创新的源泉. 联合国"数据脉动"计划.美国"大数据"战略.英国"数据权"运动.日本"面向2020年的ICT综合战略".韩国大数据中心战略等先后开启了大数据战略的大幕,有力推动了大数据产业化.市场化进程.大数据战略不仅可以提升社会生产力.创造新的社会

Hadoop教程:SQL Server+Hadoop变身大数据解决方案

在数据库市场中,微软的SQL Server是最受关注的产品之一.在数据库知识网站DB-Engines每月公布的数据库流行度排行榜中,SQL Server几乎稳占第二名的位置.但从这个榜单每月的变化中也可以看出,大量NoSQL数据库的排名不断上升,已经开始威胁到传统数据库的地位. "以不变应万变"不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场,微软就是其中的一个代表.微软的改变最早是为了向Bing提供高质量的搜索结果,这与Google的情况类似,互联

2012 Hadoop与大数据技术大会盛大开幕

摘要:11月30日-12月1日,中国IT界技术盛会--Hadoop与大数据技术大会(HBTC 2012)在北京新云南皇冠假日酒店隆重开幕.大会以"大数据共享与开放技术"为主题,设定"Hadoop生态系统"."大数据行业应用"."大数据共享平台与应用"."NoSQL与NewSQL"以及"大数据的技术挑战与发展趋势"五个分论坛. 2012年11月30日-12月1日,中国IT界技术盛会--Ha