解读微软大数据

“安装在Windows server和System Center的大数据平台叫Microsoft HDInsight Server,安装在Windows Azure上的叫Microsoft HDInsight Service”这个定义来自MSDN的一篇博客,也许看上去有些抽象,TechEd 2012技术大会现场,微软亚太研发集团首席技术官孙博凯的演讲中,为大家Demo演示了HDInsight的应用场景。

Excel的用户就可以ODBC读取Hadoop资料

孙博凯在接受51CTO记者专访时特别谈到:“微软针对关系型数据、非关系型数据和数据流的管理,第一步是打造一个平台,在这个平台下,各种类型的数据都可以进来集中整合。第二步是提供一个工具,让所有的数据可以进行清理和分析。我们相信所有的洞察力都来自数据与数据之间的关联度。”在大数据领域目前常用的案例,关于美国油价波动对汽车销售的影响,也正是利用了这两个数据的关联产生的市场洞察。

技术之外,微软的重要优势便是帮助消费者通过他们最熟悉的工具来开展应用。在Demo中可以看到,不论是Hadoop on Windows Server或Hadoop on Windows Azure都可以让用户通过Excel读取Hadoop平台的数据。并在Excel环境下,整合分析结构化数据与非结构化数据。孙博凯表示,目前相关的应用可以支持Excel、PowerPivot for Excel以及Power View等工具。

在一些资料中了解到,用户完成安装Hive ODBC驱动程序,就可以通过Excel看到新增功能Hive Query,通过输入要分析的Hadoop平台数据源路径,就可以在Excel环境中,以ODBC模式,读取Hadoop平台的数据,分析结果以数据表Table或Cube形式,储存在Excel或SQL Server中。微软曾多次提出对Hadoop平台的兼容与重视,这一演示也在TechEd 2012上也成为焦点,因为微软再一次将大数据的应用直接推送到了用户的面前。

与Apache Hadoop的深入合作

微软的搜索技术Bing原本就有MapReduce分布式计算的概念。不过,微软也选择了支持越来越多的企业开始使用的Apache Hadoop,并作为非结构化数据处理架构的核心。让企业可以在Windows环境中处理Hadoop平台的非结构化数据。

“目前我们主要以Windows Server以及Windows Azure两大平台作为基础,同时和Hortonworks Platform有很好的合作”,孙博凯特别向记者提到:“Hadoop、HDInsight这样的技术,要采用更加开放的方式与合作伙伴共同推进。现在包括PHP、MySQL、Wordpress都可以在Windows Azure上运行,越来越多的开源技术也将出现在微软的平台上”。在现场的技术演示中,微软还特别针对Windows Azure上的Mobile Services和Media Services,演示了Streaming to iOS的过程。

In-Memory与一体机共同布局大数据

内存计算和一体机是大数据的热点,今年11月SQL Server用户组主办的PASS年度峰会上,微软副总裁Ted Kummert提出了In-memory Computing是微软数据平台交付战略的核心元素之一,能够让用户分析各种类型的数据,同时加速数据访问时间。能够将数据直接写入RAM进行操作,从而消除性能瓶颈。

在Ted Kummert的博客中了解到,微软从2010年开始,就已经在SQL Server中提供In-Memory技术,这个项目的代码为“Hekaton”,将作为SQL server的重要升级模块来提供,不过目前只是作为预览版在一小部分用户中使用。“Hekaton”将会完善微软的In-Memomory数据组合,同时跨越数据分析与业务交易场景。将会有突破性的性能提高,而且是内置在SQL Server中的,因此企业不需要额外购买专用的硬件或软件,并且能够轻松的移植现有应用,就能够让这些应用获得性能的突破性提升。

“欧洲某一在线博彩网站,当一场球赛上演的时候,可以有上亿球迷在线观看,需要在网上进行高复杂性一系列实时操作,他们都想进入这个交易平台。这对于网站的提供者来说是一个很大的技术挑战”,孙博凯用一个客户的实例展现了内存计算技术的突破性提升,他谈到:“我们通过内存计算技术,使整个在线交易效率提高了15~20倍。Hekaton是一个拉丁语的名字,是百倍的意思。我们设计这个技术最开始的时候,就希望达到百倍的效率,虽然现在还没有达到,不过我们会不断提升In-Memory的技术,希望有更好的突破。”

Ted Kummert在PASS年度峰会上也提到了微软并行数据仓库一体机PDW。是针对企业数据仓库、高度可扩展而设计的软硬一体机设备,采用“大规模并行处理”(MPP)体系结构。在数据处理方面基于SQL Server 2012的并行数据仓库提供了全新的PolyBase数据处理技术,xVelocity 列存储技术,满足实时数据仓库的需求,高密度 Direct Attached Storage,存储容量提升7倍,横向扩展可以实现从几个TB到6PB的线性扩展。

关于数据的技术从未像现在这样令人着迷,是大数据贯穿了应用、数据中心和云,最终化为一种能力。这种能力为是生活,工作与思维带来变革,我们解读大数据,也在解读世界。

(责任编辑:蒙遗善)

时间: 2024-11-08 19:01:51

解读微软大数据的相关文章

微软大数据:SQL Server任主力 Azure与Hadoop集成辅助

在不断激增的联网设备以及无处不在的网络连接的驱动下,视频.音乐及文本等数据早已呈现出无限膨胀的态势.近日研究机构Gartner更发表报告称,"大数据"将在未来十年内成为新的常规行业.目前包括谷歌.IBM.微软.EMC.惠普等众多巨头,已早早开始布局大数据,为在即将来临的大数据时代做好竞争铺垫. 如何利用海量数据为企业带来价值,是微软目前的主要专注方向,同时也是大数据的核心要素.通过数据的采集.存储.发送.处理及分析,帮助企业制定更有效的方针和政策,这在全球各企业中需求非常旺盛,全球50

微软大数据:强调降低门槛人人能用

大数据很热,几乎所 有的 IT巨头都推出了相应http://www.aliyun.com/zixun/aggregation/14294.html">的大数据战略.日前微软在中国公布其 大数据战略, 微软全球高级副总裁,大中华区董事长兼首席执行官 贺乐赋,强调说微软大数据解决方案不仅仅强调要从数据挖掘.数据分析的层面去解决"大"的问题,更强调更可视化.直观化和人人用得起的方式来推动大数据落地.微软的大数据强调低门槛,人人能用. 微软全球高级副总裁.大中华区董事长兼首席执

微软首席架构师Yaniv Pessach谈微软大数据COSMOS(中文意思是宇宙)

微软首席架构师Yaniv Pessach谈微软大数据COSMOS(中文意思是宇宙) 参考:http://www.quora.com/Distributed-Systems/What-is-Microsofts-Cosmos 宇宙是微软内部大数据分析平台. COSMOS宇宙是由分布式计算组件(有点相当于Hadoop的Map/Reduce了使用微软Dryad的解决方案,它(不像的map-reduce)允许计算任意DAG. COSMOS宇宙支持类似SQL的语法(类似于HIVE/PIG),包括分布式存储

数据就是现金,微软大数据战略浮出水面

从大数据生产到大数据分析,从大数据一体机到大数据云服务,从互联网到物联网,微软的大数据产品战略围绕大数据商业价值全面展开. 微软本周发布了一系列大数据产品和服务,旨在帮助用户从日益膨胀的数据中获取有用的分析结果.微软指出数据就是现金,新发布的一系列产品将在未来四年帮助客户创造超过1万亿美元的新收入. 微软新发布的大数据产品和服务包括SQL Server2014."大数据盒子"APS分析平台系统(Analytics Platform System,整合SQL Server和Hadoop的

4位专家解读2015大数据技术进展

2015年,整个IT技术领域发生了许多深刻而又复杂的变化.本文是大数据解读篇,在这篇文章里我们将回顾2015展望2016,看看过去的一年里广受关注的技术有哪些进展,了解下数据科学家这个职业的火热. 在关键技术进展部分,从大数据生态圈众多技术中选取了Hadoop.Spark.Elasticsearch和Apache Kylin四个点,分别请了四位专家:Hulu的董西成.明略数据的梁堰波.精硕科技的卢亿雷.eBay的韩卿,来为大家解读2015里的进展. [回顾2015] 1,关键技术进展: Hado

被“过度解读”的大数据

据美国http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,在"大数据时代",我们生活中的一切似乎都可以通过量化的方式来进行解释,但在逐渐熟悉这个名词的同时,我们也必须要警惕"过度解读"大数据对企业可能造成的危害. 在电影<派特的幸福剧本>中,罗伯特?德尼罗饰演的角色就给我们在这方面进行了一番生动的"诠释".这个名叫老派特?索利塔诺的角色,是费城老鹰橄榄球队的

深度解读:大数据时代的意图搜索

意图搜索起源于互联网搜索引擎,是基于互联网上海量的无组织.异构.动态的数据与信息环境下搜索引擎不能准确理解用户的搜索意图而提出的,利用如神经网络算法等机器学习方法实现智能化的自动搜索,从而更加精准.主体的提供个性化的服务. 一.目的意义 大数据时代,任何网络行为所留下的"蛛丝马迹"都以数据的形式隐藏在大数据中,正所谓"存在就有痕迹,联系就有信息",通过应用物联网.大数据.人工智能等技术,构建网络空间中行为事件.思想事件等模型.在实体空间和虚拟空间中全面收集.甄别.过

解读教育大数据的文化意蕴

一.大数据科学与教育发展 (一)大数据科学的兴起 在当今时代,信息化技术的迅猛发展以及互联网的普遍应用产生了前所未有的海量多样数据.维基百科将此类用传统数据处理方式无法处理的大量的.复杂的数据称之为"大数据".<华尔街日报>在2012年2月的一篇文章中,将大数据列为引领人类走向繁荣的三大技术变革之一.2012年3月,美国奥巴马政府宣布投资2亿美元启动"大数据研究和发展计划",将"大数据研究"上升为国家意志.同年,联合国全球脉动(UN

解读《大数据时代》:为什么不是随机样本

在<大数据时代>一书中,迈尔-舍恩伯格给出了著名的关于大数据时代的三大特征:1)不是随机样本,而是全体数据:2)不是精准性,而是混杂性:3)不是因果关系,而是相关关系.本文解读一把为什么"不是随机样本,而是全体数据". 为什么是随机样本? 首先什么是随机样本.如果你碰巧哪天在街头被人拦住做问卷调查,或者接到电话问卷调查,恭喜你,你成为某项统计分析的随机样本. 很显然,迈尔大叔所例举的美国人口普查以及有关细分领域分析预测不准确的例子,谈到的随机样本应该就是指问卷调查.或许随机