微软大数据解决方案:Hadoop介绍

Hadoop是由">Apache基金会开发,这个一个开源的组织。Hadoop的想法非常简单直接,就是借用分布式程序,充分利用集群的能力来进行计算和存储。Hadoop听上去比较抽象,而且一些介绍的文档列举了许多比较奇怪的名字,让人感觉Hadoop好像很复杂。事实上Hadoop是简单和直接的。Hadoop地核心就是3个组件,甚至可以说就是2个组件。一个是分布式文件系统(Hadoop Distributed File System),简称HDFS。另一个是MapReduce的应用(还有一个是HBase分布式NoSQL列数据库.)

HDFS有着高容错性的特点,并且设计用来部署在低成本的硬件上。这个有非常大的意义。由于保存数据的硬件的成本低廉,用户就可以存储大量的数据,而不必由于成本问题不得不丢弃或者封存老数据。HDFS实现高容错性的原理也非常简单,就是因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。另外,HDFS对超大文件的访问进行了优化,利用流的形式访问文件系统中的数据来提高大文件访问性能

MapReduce引擎 - MapReduce应用程序主要含有2个函数-Map 函数和Reduce 函数。Map 接受一组数据并将其转换为一个键/值对列表,Reduc函数接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表。下面我举一个简单的例子大家就会明白了

假设输入的是 I want to buy a cake, you want to buy a bike 运行Map 函数将得出以下的键/值对列表:

(I, 1) (want, 1) (to, 1) (buy, 1) (a, 1) (cake, 1)

(you, 1) (want, 1) (to, 1) (buy, 1) (a, 1) (bike, 1)

 如果对这个键/值对列表应用 Reduce 函数处理,将得到以下一组排过序的键/值对:

(a, 2) (bike,1) (buy, 2) (cake, 1) (I, 1) (to, 2) (want, 2) (you, 1) 

在Hadoop里面由于MapReduce是可以由多个节点来并行处理的,比如 I want to buy a cake是一个节点处理,you want to buy a bike是另一个节点处理,然后将这两个键/值对列表应用到另一个 Reduce 函数,这样就体现的Hadoop并行处理的威力。

其他的就是在Hadoop生态环境里面的一些工具和应用,像Hive,Pig等等。只要理解了Hadoop的HDFS和MapReduce作用和原理,其实就算是理解了Hadoop的主要运作方式了

时间: 2024-07-29 06:57:21

微软大数据解决方案:Hadoop介绍的相关文章

SQL Server+Hadoop 变身大数据解决方案

文章讲的是SQL Server+Hadoop 变身大数据解决方案,在数据库市场中,微软的SQL Server是最受关注的产品之一.在数据库知识网站DB-Engines每月公布的数据库流行度排行榜中,SQL Server几乎稳占第二名的位置.但从这个榜单每月的变化中也可以看出,大量NoSQL数据库的排名不断上升,已经开始威胁到传统数据库的地位. "以不变应万变"不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场,微软就是其中的一个代表.微软的改变最早是为

Hadoop教程:SQL Server+Hadoop变身大数据解决方案

在数据库市场中,微软的SQL Server是最受关注的产品之一.在数据库知识网站DB-Engines每月公布的数据库流行度排行榜中,SQL Server几乎稳占第二名的位置.但从这个榜单每月的变化中也可以看出,大量NoSQL数据库的排名不断上升,已经开始威胁到传统数据库的地位. "以不变应万变"不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场,微软就是其中的一个代表.微软的改变最早是为了向Bing提供高质量的搜索结果,这与Google的情况类似,互联

微软大数据:强调降低门槛人人能用

大数据很热,几乎所 有的 IT巨头都推出了相应http://www.aliyun.com/zixun/aggregation/14294.html">的大数据战略.日前微软在中国公布其 大数据战略, 微软全球高级副总裁,大中华区董事长兼首席执行官 贺乐赋,强调说微软大数据解决方案不仅仅强调要从数据挖掘.数据分析的层面去解决"大"的问题,更强调更可视化.直观化和人人用得起的方式来推动大数据落地.微软的大数据强调低门槛,人人能用. 微软全球高级副总裁.大中华区董事长兼首席执

浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据 时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的应用,也在潜移 默化地渗透到社会的方方面面,影响到每一个人的日常生活,人们日常生活中看到的电视节目.浏览的网页.接收到的 广告,都将是基于大数据分析之后提供的有针对性的内容. 微软在大数据领域的战略重点,在于更好地帮助客户"消费"大数据,让所有的用户都能够从几乎任何规 模任何类型的任何数

Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此对:译者:贾艳成 QQ:496830205 表示感谢. 二.意见征集: 本章节由<Hadoop专业解决方案群:313702010>翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,说明时,请标明行号,也可以以修订的方式,发送

Hadoop高级编程——构建与实现大数据解决方案---部分

问题描述 Hadoop高级编程--构建与实现大数据解决方案---部分这篇文档,译自美国资深专家著作,介绍了Hadoop许多其生态系统演化的流行方向,和Hadoop在企业里的项目应用,是国内很少见的重要资料.值得收藏和学习. 解决方案

Hadoop:大数据解决方案的常胜将军

架构大数据解决方案的软件工程师们都知道,http://www.aliyun.com/zixun/aggregation/13782.html">业务分析有一项技术跨越了SQL数据库.NoSQL数据库,非结构化数据.面向文档数据存储及大型处理.如果你猜到了Hadoop,那你回答正确.Hadoop也是许多巨头公司具有的一个共性,如亚马逊.雅虎.AOL.Netflix.eBay.微软.谷歌.Twitter和Facebook.IBM甚至是走在时常的前沿,促进Hadoop进行企业分析.此开源模型无处

微软大数据:SQL Server任主力 Azure与Hadoop集成辅助

在不断激增的联网设备以及无处不在的网络连接的驱动下,视频.音乐及文本等数据早已呈现出无限膨胀的态势.近日研究机构Gartner更发表报告称,"大数据"将在未来十年内成为新的常规行业.目前包括谷歌.IBM.微软.EMC.惠普等众多巨头,已早早开始布局大数据,为在即将来临的大数据时代做好竞争铺垫. 如何利用海量数据为企业带来价值,是微软目前的主要专注方向,同时也是大数据的核心要素.通过数据的采集.存储.发送.处理及分析,帮助企业制定更有效的方针和政策,这在全球各企业中需求非常旺盛,全球50

浅析基于SQL Server PDW大数据解决方案

文章讲的是浅析基于SQL Server PDW大数据解决方案,随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的应用,也在潜移默化地渗透到社会的方方面面,影响到每一个人的日常生活,人们日常生活中看到的电视节目.浏览的网页.接收到的广告,都将是基于大数据分析之后提供的有针对性的内容. 微软在大数据领域的战略重点,在于更好地帮助客户"消费"大数据,