MapReduce与SQL发生化学反应

Google在2004年创造了MapReduce,MapReduce集群可包括数以千计的并行操作的计算机。同时MapReduce允许程序员在如此庞大的集群中快速的转换数据并执行数据。

从MapReduce到Hadoop,这其中经历了一个有趣的转变。MapReduce最初是帮助搜索引擎公司应对万维网所带来的创建索引时产生的大量数据。Google最初也招募了一些硅谷的精英,并雇用了大批的工程师来完善MapReduce.并快速将技术应用在相关的行业之中,如金融、零售等。Goolge曾拿出MapReduce的部分相关信息与Nutch团队分享,以开发开源版本“Hadoop”。但Yahoo则将Nutch收入到旗下。Yahoo在2007年将其发展成Hadoop开源项目。Hadoop现在越来越多的用于大数据的大规模并行数据处理引擎。

现今大家都热衷于大数据领域。开源的项目如Apache Hive、Pig.以及像MapR和Hadapt这样的创业公司。众所周知,如果MapReduce和Hadoop中用来进行数据分析的应用编写起来过于复杂的话,那么就需要优秀程序员处理,这并不利于MapReduce技术的发展。所以现今所有Hadoop供应商都亟待解决的一个问题就是如何将MapReduce变得更易于使用。

企业大数据与敏捷大数据

从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构:

结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询;

半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由;

非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。

而面对网络中三种类型信息的挑战,大数据的发展趋势逐渐明朗。在今年9月于纽约召开的O‘Reilly Strata大会上就将发展趋势概括为企业大数据和敏捷大数据。企业大数据是最具挑战性的问题,也是企业盈利的需要解决的问题。而敏捷大数据是另外一个需要关注的问题。如Greenplum和Aster等在企业BI领域都有涉足。

如果事实证明大数据必须购买企业级的产品,那么就意味着大数据会花大本钱。但这并非绝对,通过使用大数据敏捷技术,各种规模的企业都可以控制成本,从大数据中获益。至关重要的是尽可能降低成本并最大化的了解大数据集,一旦数据被转化为可用便具有对业务的洞察力,然后以各种方式将问题汇总,并发挥企业技术的优势解决问题。

MapReduce易用性是其发展最大障碍

MapReduce系统获得成功的原因之一是它为编写需要大规模并行处理的代码提供了简单的编程模式。它受到了Lisp的函数编程特性和其他函数式语言的启发。MapReduce和云计算非常相配。MapReduce的关键特点是它能够对开发人员隐藏操作并行语义 — 并行编程的具体工作方式。

但现今,MapReduce很难成为商务人士讨论大数据的方式。因为要使用MapReduce至少需要以下四种技能。

  1.将商业问题转换为可分析解决的问题

  2.将可分析解决的问题转换为MapReduce模型

  3.调试、编码、优化MapReduce以处理数据的能力

  4.具备Hadoop和MapReduce的丰富经验,并具备调试部署在Hadoop上代码的能力

在大数据时代下,使用传统的数据库进行查询、排序、定义、和提取数据时显得有些力不从心。而处理大数据业务的本质(如MapReduce)需要更多的技能。但大批雇佣这些高技能人才是不现实的。

SQL与MapReduce 传统与现代的结合

SQL对于编程专家和业务分析师用来查询数据来说是非常熟悉的模式。而MapReduce的魅力在于有能力处理程序方案中相对复杂的搜索查询。如果将两者结合起来会带来什么样的变化?

Aster已经提供了一种被称为SQL-MapReduce的框架,这个框架可以使数据科学家和商业分析师对复杂的信息进行快速调查分析,允许一组关联计算机(计算机群集)使用软件语言(如 Java、C#、Python、C++ 和 R)并行进行程序表达,然后通过标准SQL 激活(调用)使用。

而Greenplum提供支持SQL和MapReduce并行处理功能,并能以较低的成本处理TB量级到PB量级企业数据。Greenplum整合了MapReduce和SQL技术,并且将直接在Greenplum的并行数据流引擎(位于Greenplum数据引擎的中心)内部直接执行MapReduce和SQL.Greenplum MapReduce可以使程序员对储存在Greenplum数据引擎内部和外部的PB量级规模的数据集进行分析。带来的好处是应对不断增长的标准编程模型来满足关系数据库的可靠性和熟悉性。

同时像微软这样的领导厂商也参与其中。微软已经推出了Hadoop与SQL Server的连接工具,客户将能够在Hadoop、SQL Server和并行数据仓换环境下相互交换数据。与此同时,微软还与Hortonworks展开深度合作。其目的就是为了将Hortonworks在Hadoop领域的专长以及微软产品易用化的特性有机的结合起来,并简化下载、安装和配置等几个Hadoop的相关技术。

未来随着SQL和MapReduce技术结合的不断完善,MapReduce将变得更容易使用,并广泛的受到关注。相信我,时间会证明一切。

时间: 2024-09-21 12:34:25

MapReduce与SQL发生化学反应的相关文章

“连长”王江执掌百玩:让平台发生化学反应

从投资人到创业者,从冒泡(微博).航空管家到酒店管家,微博上昵称为"连长"(微博)的王江又开始折腾了.这次他投资了一个游戏平台,名叫"百玩". "百玩"是什么? 谢培福,作为曾经的华友世纪副总裁,创办了手机游戏平台百玩.王江等人对百玩注入了100万的个人投资.王江摇身一变,成了百玩的董事长. 据了解,百玩的定位是做Android.Symbian和iOS等全平台的手机游戏互动平台,面向游戏内容提供方开放.百玩最大优势在于,将网页游戏.flash小游

SQL SERVER中什么情况会导致索引查找变成索引扫描

SQL Server 中什么情况会导致其执行计划从索引查找(Index Seek)变成索引扫描(Index Scan)呢? 下面从几个方面结合上下文具体场景做了下测试.总结.归纳.   1:隐式转换会导致执行计划从索引查找(Index Seek)变为索引扫描(Index Scan) Implicit Conversion will cause index scan instead of index seek. While implicit conversions occur in SQL Ser

sql-SQL发生服务特定错误17051

问题描述 SQL发生服务特定错误17051 Sqlserver2008发生服务特定错误17051???????????????????????????????? 解决方案 解决方案: 1.Microsoft SQL Server 2008-->配置工具-->SQL Server 安装中心-->维护-->版本升级, 产品密钥输入: 开发版: PTTFM-X467G-P7RH2-3Q6CG-4DMYB 企业版: JD8Y6-HQG69-P9H84-XDTPG-34MBB 2.一般第一步

命令-mysql5..7用之前的数据库备份语句发生错误,有人懂吗?

问题描述 mysql5..7用之前的数据库备份语句发生错误,有人懂吗? 命令如下: F:MySQLMySQL Server 5.7bin>mysqldump -u root -p student > d:/dd.sql发生如下错误:mysqldump: [ERROR] unknown option '--no-beep' 解决方案 http://segmentfault.com/blog/tony/1190000000420195 解决方案二: http://blog.csdn.net/xia

Oracle 数据库之最:你见过最高的 SQL Version 是多少?

Oracle数据库中执行的SQL,很多时候会因为种种原因产生多个不同的执行版本,一个游标的版本过多很容易引起数据库的性能问题,甚至故障. 有时候一个SQL的版本数量可能多达数万个,以下是我之前在"云和恩墨大讲堂"分享过的一个案例.这个报告中的 SQL,最高达到了26万个 SQL 版本.算是我见过的"之最"之一. 产生SQL多版本的原因很多,通过如下的一些测试我们可以稍微来看看如何分析和找到可能的原因. 以下作为一个基础测试数据,一条基本的SQL查询: create

从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的. 一,DT时代 大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导商业决策.比如保险行业,人寿保险会通过大数据的统计计算,根据人均寿命来计算保费与回报率. 这

漫谈阿里大数据

免费开通大数据服务:https://www.aliyun.com/product/odps 目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的. 一,DT时代 大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导

数据科学工具包(万余字介绍几百种工具,经典收藏版!)

本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独

Spark的现状与未来发展

Spark的发展 对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧.2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目.它于2010年正式开源,并于2013年成为了Aparch基金项目,并于2014年成为Aparch基金的顶级项目,整个过程不到五年时间. 由于Spark出自伯克利大学,使其在整个发展过程中都烙上了学术研究的标记,对于一个在数据科学领域的平台而言,这也是题中应有之义,它甚至决定了Spark的