颠覆大数据分析之Shark：分布式系统上的SQL接口

内存计算已经成为了海量数据分析的一个重要范式。这一点可以从两个方面来进行理解。一方面，尽管当要查询的数据达到了PB级，但是由于时间和空间的局限性，在一个集群环境上仅需64GB的缓存就能够满足绝大多数的查询（95%）。Ananthanarayanan等人在一次研究中发现了这点。另一方面，由于机器学习算法需要在数据的工作集上进行迭代，如果工作数据集在内存中，它的实现会变得非常高效。Shark本质上可以看作是一个内存型的分布式SQL系统。

Shark基于Spark提供了SQL接口。Shark的主要特性就是它的SQL接口以及它能够基于机器学习来进行分析的能力，同时还有它为SQL查询和机器学习算法所提供的细粒度的容错性。对于查询而言，即使是粗粒度的RDD也能工作得很好，因为Shark可以从失败中进行恢复，它会去重新构造集群中丢失的RDD分区。这个恢复是细粒度的，这意味着它可以在查询的过程中进行恢复，并不像并行数据库系统那样得重新执行整个查询。

转载自并发编程网 - ifeve.com

时间： 2024-09-15 12:06:00

颠覆大数据分析之Shark：分布式系统上的SQL接口的相关文章

颠覆大数据分析之结论

颠覆大数据分析之结论译者:吴京润购书随着Hadoop2.0到来--被称作YARN的Hadoop新版本--超越Map-Reduce的思想已经稳固下来.就像本章要解释的,Hadoop YARN将资源调度从MR范式分离出来.需要注意的是在Hadoop1.0,Hadoop第一代,调度功能是与Map-Reduce范式绑定在一起的--这意味着在HDFS上惟一的处理方式就是Map-Reduce或它的业务流程.这一点已在YARN得到解决,它使得HDFS数据可以使用非Map-Reduce范式处理.其含

颠覆大数据分析之Spark弹性分布式数据集

颠覆大数据分析之Spark弹性数据集译者:黄经业购书 Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解.将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下.你会发现在Hadoop MR中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多.它仅需从HDFS到Spark中的分布式共享对象空间的一次读入--从HDFS文件中创建RDD.RDD可以重用,在机器学习的各个迭代中它都会驻留在内存里,这样能显著地提升性能.当检查结束条件发现迭代结束的时候,会将

颠覆大数据分析之第二章结束语

颠覆大数据分析之第二章结束语译者:黄经业购书本章讨论了一些业务场景,以及它们在BDAS框架中的实现.同时还介绍了什么是BDAS框架,并重点介绍了Spark, Shark,以及Mesos.Spark在那些涉及到优化的场景中非常有用--比如说Ooyala希望基于约束条件来动态地选择最优的CDN,以便提升视频的用户体验.必须注意的是,正如第一章所说的,众所周知,约束及变量过多的优化问题是很难在Hadoop MR中解决的.随机法要更适合Hadoop.不过你应当时刻牢记一点,Hadoop很难解

颠覆大数据分析之Storm简介

颠覆大数据分析之Storm简介译者:吴京润购书之前我们已经极为简单的介绍了Storm.现在我们要对它做一个更详细的了解.Storm是一个复杂事件处理引擎(CEP),最初由Twitter实现.在实时计算与分析领域,Storm正在得到日益广泛的应用.Storm可以辅助基本的流式处理,例如聚合数据流,以及基于数据流的机器学习(译者注:原文是ML,根据上下文判断,此处应是指机器学习,下文相同不再缀述).通常情况,数据分析(译者注:原文为prestorage analytics,意义应是保存分

颠覆大数据分析之Storm的设计模式

颠覆大数据分析之Storm的设计模式译者:吴京润购书我们将要学习如何实现基于Storm的一些通用设计模式.设计模式,我们也称之为软件工程意识,是在给定上下文环境中,针对觉设计问题的可重用的通常解决方案.(Gamma et al. 1995).它们是分布式远程过程调用(DRPCs),持续计算,以及机器学习. 分布式远程过程调用过程调用为单机运行的程序提供了一个传输控制与数据的灵巧机制.把这一概念扩展到分布式系统中,出现了远程过程调用(RPC)--过程调用的概念可以跨越网络边界.客户机

颠覆大数据分析之Mesos：集群调度及管理系统

颠覆大数据分析之Mesos:集群调度及管理系统译者:黄经业购书正如前面"Mesos:动机"一节中所述,Mesos的主要目标就是去帮助管理不同框架(或者应用栈)间的集群资源.比如说,有一个业务需要在同一个物理集群上同时运行Hadoop,Storm及Spark.这种情况下,现有的调度器是无法完成跨框架间的如此细粒度的资源共享的.Hadoop的YARN调度器是一个中央调度器,它可以允许多个框架运行在一个集群里.但是,要使用框架特定的算法或者调度策略的话就变得很难了,因为多个框架间

颠覆大数据分析之Spark VS分布式共享内存系统

颠覆大数据分析之Spark VS分布式共享内存系统译者:黄经业购书 Spark可以看作是一个分布式共享集合系统,和Stumm和Zhou (1990)以及Nitzber和Lo (1991)所提到的传统的分布式共享内存(DSM)系统则略有不同.DSM系统允许单独读写内存,而Spark只允许进行粗粒度的RDD转换.尽管这限制了能够使用Spark的应用种类,但它对于实现高效的容错性却很有帮助.DSM系统可能会需要检查点相互协作来完成容错,比如说使用Boukerche等人(2005)所提出的协议

颠覆大数据分析之Spark为Shark所提供的扩展

在Spark的RDD上执行SQL查询遵循的是传统并行数据库的三步流程: 查询解析逻辑计划的生成将逻辑计划映射为物理的执行计划 Shark使用Hive查询编译器来进行查询语句的解析.它会生成一棵抽象语法树,然后再将它转化成一个逻辑计划.Shark中逻辑计划的生成方式也类似于Hive中的.但两者的物理计划的生成方式则不尽相同.Hive中的物理计划是一系列的MR作业,而Shark中的则是分阶段RDD转换的一个有向无环图.由于Shark的高工作负荷的这个性质(通常在Hive中机器学习及用户定义函数(

《Spark大数据分析实战》——3.1节SQL on Spark

3.1 SQL on Spark AMPLab将大数据分析负载分为三大类型:批量数据处理.交互式查询.实时流处理.而其中很重要的一环便是交互式查询.大数据分析栈中需要满足用户ad-hoc.reporting.iterative等类型的查询需求,也需要提供SQL接口来兼容原有数据库用户的使用习惯,同时也需要SQL能够进行关系模式的重组.完成这些重要的SQL任务的便是Spark SQL和Shark这两个开源分布式大数据查询引擎,它们可以理解为轻量级Hive SQL在Spark上的实现,业界将该类技术

猜你喜欢

PHOTOSHOP制作“反转负冲”效果

"反转负冲"是在胶片拍摄中比较特殊的一种手法.就是用负片的冲洗工艺来冲洗反转片,这样会得到比较诡异而且有趣的色彩.如果用在MM人像照片上,则会令弥漫着一种前卫甚至颓颓的色彩. PS ...

mysql cluster存储引擎NDB，如何设置哪些数据不被LOAD到内存中?

问题描述 mysql cluster存储引擎NDB,如何设置哪些数据不被LOAD到内存中? mysql cluster存储引擎NDB,如何设置哪些数据不被LOAD到内存中?

ASP小偷程序的入门教程(远程数据获取)

程序|教程|入门教程|数据|小偷程序这里所说的"小偷"指的是在ASP中运用XML中的XMLHTTP组件提供的强大功能,把远程网站上的数据(图片,网页及其他文件)抓取到本地,经过各 ...

简单编号让DEDE友情链接更加整齐

首先说明一下,这篇文章不是网站优化类文章,对提高网站排名没什么作用,之所以出现这篇文章仅仅是我个人对网站的整体布局比较小心,不喜欢任何地方出现杂乱的现象.下面进入正题现在大部份的朋友做网站都是用DE ...

TNS-12560的一次解决

解决 TNS-12560的一次解决昨天我们公司客户服务部的一个后台数据库出现TNS-12560问题,他们的WEB维护人员搞了两天没搞定,后来打电话要我去帮他搞.刚开始以为服务器就放在我们公司,我 ...

数据结构教程第一课数据结构的基本概念和术语

本课主题:数据结构的基本概念和术语教学目的:了解数据结构的基本概念,理解常用术语教学重点:基本概念:数据与数据元素教学难点:数据元素间的四种结构关系. 授课内容: 一.数据.数据元素.数据对象. ...

C语言基础教程（二）数据类型、变量和运算符(10)

3. 指针型变量的初始化例如: main() { int *i=7899; /*定义整型数指针变量并初始化*/ float *f=3.1415926; /*定义浮点数指针变量并初始化*/ char ...

Linux操作系统的内核初始化过程详解

概况系统的引导和初始化是操作系统实现控制的第一步,也是集中体现系统优劣的重要部分.LINUX作为一个免费的准UNIX操作系统,在众多业余爱好者以及小型商业处理市场表现不俗,成为继WINDOWS系列后 ...

百度云离线下载教程

百度宣布原来付费才能使用的百度云BT离线下载功能将进入永久免费阶段,大家可以通过百度活动页面领取离线特权.那么获取得到的百度云离线下载特权有什么用?百度云离线下载功能怎么去使用呢?下面我们一起来研究下 ...

win8休眠文件怎么删除

我们电脑常用的是睡眠功能,也就是电脑不用一定时间后, 进入低功耗状态,工作态度保存在内存里, 恢复时1-2秒就可以恢复到原工作状态.这个功能是很实用的,也是最常用的. 而休眠是把工作状态即所有内存 ...

Mac上zip文件解压出cpgz格式的文件该怎么办?

Mac上zip文件解压出cpgz格式的文件该怎么办? 问题原因: 首先,我们分析导致这种情况的原因有以下几点: 1.zip文件已经损坏; 2.zip文件下载时没有下载完全; 3.浏览器在下载或者下 ...

Win8如何在启动时按F8出现修复计算机选项

Win8在启动时按F8出现修复计算机选项的方法如下: 在Win7以及更早的Windows系统中,开机按shift+F8可以进入"高级启动选项",Windows 7在默认安装情况 ...

如何开通中国银行短信通知？

在百度搜索中国银行网上银行,一定要认清楚,是带有百度认证的银行官网,和中国银行的正确域名地址. 点击个人客户银行登录首次登录的客户要安装银行的安全控件才能输入密码,登录是切记要关闭其他的网页或正 ...

ＳＱＬ用视图！２个同样的表！这样的结构怎么操作啊！

问题描述 SQL用视图!2个同样的表!这样的结构怎么操作啊!A1A2A3Ax这样的表!每个表放100W数据!如果A1存满了100W条数据!怎么在A2里接着存现在的问题是在A2这个表里存储的时候!怎么按 ...

在提高性能的同时，模拟信号链路怎样“走向绿色”呢？

很久以前,精确电气的测量是在原始的实验室环境中进行的,在这类环境中,有充足的电力供应,时间分配也能确保极高的准确性.今天,人们希望将仪表携带到现场,让仪表靠电池电源运行,并立即实现更高的准确性.模拟电 ...

利用YAHOO公开API做天气预报Web服务

本系列文章导航创建一个示例和WebMethod特性解析 WebService特性和数组类型解析类和结构体解析利用YAHOO公开API做天气预报Web服务 Webservice 的设计和模式 Re ...

企业信息一键推送3000网站万网商务引擎启用

中介交易 SEO诊断淘宝客云主机技术大厅只须一键,就可将企业网站信息,同步推广到3000多个大型商贸网站和主流搜索引擎,赢得大量商机.7月8日,中国万网宣布,国内首款标准化网络营销工具--万网 ...

盗版微软XP系统防止20号出现黑屏的解决办法

中介交易 SEO诊断淘宝客云主机技术大厅 10月20日微软将在中国再次对盗版WindowsXP进行打击,并首次对盗版Office进行验证,装有盗版Windows XP及Office将被强制插入多 ...

误删除了ADMINISTRATOR中的一个用户，重新注册后原来的NSF文件不能用了。有没有什么办法？

问题描述误删除了ADMINISTRATOR中的一个用户,重新注册后把原来的NSF文件重新拷入,但无法显示.用户要原来的邮箱文件,有没有什么办法可以保留原来的邮件? 解决方案解决方案二:该回复于20 ...

《程序员的修炼——从优秀到卓越》一一1.1 待办事项不靠谱

1.1 待办事项不靠谱程序员的修炼--从优秀到卓越除了看这本书,今天你还打算做些什么呢? 你注意到了吗?在众多类似LifeHacker.com1这样的效率工具网站上,你可以发现大量压得人喘不过气的 ...

签证服务免费办两旅行网价格战再升级

近日,http://www.aliyun.com/zixun/aggregation/4283.html">携程旅行网.出境旅行服务商――佰程旅行网的签证价格战再度升级,双方同一天宣布 ...

腾讯公司敏捷教练艾永亮

2011年6月24~25日,敏捷实践者的盛会Scrum Gathering大会在上海召开,此次盛会云集了传统行业和互联网行业的众多知名企业,如百度.支付宝.SAP.爱立信--来自于腾讯的嘉宾们也带来了 ...

收购影视剧版权力度下降

每日经济新闻(博客,微博)记者谢晓萍发自北京 "优豆联姻"后,在4月24日,腾讯视频.搜狐视频和百度旗下的爱奇艺达成联盟,共同组建 "视频内容合作组织(VCC)&qu ...

三开门为最受消费者关注的冰箱类型

"爸爸妈妈点名就要无霜冰箱,说是省心省力,而且保鲜效果好,有益全家健康."由于能够满足黄金周的消费市场行情,家住北京的李小姐告诉记者购买无霜冰箱的初衷.进入2012年下半年以来,冰 ...

在网站上应该用的30个jQuery插件整理_jquery

当然你现在可能不善于用,但我敢肯定你会发现他们在你未来的项目中使用!. Nivo滑块毫无疑问,这个插件是世界上最真棒jQuery的滑块图片,并配有超过15个过渡效果. Anything Slider ...

Python中实现两个字典（dict）合并的方法_python

本文实例讲述了Python中实现两个字典(dict)合并的方法,分享给大家供大家参考.具体方法如下: 现有两个字典dict如下: dict1={1:[1,11,111],2:[2,22,222]} d ...

weblogic下怎么禁用弱ssl加密算法

问题描述 weblogic下怎么禁用弱ssl加密算法 web应用用appscan扫描出这个问题:支持弱 SSL 密码套件应用是部署在Linux下的weblogic,请问怎么禁用弱加密算法? 解决方 ...

关于火狐浏览器无法打开网页，和谷歌搜索提示出现文件格式无法识别为HTML版的问题？

问题描述为什么我做的HTML静态网页在本地用IE和火狐浏览器测试正常,但上传到服务器IE浏览器能打开我的网页,火狐根本打不开网页,会提示-->为:application/octet-strea ...

欧洲最大私募股权基金CVC宣布收购大娘水饺

欧洲最大的私募股权基金公司CVC＿a href="http://zdb.pedaily.cn/company/CVC/" target="_blank"> ...

MYSQL explain 执行计划_Mysql

使用方法,在select语句前加上explain就可以了: 如:explain select * from test1 EXPLAIN列的解释: table:显示这一行的数据是关于哪张表的 type: ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.021 s.