利用Alluxio系统提升按需数据分析服务的性能

更多精彩内容参见大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。

在很多大数据应用场景中,某些具体的处理问题通常只涉及到整体数据集的一个子集或部分数据。这导致长时间占用大规模集群的整体数据分析方式的资源有效利用率较低,并且总体代价较高,尤其在系统采用计算和存储并置(co-locate)部署架构的场景下各位严重。另外,在很多即席查询和计算应用中,数据的分析任务通常由上层用户零散地给出,与用于处理管道数据和流数据的连续运行分析任务不同,这种零散的分析任务会造成集群的计算能力有些时间段不能被充分利用。另一方面,集群的存储容量必须容纳可能被访问到的任何数据,尽管实际上每次需要使用的工作集合只是整体数据的一小部分。最后,集群本身还需要大量精心的维护管理工作,以确保集群使用者之间的隔离和性能不受彼此太多影响。    

对于上述这些问题的简洁而优雅的解决方案是采用一种上层按需计算集群结合底层对象存储的架构。这种架构通过解耦需要连续运行的持久化存储模块和只有发生分析任务才使用的计算模块来解决这些问题的根源。与上段提到的需要连续运行的整体化集群架构相比,这种架构具有如下优势:

  • 更高的存储性价比和可扩展性:对象存储的性价比很高,大多数对象存储服务提供商都为用户提供无缝扩展到任意数据量的功能。
  • 更高的计算性价比和系统弹性:仅在需要时才使用计算资源,并在必要时扩展计算集群规模以适应不同规模的分析任务。
  • 降低维护成本:计算集群变成一种消耗性资源,使用完后即可释放相关资源,并不需要长时间维护。用户也不需要担心数据的安全问题,因为通常提供给计算集群的数据是来自底层对象存储的数据副本。

事实上,这种计算和存储解耦的方案具备上述优势的同时,也存在着一个关键的缺点:性能损失。这是因为底层的对象存储通常并不是为高I / O吞吐量而设计的,因此会导致上层的计算分析任务可能会因为数据访问效率低下而整体性能变地低效。

幸运的是新架构存在的这个问题可以通过在计算集群上部署Alluxio得到很好的解决。通过引入Alluxio,可以使得计算任务的I/O速度达到内存级别,并且不需要维护长时间运行的集群或昂贵的前期投入成本。

1. 架构示例图介绍

上图显示了利用Alluxio提升按需数据分析服务性能的架构图,从图中可以看出Alluxio与按需使用的计算集群部署在一起,从而减少计算集群频繁访问远程存储的耗时。

2. 结合Alluxio系统架构的优势分析

Alluxio是部署在计算群集中的虚拟的分布式存储系统,为上层应用的I/O提供内存级访问速度的性能。 通过Alluxio虚拟化底层存储系统,使得任何基于Alluxio API接口(Alluxio提供HDFS兼容接口)编写的计算应用程序都能自动地访问用任何或多个底层存储系统,而不需要修改任何代码。此外,Alluxio是一个设计为可横向扩展的分布式存储系统,这意味着通过部署更多的机器来轻松地存储更大的数据集并提高访问性能。

事实上,部署和使用Alluxio对上层应用程序而言是简单和透明的。应用程序还是不断地访问数据,就好像作业直接访问的是远程存储上的数据,Alluxio会智能地将热数据保存在计算集群的内存中以供后续读取。整个过程对于应用程序是透明的,并且不需要进行手动ETL。一旦数据进入Alluxio,它将对集群的所有应用程序可用,因此在同一数据集被多次使用的场景中,应用的性能会大幅提高。

Alluxio为用户提供较高的灵活性和效率。任何需要持久化的结果或转换都可以通过Alluxio直接完成,Alluxio可以将数据同步传播到底层存储系统,以确保数据不会因为节点故障而丢失。此外,用户还可以选择仅在Alluxio内存中存储临时数据或中间数据,从而允许计算任务对这些缓存的数据进行内存级速度访问。

3. 总结

相比于长期运行的计算分析集群高昂的成本和维护工作量,与对象存储结合使用的按需计算集群的架构是一个更简洁和更具性价比的服务解决方案。通过在计算集群中并置(co-locate)部署Alluxio和计算框架,我们克服了这种按需集群模型的关键性的性能缺点。Alluxio系统的架构设计使其成为大数据软件栈中提供此核心功能的一个很好的选择。

版权申明:本文由南京大学顾荣、黄志翻译整理自Alluxio公司技术博客,由Alluxio公司授权及CSDN首发(联合),版权归Alluxio公司所有,未经版权所有者同意请勿转载。

时间: 2024-11-10 08:02:00

利用Alluxio系统提升按需数据分析服务的性能的相关文章

利用索引来提升SQL Server视图的运行性能(二)

二是如果视图中包含Group By语句的话,在最好不要采用索引视图.虽然Group By语句需要对数据进行聚合操作.但是他是高基数度的数据聚合.高基数度表示健包含许多不同的值.如需要采用Group By语句对数以万计的用户数据进行分组,则这个分组对象的数值会很大.这个用户的数量就是基数度.唯一键具有可能的最高基数度,因为每个键具有不同的值.索引视图通过减少查询必须访问的行数来提高性能.如果视图结果集中的行数像基表中的行数那么多,那么使用视图获得的性能收益微乎其微. 三. 索引视图的几个典型应用.

如何利用XP系统磁盘分区应用来提升读写速度

  如何利用XP系统磁盘分区应用来提升读写速度         1.一分钟内分区及格式化硬盘 右键点击"我的电脑",选择"管理"命令.在打开的"计算机管理"窗口中,依次展开"计算机管理"→"存储"→"磁盘管理"项.之后,在右侧窗格中即可看到当前硬盘的分区情况. 在"未指派"的磁盘空间上点击右键,选择"新建磁盘分区"命令.在弹出的磁盘分区向导窗口中,

Win7系统怎样禁用没用的服务项以提升效率

  最新win7系统下载之后,由于用户安装软件以及各种各样的问题,导致了目前系统运行速度越来越慢的情况,所以面对这样的情况,就希望各位用户可以自行禁用无用服务,以此来提高系统的运行效率,以下便是相关的教程. 1.第一个无用服务:其服务名称为Background Intelligent Transfer Service 该进程是与Windows Update相互配合的将后台多余的宽带容量传送给系统更新,系统更新一般用户都是禁用的,那么对于这个进程,各位也可以一并将其禁用即可. 2.第二个无用服务:

Arimo利用Alluxio的内存能力提升深度学习模型的结果效率(Time-to-Result)

深度学习算法通常被一些具体应用所采用,其中比较显著的应用领域包括计算机视觉.机器翻译.文本挖掘.欺诈检测等.深度学习的方法在大模型加大数据的场景下效果显著.与此同时,被设计用来处理大数据的分布式计算平台(如Spark)也日益应用广泛.因此,通过在Spark平台上开发深度学习计算框架,深度学习的应用领域可以变得更加广泛,企业完全可以在已有的Spark基础设施上使用深度学习. 1.利用Alluxio协处理器进行基于Spark的分布式深度学习 在2015 Strata + Hadoop World N

2017年带宽提升与“多合一”服务将越来越普及

对固定和移动运营商而言,2017年将是面临严峻挑战的又一年.全球通信服务提供商(CSP)将继续解决在2016年面临的所有令人头疼的问题.随着话音收入进一步受到挤压,其总收入将在2017年下降4%以上,虽然宽带收入带来了增长,但不足以弥补话音收入的下降,因此运营商将继续寻找新的服务增长点.因此,创新仍将是CSP生存发展的关键. 如何利用超高速服务创收 2017年LTE和光纤的客户数量将继续强劲增长,而千兆宽带也将逐渐普及.然而,通过这些超高速服务进行创收对运营商而言仍将是一个挑战."多合一&quo

利用Ossim系统进行主机漏洞扫描

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://chenguang.blog.51cto.com/350944/1349749 利用Ossim系统进行主机漏洞扫描 企业中查找漏洞要付出很大的努力,不能简单的在服务器上安装一个漏洞扫描软件那么简单,那样起不了多大作用.这并不是因为企业中拥有大量服务器和主机设备,这些服务器和设备又通不同速率的网络互联,只是我们在期望的时间内无法获得所需的覆盖范围,目前许多欧美的国际安全组织都按照自

互联网大佬刘庆峰:利用大数据提升政府效率

2015年3月3日15时,全国政协十二届三次会议在人民大会堂举行.这次大会总共有两千多名政协委员和接近三千名人大代表参与,其中互联网行业的代表人士已经增加至6人,反映这个行业影响力或者重要性正在逐渐提高.那在今年两会上互联网大佬们都有哪些提议呢? 马化腾:用移动互联网防治雾霾 这两天柴静的<穹顶之下>可谓是刷爆了朋友圈,因此雾霾问题也成为此次两会关注的焦点.我们的小马哥也就这一点用自己的互联网思维提了自己的建议. 腾讯CEO马化腾表示,随着移动互联网.大数据.云计算.物联网与人工智能等新技术的

思科CTO:安全、大数据分析服务必将获得渠道伙伴的青睐

物联网是一个巨大的市场商机.能够提供安全技术.大数据分析服务技术这些解决方案的提供商,具有挖掘物联网巨大潜力的能力,他们将扮演至关重要的角色. 拥市值10亿美元的解决方案供应商ePlus,本周在美国芝加哥召开全国销售誓师大会.思科系统公司首席战略和技术官Padmasree Warrior周二在大会一个主题演讲里表示,ePlus在利用物联网业务方面具有特殊的优势. 根据思科的看法,未来十年事关各种非电脑物体之间的网络连接,这些非电脑物体利用传感器不断地收集数据,并将其馈送到中央存储库.Warrio

西门子推出Omneo Performance Analytics 提供大数据分析服务

ZDNet至顶网软件频道消息: 西门子近日宣布推出Omneo Performance Analytics(PA)解决方案.Omneo是西门子去年收购Camstar的成果之一,这是Omneo"软件即服务"(SaaS)的最新应用.西门子产品生命周期管理(PLM)软件业务部门开发的Omneo PA基于大数据分析为客户提供产品性能情报.该解决方案不仅能对整个供应链中的数据和客户体验进行监测,还能在短短数秒之内对数十亿的数据组合进行分析.通过挖掘能够精确指出产品问题来源的.隐含的信息,Omneo