分析:大数据时代下的存储平台选择

文章讲的是分析:大数据时代下的存储平台选择,大数据是时下最热门的企业IT话题,那么大数据对存储有什么要求呢?

  为了解决这个问题,我们首先来分析一下大数据的特点。

  Gartner对大数据下了一个简洁的定义:“大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。”

  所以,大数据既包含结构化数据也包括非结构化数据,而且是以数量巨大、变化率高的形式存在。

  大数据如此热门的主要原因是因为它能提供可行性的见解。企业通常使用分析应用来提取大数据里的本来难以挖掘的信息,而这是用现有的技术和方法不可能办到的。

  像石化工业和金融服务行业已经使用数据仓库技术来处理大量的数据几十年了。但这并不是指现在所谓的大数据。

  主要区别在于,现在的大数据包括非结构化数据,并且可以从各种数据中提取有用的信息,比如邮件、日志文件、社交多媒体、商业交易及其他数据。

  比如,保存在数据库里的一家连锁零售商店的某商品的销售图表数据。对这些数据的获取就不是大数据范畴的问题。

  但是如果企业需要把某商品的销售量和特定时刻的天气状况,或者不同的消费者信息联系起来,并且要求能快速获取这些信息,这需要密集处理,这就是大数据技术的一种应用。

  大数据存储和传统的数据存储相比有什么不同?

  大数据应用的一个主要特点是实时性或者近实时性。比如,如果警察拦住一辆车,想得到这辆车的相关信息,那么这对时间的要求是越快越好。

  类似的,一个金融类的应用,能为业务员从数量巨大种类繁多的数据里快速挖掘出相关信息,能帮助他们领先于竞争对手做出交易的决定。

  数据通常以每年增长50%的速度快速激增,尤其是非结构化数据。随着科技的进步,有越来越多的传感器采集数据、移动设备、社交多媒体等等,所以数据只可能继续增长。

  总而言之,大数据需要非常高性能、高吞吐率、大容量的基础设备。

  大数据存储选择

  选择存储大数据方法时需要考虑到应用特点和使用模式。

  在传统的数据仓库上进行对相似数据集的挖掘操作,一般都在一个单独的存储设备上进行。现在这种方法对处理能力和存储容量的可扩展性来说已经不是最优的选择了。

  相反,一个web分析工作负载要求能在低延迟的情况下访问大量的小文件,使用大量的电脑或者存储单元,性能和容量都可以在一定条件下进行扩展。这种存储方式更适合大数据。

  这里提到了多种存储方法。

  首先是横向扩展(scale-out)NAS。

  横向扩展NAS是文件级别的访问存储器,它是由多个连接在一起的存储节点构成,而且存储容量和处理能力会随着节点的增加而提升。同时,支持数十亿文件和PB级存储容量的并行文件系统允许把不同位置的大量数据连接起来。

  横向扩展NAS产品主要包括:EMC Isilon及其OneFS分布式文件系统;HDS的 Cloudera Hadoop Distribution Cluster 基准体系架构;Data Direct Networks hScaler Hadoop NAS平台;IBM的SONAS;HP的X9000;还有DATA Ontap横向扩展操作系统版本已经到8.2的NetApp。

  另外一个适合处理大量数据的技术是对象存储。对象存储有可能替代传统的树形文件系统。对象存储支持平行的数据结构,所有文件都有唯一的ID标识,类似于网上的DNS系统。在平行的文件系统结构中比在垂直的文件系统结构中处理大量的对象要简单的多。

  对象存储产品越来越多的支持大数据分析环境,其产品主要有Scality的RING体系结构,Dell 的DX,还有EMC的Atmos平台。

  Hyperscale、大数据和ViPR

  一个被称作hyperscale的计算机/存储体系结构凭借其被诸如Facebook和Google等公司的使用,而日益突显。Hyperscale使用许多相对简单常见的基于硬件的直连式存储计算机节点,来提高大数据分析环境的性能,比如Hadoop。

  和传统的企业级计算和存储构架不同,hyperscale在完整的计算机/DAS节点上进行冗余备份。如果一部分节点遇到故障,失败的任务将会交给另一个备份节点。整个出故障的单元都会被替换。

  这个方法适合非常大规模数据的用户,比如前面提到的一些网络先驱者。

  但是这也不一定,因为一些有实力的供应商已经意识到hyperscale体系结构给他们带来的机会和威胁,同时随着数据的增长,大数据种类也纷繁复杂。

  这似乎就是EMC推出其软件定义存储ViPR的原因了。今年EMC World 公布,ViPR在现有的存储设备上放置了一个横向扩展对象,能将这些存储设备——EMC或者其它供应商的存储阵列、DAS和商品存储——管理起来作为一个单独的存储池。另外,ViPR的存储容量可以通过API连接到Hadoop或者其它大数据分析引擎,使数据可以在数据存储的位置进行分析查询。

  Nutanix被称为高度融合的存储和计算节点的出现也反应了这个趋势。

  这个初创公司将计算和存储系统合并到了一起,并出售其支持集群的2U系统,该系统为Hadoop用户提供hyperscale节点,每个节点有四个CPU插槽。使用SSD和旋转介质,提供数据分层和压缩,能达到宣称的2GBps的吞吐量。

作者:蔡思萌

来源:IT168

原文链接:分析:大数据时代下的存储平台选择

时间: 2024-09-17 04:26:19

分析:大数据时代下的存储平台选择的相关文章

“云+大数据”时代 中端存储如何选择

 云计算.大数据,随着这两个技术词汇在越来越多的映入我们眼帘的同时,一方面企业级IT基础架构也在随之在潜移默化的改变着."云+大数据"时代,在很多人看来,首先想到的是,大数据和私有云存储是一个具有雄厚技术与经济实力的大型企业才有可能实现的.其实不然,与前几年的云雾笼罩不同,云计算正在为IT经理们越来越熟悉,他们中的一些已经成功的实施部署了云计算;在存储方面,据IDG的研究表明,在新技术趋势对各不同规模大小企业所造成的挑战分析认为,中小企业更易于采用和实现新的技术趋势.而根据中小企业的数

Qlik潘应麒:大数据时代下的现代分析学

文章讲的是Qlik潘应麒:大数据时代下的现代分析学,大数据时代的来临同时意味着我们将进入人工智能化的时代.我们所面对的数据容量,数据种类,数据变化的数据同之前都大不相同.但是,在面对这样庞大的数据量多变的场景下,对于企业来说对每一位企业的员工在每天工作的时候做出的决定有很大的变化. 从业务掌握数据,利用数据做出最优的业务决定,利用数据来帮助我们企业做出最优化的业务经营.最终做出决策的是靠我们的员工.靠人,所以,提供给每个员工先进的技术,来掌握数据,使每个企业员工在共同优化的环境下面,为企业做出最

大数据时代结构化存储云HBase技术架构及最佳实践

在10年,阿里研究HBase,是为了解决阿里容量及并发的实际问题,按照数据库要求,阿里深入HBase技术,并致力于保障稳定性和性能,目前已经有10000台规模,数百个集群,大约1亿的QPS,服务整个集团的业务.17年,把这部分能力也开放给公有云客户.本文中,阿里云高级专家封神带来了主题演讲<大数据时代结构化存储云HBase技术架构及最佳实践>,介绍HBase的应用选择.实战案例.技术平台解读以及后续的规划. 为什么应用HBase 一般而言,传统关系型数据库面临着成本.容量.QPS.分析等多方面

2016中国国际大数据大会:大数据时代下的机遇和挑战

ZD至顶网CIO与应用频道 10月09日 北京消息:十一假期前,一年一届的中国国际大数据大会在京闭幕.本届由人民邮电出版社主办,<大数据>杂志.数创汇承办的大会,以"数聚新动能.数创大未来"为题,共同探讨了大数据的发展态势,以及技术如何与行业紧密融合. 以下为嘉宾精彩观点整理: 国家信息化专家咨询委员会常务副主任周宏仁:中国GDP不能靠房产,数据资产是条路子 因为大数据产业的绿色.高效.门槛相对也比较低,所以是最具有潜力的新兴产业之一.但要想发展一个数据企业的话,实际上有三

大数据时代下“被直播”问题现状调研报告

"被直播"问题,指的是大数据时代,不管是自身原因或者他人原因而造成的隐私问题泄露,对公众造成潜在或既成影响的一种普遍现象.如何对"被直播"问题进行系统分析,分析其出现原因及原理,从而为公众提供一套行之有效的解决措施,成为了当下迫切需要解决的难题. 一.调研的背景与意义 1.选题背景 (1)大数据的定义 大数据这个词在最近几年热度未见消退,反而越来越热门,在2013年甚至被称为大数据的元年,这与近几年互联网技术的快速发展是分不开的.大数据(Big data),或称巨量

大数据时代下的意图搜索 个性化服务是关键

意图搜索起源于互联网搜索引擎,是基于互联网上海量的无组织.异构.动态的数据与信息环境下搜索引擎不能准确理解用户的搜索意图而提出的,利用如神经网络算法等机器学习方法实现智能化的自动搜索,从而更加精准.主体的提供个性化的服务. 大数据时代下的意图搜索个性化服务是关键 一.目的意义 大数据时代,任何网络行为所留下的"蛛丝马迹"都以数据的形式隐藏在大数据中,正所谓"存在就有痕迹,联系就有信息",通过应用物联网.大数据.人工智能等技术,构建网络空间中行为事件.思想事件等模型.

大数据时代下的云安全准则探析

云计算和大数据是目前比较流行的技术,可是这两者之间存在什么联系呢?云计算为大数据提供了基础设施,大数据需要灵活的计算环境,而后者可以快速.自动地进行扩展以支持海量数据.基础设施云可以精准地提供这些需求.498)this.width=498;' onmousewheel = 'javascript:return big(this)' border="0" alt="大数据时代下的云安全准则探析" src="http://s5.51cto.com/wyfs02

大数据时代下 避免云安全误入歧途

在当前的互联网世界里,大数据和云计算已经成为公认的主流技术之一,然而,这两者直接的关系也始终吸引业界关注的目光,云计算为大数据提供了基础设施,大数据需要灵活的计算环境,而后者可以快速.自动地进行扩展以支持海量数据.基础设施云可以精准地提供这些需求. 当在大数据使用案例中提及云安全策略时,我们希望任何安全解决方案都能够在不影响部署安全性的情况下提供与云一样的灵活性.可是灵活性和安全性有的时候是不能兼顾的,所以如何实现安全性和灵活性的平衡是云计算提供商和大数据提供商需要深入思考的. 部署云加密措施被

大数据时代下的银行业:围绕客户体验创新求变

大数据时代下的银行业:围绕客户体验创新求变 "中国金融服务业正在发生翻天覆地的变化,除了持续的金融系统改革外,中国的商业银行面临着更具挑战的客户预期以及诸多新机构的竞争.为了保持竞争优势,金融机构采取措施,利用更加先进的数据和分析能力,提供移动银行等数字渠道服务,提升客户参与度和全渠道体验."在6月23日举行的2016年中国国际银行会议上,亚洲银行家主席以理表示. 进入大数据时代,变革正在银行业中迅速蔓延.从银行家们的视角来看,大数据技术赋予了银行业新的转型驱动力,提升客户体验则成为现