使用大数据闪存打造融合数据平台

随着企业、服务提供商和超大型数据中心从描述性分析向预测性和规范性分析演进,结合了融合运营和分析数据管道的融合数据平台变得日益重要。大数据闪存可让数据处理平台快速访问历史数据和实时数据流,从而以较低成本创建有效的预测模型。

随着大数据从描述性分析(批量)向预测性(交互)和规范性(实时)分析演进,企业正在越来越多地使用串流数据源和历史批量数据,以提高机器的学习能力并建立预测模型。简而言之,描述性分析是为了了解事态,预测性分析是为了建立一个假设场景模型,而规范性分析是为了通过采取数据驱动型行动来影响结果。新型分析应用能够在交易发生时实时捕获它,并能影响其结果,从而带来直接的商业效益。这方面的用例包括:
反洗钱欺诈分析定向营销工业互联网(IoT/IoE)实时生产制造医疗领域的患者数据情报SanDisk闪迪利用新型分析应用对半导体制造数据进行实时分析。从Lambda架构到SMACK

Lambda架构因其融合实时分析和批量分析的能力而深受喜爱。Lambda架构使用HDFS、Scalding和HBASE作为融合实时分析和批量数据管道的构建模块。但是,该架构带来的多管道复制代码和数据的开销,使得其难以大规模部署。

为了克服Lambda架构的局限性,必需配备一个能够有效处理批量和实时串流的大数据管道。全新的SMACK堆栈——Scala及其Spark、Mesos、Akka、Cassandra和Kafka生态系统便旨在实现这一点。SMACK串流已成为一个用于处理批量和串流数据的有效大型平台。

Meosphere的Infinity堆栈或MapR新近发布的Converged Data Platform等解决方案都是Lambda架构的实例。

配备SMACK(Spark、Mesos、Akka、Cassandra和Kafka)堆栈的串流架构

以下是SMARK堆栈的简要介绍:
Spark:一个快速、通用的分布式大型数据处理引擎。Mesos:一个集群资源管理系统,在各个分布式应用之间提供高效的资源隔离和共享功能。Akka:一个工具包和运行环境,用于在JVM上创建高并发、分布式、弹性消息驱动型应用。Cassandra:一个分布式、高度可用的数据库,旨在处理多个数据中心的大量数据。Kafka:一个高吞吐量、低时延的分布式消息系统,旨在处理实时数据流。面向融合数据平台的大数据闪存

为了创建有效的预测模型,融合堆栈系统需要快速访问历史数据和实时数据流。基于闪存的数据网格可为这些新的数据驱动型架构带来巨大效益。

2015年3月,SanDisk闪迪设立了 “大数据闪存”市场类别,推出了InfiniFlash系统,它拥有极高的容量以及卓越的性能和经济性(源于低成本晶圆和全新的闪存尺寸规格)。

事实上,InfiniFlash系统之所以能成为融合数据平台架构的构建模块,其架构和性能起着至关重要的作用:
数据捕获每秒可捕获数百万个事件,且无事件丢失更快的批量摄取便于扩展使用Avro或Protobuf格式存储数据,无需ETL(提取、转换、加载)过程通过支持Kafka等分布式消息系统消除负载数据处理能够有效处理实时事件和批量数据输入存储处理,以秒和亚秒级实现时延交付数据存储面向数据密集型工作负载的软件定义数据构造,提供敏捷性和可扩展性可长时间存储数个TB的数据支持高吞吐量的批量数据存储,且满足低时延实时查询可处理分离的数据源和“突发性”工作负载采用无模式方式存储数据支持HDFS和NoSQL数据库(如Cassandra、CouchDB、MemSQL、HBase等)可借助Rackscale架构扩展至PB级极低的年故障率(AFR)可使用解聚/共享存储提供企业就绪度、沿袭(审计日志)、合规(依法保留等)和版本控制(维护不同的时间点副本)专为来自HDFS/S3的故障、备份和补丁而设计最为经济高效,低于/GB[1]数据查询支持亚秒级时延的实时查询支持批量/聚集查询支持针对HDFS和NoSQL的查询

使用InfiniFlash“大数据闪存”打造数据密集型融合数据平台的三大原因

无论您是企业还是服务提供商,以下是您应该考虑使用InfiniFlash打造融合数据平台的三大原因:
1. 满足捕获、处理、存储和查询数据管道的所有要求

传统的直接附加型存储解决方案和纯HDD解决方案无法提供融合数据平台所需的大规模性能和吞吐量。此外,它们也不具备可扩展性所带来的资本支出和运营支出效益,也不具备这些平台所要求的敏捷性和企业就绪程度。

与传统硬盘相比,InfiniFlash系统的性能是它们的50倍,密度是它们的5倍,可靠性是它们的4倍,而且便于向上和向外扩展,以满足大数据应用的苛刻要求[2]。基于闪存的软件定义数据构造可让用户根据需要灵活选用多种文件系统,其中包括HDFS、Spectrum Scale、Lustre和Ceph。
2. 全球支持

InfiniFlash在全球各地得到了SanDisk闪迪及其合作伙伴的支持。InfiniFlash是TSA Net Support Community的一部分,可确保满足严格的SLA协议要求。与此同时,我们的FlashStart 功能可确保其安装顺利,并提供卓越的客户体验。
3. 同类最佳的生态系统

SanDisk闪迪与众多业内领先的软件开发者和硬件合作伙伴开展合作,通过同类最佳的生态系统获得更多的选择和灵活性。我们的合作伙伴包括: RedhatCeph、Nexenta、ICloudbyte以及思科、联想、戴尔、Supermicro、Quanta等厂商。同时,我们也正与开源社区开展密切合作,并通过我们的各项事业成为贡献者和思想领袖。(欲了解SanDisk闪迪对于开源SCST企业级特性所做出的贡献,请点击此处。)

结语

搭建融合数据平台是为了满足融合运营和分析管道的要求,以及随后的捕获、处理、存储和查询阶段的存储要求,一个基于大数据闪存的数据构造是融合平台理想的存储层构建模块,可让数据管道的每个阶段都受益。

本文转自d1net(转载)

时间: 2024-11-08 17:27:12

使用大数据闪存打造融合数据平台的相关文章

闪存技术对数据中心产生了哪些影响?

全闪存数据中心是个未来概念,同样还有不少方法实现数据中心内服务器或基于阵列的闪存存储.在数据中心当中使用闪存技术能够完全改变现有的虚拟化方式. 为数据中心添加闪存设备的最大挑战在于如何确保其他基础架构与之保持同步,而基础架构如何进行调整在很大程度上依赖于将要安装的闪存类型.现在有三种类型可供选择:带有缓存功能的服务器闪存.共享闪存阵列和超融合闪存. 现代数据中心的闪存存储设备范围广泛,包括完全闪存或基于闪存缓存的磁盘阵列.服务器闪存以及作为超级融合系统部分,还有各种各样的衍生技术. 全闪存存储如

新华三重磅发布大数据产品,打造大数据产业与生态体系

近日,紫光旗下新华三集团(以下简称新华三)在郑州举办了大数据产品发布会.在这场题为"数据引擎的力量"的发布会上,新华三向与会嘉宾详细汇总了在大数据领域的创新与成果,同时对新华三大数据发展战略作了进一步解读,并正式发布了包含8大引擎在内的新华三大数据产品DataEngine.此次活动是新华三郑州大数据公司成立以来第一次整体亮相,也吹响了新华三加速进军大数据领域的"号角". 新华三集团总裁兼首席执行官于英涛现场致词指出,公司致力于打造大数据产业与生态体系 大数据是新华三

戴尔召开存储研讨会 以闪存技术挖掘数据价值

 戴尔于今日召开了主题为"闪耀云端.'戴'领未来"的存储领域大型主题虚拟在线研讨会.来自全国各行业超过2,000名IT用户.技术专家及学者参加了此次在线研讨会,共同梳理行业用户存储需求的最新特点,探讨存储应用的行业发展趋势,并分享戴尔包含闪存在内的智能数据储存的领先技术方案.此次虚拟在线会议的注册.参会.内容播报以及互动问答等环节都在戴尔全新打造的虚拟会议平台(webinar.dellenterprise.cn)上运行,该平台将在未来为戴尔企业客户提供更多的专业服务. "戴尔

Tech Alert:使用全闪存阵列升级数据中心基础架构

  对于承担着升级数据中心存储基础架构任务的IT专业人员而言,市场上的众多一流全闪存阵列(AFA)都能提供具有吸引力的密度.性能和价值.在本文中,飞康公司的专家将提出相关建议,帮助企业成功地集成AFA,同时最大程度减少或消除创建另一个孤立存储系统或手动管理单独的数据服务的挑战. 除非企业拥有将所有工作负载都迁移到单个AFA或一组相同的AFA的足够预算和能力,否则大部分数据中心都可能混合使用AFA.混合阵列和HDD存储资源,而它们各自需要专门的管理和支持.这就会导致数据中心需要混合使用多种不同的工

闪迪InfiniFlash™系统性能倍增 进一步确立“大数据闪存”地位

全球领先的闪存存储解决方案提供商SanDisk闪迪公司 (NASDAQ: SNDK)今日宣布推出升级版的全闪存存储平台.同时,为世界数据中心带来重大改变的InfiniFlash闪存家族也增添了新成员--InfiniFlashTM IF150系统.该系统不仅具有前一代InfiniFlash处理大数据和超级工作负载的巨大容量,还采用了经过升级的12Gbps SAS连接,使得性能提升一倍.这将进一步拓宽下一代存储平台在更多新型工作负载中的潜在用途,包括高性能计算(HPC).大数据分析.媒体服务以及其他

EMC升级Celerra 支持闪存及重复数据删除

       WatchStor独家译文]虽然在上周接受采访时,EMC公司存储部门总裁David A.Donatelli就表示EMC近期将发布大量新品,但直到美国时间上周末,EMC才正式发布了其升级Celerra系列中端盘阵的消息. 除了业界猜测已久的重复数据删除和企业级闪存,EMC还增加了众多新功能以在VMware环境下优化存储.EMC的Celerra系列NAS.iSCSI和FC产品,去年收获了百分之四十以上的增长,远高于该公司的Symmetrix和CLARiiON SAN销售.Celerra

闪存构建全新数据中心 IDC结合SanDisk会产生什么思想碰撞

一个是著名的分析师机构,一个是业界领先的闪存解决方案提供商.双方交流能产生哪些思想碰撞?近日IDC发布白皮书<新市场.新技术推动闪存存储在中国迎来勃勃生机>.由SanDisk闪迪公司提供技术顾问和支持. IDC认为,就中国市场来看,新一届政府创造了一些概念,从而进一步对推动社会发展.经济转型以及推动技术进步.包括政府制定的第十三个五年计划(2016-2020) 涵盖了<中国制造 2025>."互联网+"等,这些概念需要通过创新的信息技术来推动,反过来又实现产业升

中国光谷大数据产业联盟成立 打造大数据产业生态圈

7月28日,中国光谷大数据产业联盟在武汉未来科技城举行发起仪式.该联盟由武汉长江大数据交易中心.亚信数据.中百集团等13家公司联合发起,旨在推动大数据产业生态繁荣发展.同日,长江大数据研究院挂牌成立. 搭建大数据交流合作平台 据介绍,中国光谷大数据联盟的宗旨是以大数据应用为牵引力,聚合数据源提供方.数据需求方等在内的上下游龙头企业,助力构建数据交易生态体系,并搭建数据交流合作平台,推动与大数据相关的重大技术.标准.市场.政策等问题的前瞻性研究,帮助湖北形成自有的大数据产业标准体系并向全国推广.

有利于企业的闪存数据存储的新用例

   采用诸如NVMe和基于内存总线的闪存DIMM等协议有助于闪存存储设备满足企业最苛刻的用例. 高性能存储系统已经在企业中采用在一段时间了.在20世纪90年代,这些系统是基于DRAM的,主要用于加速面向事务的数据库..这些系统的费用使他们难以自圆其说,并限制了他们的应用程序,大量的性能加速将使组织花费更多的费用. 时代已经改变.随着成本下降,高性能闪存数据存储系统变得更加容易理解,将其转移到企业中并扩大其采用.如今,闪存正在以每GB的价格不断降低,因此,数据存储用例再次发生变化. 闪存成为主力