大数据爆发性增长 存储技术面临难题

随着大数据应用的爆发性增长,大数据已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的。大数据本身意味着非常多需要使用标准存储技术来处理的数据。大数据可能由TB级(或者甚至PB级)信息组成,既包括结构化数据(数据库、日志、SQL等)以及非结构化数据(社交媒体帖子、传感器、多媒体数据)。此外,大部分这些数据缺乏索引或者其他组织结构,可能由很多不同文件类型组成。从目前技术发展的情况来看,大数据存储技术的发展正面临着以下几个难题:

1、容量问题

这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。

“大数据”应用除了数据规模巨大之外,还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题,处理不当的话会影响到系统的扩展能力和性能,而传统的NAS系统就存在这一瓶颈。所幸的是,基于对象的存储架构就不存在这个问题,它可以在一个系统中管理十亿级别的文件数量,而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力,可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。

2、延迟问题

“大数据”应用还存在实时性的问题。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质的可扩展存储系统等等都在蓬勃发展。

3、并发访问

一旦企业认识到大数据分析应用的潜在价值,他们就会将更多的数据集纳入系统进行比较,同时让更多的人分享并使用这些数据。为了创造更多的商业价值,企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题,全局文件系统允许多个主机上的多个用户并发访问文件数据,而这些数据则可能存储在多个地点的多种不同类型的存储设备上。

4、安全问题

某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。

5、成本问题

成本问题“大”,也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。

对成本控制影响最大的因素是那些商业化的硬件设备。因此,很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的“硬件平台”而不是用现成的商业产品,这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求,现在越来越多的存储产品都提供纯软件的形式,可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外,很多存储软件公司还在销售以软件产品为核心的软硬一体化装置,或者与硬件厂商结盟,推出合作型产品。

6、数据的积累

许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

7、数据的灵活性

大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。

存储介质正在改变,云计算倍受青睐

存储之于安防的地位,其已经不仅是一个设备而已,而是已经升华到了一个解决方案平台的地步。作为图像数据和报警事件记录的载体,存储的重要性是不言而喻的。

安防监控应用对存储的需求是什么?首先,海量存储的需求。其次,性能的要求。第三,价格的敏感度。第四,集中管理的要求。第五,网络化要求。安防监控技术发展到今天经历了三个阶段,即:模拟化、数字化、网络化。与之相适应,监控数据存储也经历了多个阶段,即:VCR模拟数据存储、DVR数字数据存储,到现在的集中网络存储,以及发展到云存储阶段,正是在一步步迎合这种市场需求。在未来,安防监控随着高清化,网络化,智能化的不断发展,将对现有存储方案带来不断挑战,包括容量、带宽的扩展问题和管理问题。那么,基于大数据战略的海量存储系统--云存储就倍受青睐了。

基于大数据战略的安防存储优势明显

当前社会对于数据的依赖是前所未有的,数据已变成与硬资产和人同等重要的重要资料。如何存好、保护好、使用好这些海量的大数据,是安防行业面临的重要问题之一。那么基于大数据战略的安防存储其优势何在?

目前的存储市场上,原有的视频监控方案容量、带宽难以扩展。客户往往需要采购更多更高端的设备来扩充容量,提高性能,随之带来的是成本的急剧增长以及系统复杂性的激增。同时,传统的存储模式很难在完全没有业务停顿的情况下进行升级,扩容会对业务带来巨大影响。其次,传统的视频监控方案难于管理。由于视频监控系统一般规模较大,分布特征明显,大多独立管理,这样就把整个系统分割成了多个管理孤岛,相互之间通信困难,难以协调工作,以提高整体性能。除此之外,绿色、安全等也是传统视频监控方案所面临的突出问题。

基于大数据战略的云存储技术与生俱来的高扩展、易管理、高安全等特性为传统存储面临的问题带来了解决的契机。利用云存储,用户可以方便的进行容量、带宽扩展,而不必停止业务,或改变系统架构。同时,云存储还具有高安全、低成本、绿色节能等特点。基于云存储的视频监控解决方案是客户应对挑战很好的选择。王宇说,进入二十一世纪,云存储作为一种新的存储架构,已逐步走入应用阶段,云存储不仅轻松突破了SAN的性能瓶颈,而且可以实现性能与容量的线性扩展,这对于拥有大量数据的安防监控用户来说是一个新选择。

以英特尔推出的Hadoop分布式文件系统(HDFS)为例,其提供了一个高度容错性和高吞吐量的海量数据存储解决方案。目前已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实标准。

随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍。HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。最重要的是,其可以满足以下特性:可自我修复的分布式文件存储系统,高可扩展性,无需停机动态扩容,高可靠性,数据自动检测和复制,高吞吐量访问,消除访问瓶颈,使用低成本存储和服务器构建。

原文发布时间为:2015年10月13日

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-09-08 21:53:03

大数据爆发性增长 存储技术面临难题的相关文章

大数据令生命周期管理面临更大挑战

文章讲的是大数据令生命周期管理面临更大挑战,集成化生命周期管理(Integrated lifecycle management,简称ILM)在迎接大数据趋势的同时也面临着新的挑战.目前可以将此类挑战归纳为三个主要的类别:无穷尽的大数据总量.大部分新数据的短期有效性以及遵循3V规范(即数量.速度与多样性)的数据一致性难题. 这就是Loraine Lawson最近发表的文章中汇总出的主干内容.她在这一话题上的观点与我的总体思路基本一致.但我对她"ILM对于大数据而言比小型数据分析环境更加重要&quo

中国科学院院士怀进鹏:大数据及大数据的科学与技术问题

第五届中国云计算大会于2013年6月5-7日在北京国家会议中心拉开帷幕.本次大会以国际视野,洞悉全球云计算发展趋势,并从应用出发,探讨云计算与大数据.云计算与移动互联网.云安全及云计算行业应用等焦点话题.大会还特别设立了云计算服务展示区域,交流国际云计算最新研究成果,展示国内云计算试点城市发展成就,分享云计算发展经验,促进全球云计算创新合作. 中国电子学会云计算专家委员会候任主任委员.中国科学院院士 怀进鹏 在第五届云计算大会第二天的演讲上,中国电子学会云计算专家委员会候任主任委员.中国科学院院

大数据时代:存储选择变幻莫测

文章讲的是大数据时代:存储选择变幻莫测,随着企业级大数据存储需求的不断增加,存储厂商和系统管理人员都需要确定在大数据环境下的最佳实践是怎样的.因此,我们看到有越来越多像是Hadoop和"云"之类的东西.但根据Toigo Partners International的最主要的合作伙伴Jon Toigo的看法,这些方法并不是大数据环境下最好的. 在本文中,Toigo与网站编辑助理Sarah Wilson就大数据环境下的存储市场变革进行了讨论.收听音频或阅读下文中的对话内容,了解他关于大数据

大数据“小时代”中国技术峰会强势来袭

文章讲的是大数据"小时代"中国技术峰会强势来袭,今年全国普通高校毕业生规模高达699万,2013年的夏天被称为"史上最难就业季".事实果真如此吗?笔者认为,大学生找一份温饱的工作显然不难,难的是找一份适合自己的好工作.什么样的工作是好工作?这个问题仁者见仁智者见智,不过,薪水待遇绝对是衡量工作好坏与否的一个重要指标. 权威调查机构Dice Tech的2013 薪资Top 100调查显示,以Hadoop为首的大数据傲视群雄,成为了最赚钱的行业.换而言之,Hadoop无

陈奇:IBM大数据的战略和技术优势

本文讲的是陈奇:IBM大数据的战略和技术优势,当前,行业对于"大数据"的关注疾速攀升,这并不亚于数据本身的增长程度.您是否想过,我们看到的"谈大数据色变"或许只是个表象,走在行业前列的企业早已开始默默挖掘大数据中蕴含的"金矿",为自己的业务飙升迈出制胜一步. 作为行业引领者,IBM一直走在新趋势的前沿,对于大数据更是全力融合创新技术与行业经验助力客户梳理大数据概念,选择战略方向,制定方案策略,实现行业落地:今年5月,IBM智慧的分析洞察正式发布,

何英华:大数据时代的存储之道

本文讲的是何英华:大数据时代的存储之道,当前,随着企业规模的不断成长,有效存储和管理长期累积的且仍在持续快速增长的海量数据,从中发掘商业价值,意味着巨大的市场机遇;同时,也带来了严峻的挑战:大数据将挑战企业在存储架构及数据中心基础设施等,也会引发数据仓库.数据挖掘.商业智能.云计算等应用的连锁反应.如何选择有效的组织管理数据,提供商业解决方案,已经不是单纯的IT技术问题,而是与企业未来发展前途攸关的关键性问题. 面对大数据存在的机遇与挑战,在以"海量数据 深度分析 智慧商业"为主题的第

大数据与当代营销技术

著名广告大师约翰·沃纳梅克提出:我知道我的广告费有一半浪费了,但遗憾的是,我不知道是哪一半被浪费了.这个长期困扰广告人的世界难题有望得到突破,而解决这个问题的关键就是"大数据".过去之所以难以解决这个问题,是因为没有足够的技术手段来分析.挖掘我们http://www.aliyun.com/zixun/aggregation/18355.html">投放广告的对象的交互轨迹,而最近几年出现的云计算.NoSQL.并行计算.BI等等的大数据技术手段让我们看到了解决这一问题的些

吴甘沙清华讲:大数据的10个技术前沿(中)

本次讲座是清华大数据产业联合会"技术•前沿"系列讲座的第一讲,主讲人为英特尔(中国)研究院院长吴甘沙.回复"清华大数据"可获得完整版PPT. 吴甘沙院长从大数据技术前沿的十个问题入手,对大数据产业进行了深度解析.讲座分为三部分: 大数据的10个技术前沿(上)--数据,12月25日已发 大数据的10个技术前沿(中)--计算,本期 大数据的10个技术前沿(下)--分析,待续 演讲正文: 第四,软硬兼施.就是软的硬的两手抓. 首先,对大数据来说,一定要选择更好的硬件架构.

寻找大数据时代金融集中存储解决方案

银行是我国最早安防应用领域之一,在新时期,历经诸多技术变革后,必然在存储系统出现新变化. 银行监控现状 视频监控是安防行业中发展最快.空间最大的子门类.据悉,到十二五规划末期将实现产业规模翻一番的总体目标,年均增长率达到20%左右,2015年总产值将达到5000亿元,实现增加值1600亿元.金融监控市场约占中国视频监控市场6%左右,就此计算,到今年金融安防在激增,将达到300亿元. 此外,目前我国有各类金融营业网点超过35万个,仅邮政储蓄网点就接近4万个.据有关部门预计,2015年,我国ATM机