在英特尔的推动下,IT系统通信带宽和计算能力遵循摩尔法则不断创下历史新高,保持了每12-18个月翻一番的发展速度。与此同时,IDC最新“数字宇宙”研究预测:数据增长速度将超过摩尔定律,2011年将达到1.8ZB;未来10年,企业将管理50倍于现在的数据量,文件量将增加75倍。在数字宇宙飞速膨胀的背景下,“大数据”的概念也应运而生。
详解Big Data
其实,大数据和云计算是两个相生相伴的概念,尽管业界暂时并没有关于大数据的官方定义,但其实,各厂商对大数据的理解已经达成共识。
EMC信息基础设施产品部总监兼首席运营官Pat Gelsinger认为:大数据应该包括三个要素,首先,大数据是大型的数据集,一般在10TB规模左右,有时候多个数据集集合在一起会形成PB集数据量。其次,这些数据集往往来自于不同的应用和数据源,要求系统能够把半结构化、非结构化和结构化的数据很好地融合起来;最后,大数据还具有实时、可迭代的特点。
IDC全球存储及大数据项目副总裁Benjamin Woo则提出,大数据有四个基本要素,Volume、Variety、Velocity、value。首先,数据在容量上是海量的;其次,大数据是由大量的人提供的庞大数据集,具备多样性特征;此外,无论是企业还是遍布世界各地的个人用户提供数据,这些数据的价值是非常高的,此外,从系统要求来说,希望获得数据的速度是非常快速的。所以用四个V来概括大数据特点。
此外,EMC对大数据和云之间的关系做了更为深入的诠释:大数据和云是两个不同的概念,但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存在很多合力的地方。
“当我们打造云设施的时候,就会想云设施上应该跑什么样的应用,大数据就是在云上跑的、非常典型的应用。例如尽管电子邮件也是云上的应用之一,但也可以脱离云架构,但是大数据应用必须架构在云设施上。这就是两者的关系——大数据离不开云。” Pat Gelsinger如是说。
传统存储的瓶颈
如今,大数据的概念已经日益清晰,但解决大数据的存储问题仍然是摆在每个用户面前的一道难题。不仅如此,整个IT领域技术飞速发展,很多20年以前的新技术、新架构,如今面临淘汰甚至已经消失在技术发展的浩瀚长河中;而今天的很多新技术,20年后还将面临同样的命运,存储领域的技术更迭相比其他任何一个领域都表现的格外明显。
存储领域的关键技术SAN和NAS架构如今也已经有了近20年发展历史,并从十年前开始取代DAS成为企业存储的主流标准架构。然而,SAN和NAS平台本质上不过是对 DAS 的改进,并未突破传统存储技术的瓶颈。传统存储架构依然存在根本性的体系结构缺陷:
首先,传统的存储架构是静态的,其设计在可扩展性方面先天存在着不足,在进行扩展时,往往只能磁盘数量扩展,背板、内存和处理器资源却无法随之扩展。企业若想要满足不断增长的容量和性能要求,就不得不花费大量成本,且面临的数据风险也不断增加。最后的结果是,用户需要管理越来越复杂的存储,但所需的组织和人员配备却不能持续增长。
卷是各种存储技术的最基本部分,为用户的前端应用提供数据服务,从存储卷的应用模式上看,已经体现出需要新的存储模式的最明显征兆。在一个理想的“云”的系统环境中,卷应该是灵活自由的,我们很难找到将数据限制到特定位置的理由。在足够的安全性和可靠性前提下,个人和应用程序应该能够从任何地理位置轻松访问文件和文件夹,就像数据在本地一样,并且,随着应用规模的增长,所对应的存储卷也应该无缝的随需增长。
然而事实的情况是,存储卷并不能在各种并不能完全自由的在设备间随意迁移、且存储卷的扩展与收缩显然也并不如我们想象的灵活。当存储卷受到可靠性问题、技术限制或性能等多方面限制时,最终给用户带来的问题就是效率低下的情况。这些固定的资源集要充分发挥全部潜力,
此外,传统存储环境遭遇的另一个重要难题是浪费;许多存储供应商认为用户环境的存储系统中,多达50%的资源未得到充分利用。当然这一点有利于存储供应商的收益,但对用户来说,将导致电力、冷却和管理方面的浪费。
先天存在的瓶颈使得传统存储在面临大数据难题时更加捉襟见肘。
(责任编辑:蒙遗善)