随着社会数据化发展,极大的数据量和非线性数据的增加,使得数据中心也处在不断更迭的发展变化中,特别是超大型的互联网数据中心,它需要能满足多种商业模式(SaaS,PaaS或IaaS)以及应用的存储架构,而国内的互联网巨头正通过采用创新方案引领发展潮流。
两种部署模式:节点与整机架
在技术不断演进的今天,数据中心的存储硬件架构有两种主流的部署模式:单节点部署模式与整机架的部署模式,这两种模式派生出的体系结构具有显著的不同。
首先,单节点部署模式的节点单位资源不共享,整个设计理念是基于简洁的设计,通过增加节点数目来实现几乎是无限的可扩展性;而整机架模式则是把整个机架当成一个部署设备,以实现机架级的资源池化。
其次,对于节点模式而言,数据中心用户会非常关心这一台服务器的性能是否最高,功耗是否最低,成本是否最低等等。而在整机架部署的模式,数据中心用户除了关注这个节点每一个服务器本身之外,还要考虑整个资源池的配置灵活度,怎么样去实现这样的灵活度,以及如何提供足够的互联带宽来支撑这种解耦合。通常来说,对于业务模式相对单一的互联网公司例如优酷这样的视频网站来说,他们会更关注单节点部署的模式,而对于像腾讯、阿里巴巴这种业务模式多样化的公司而言,倾向于通过资源池化进行整机架部署。
然而这些不同,最终具体体现在组成服务器或整机架的芯片、器件和板卡差异化需求。 针对节点模式,为了覆盖各种不同的应用,就会出现有多种种类的服务器节点,包括:有的是计算很强,可能需要SSD,但是数量存储容量不一定很大;或者是存储容量非常多,计算的性能并不是那么高等。针对整机架模式,因为存储资源和计算资源已经解耦合了,这极大减少了服务器的类型,仅有的类型差异也仅限于计算性能或者内存这些因素不同,而存储作为一个变量就从服务器设计中剔除了。但是,整机架部署涉及到更复杂的系统级的体系结构,也就是说整机架部署的复杂度要远高于节点模式,有赖于数据中心用户、ODM\OEM以及PMC这样的方案提供商之间的协同合作。
◆单节点模式部署
在目前主流的单节点部署中,由于服务器的应用场景多样化,导致服务器的多样性,各种不同类型、型号、盘片数量等。为了应对这样的多变,PMC推出了高端口数的IO控制器以及扩展器,以覆盖数据中心、OEM/ODM所需密度。另外,为了帮助数据中心用户实现降低功耗,降低成本,PMC将芯片、扩展器件做到最低的成本,最低的功耗,最高的端口密度。更重要的是,通用的硬件和软件设计,帮助OEM/ODM实现各种各样的产品种类。
因为如果每一个不同类型的服务器都要不同的硬件设计方案,不同的驱动,不同系统去测试,对于OEM\ODM的研发周期以及相应投入的成本都非常高,而PMC作为方案供应商,根据多年与OEM和ODM的合作经验,也非常关注这个问题,并通过保证SAS/SATA高端口数、智能化HBA、简化IOC,支持多种RAID以及更多创新设计等,将产品系列作为一个组合,而具备通用的硬件和软件设计,为OEM/ODM提供设计上的便利。
此外,PMC也会与数据中心客户直接合作,这也是因为数据中心用户经常会面对很多应用场景,由于时间所限,其定制周期非常短,这就需要板卡级的产品,而PMC也可以为这方面提供很多选择。
◆整机架模式部署
为单节点部署提供通用平台方案的同时,PMC也看到了整机架部署的发展趋势。早在两年前,PMC就提出并推动了FDIO的概念,也就是目前业界基本上都认为的一个共同的发展方向——机架级解耦合。
在机架级进行解耦合后,就实现了计算、内存、存储的资源池化。那么在配置的时候,数据中心用户只要考虑CPU、硬盘/SSD数量,然后通过软件策略来实现资源配置,重新组合计算、存储,以匹配应用需求。当然,PMC认为第一步是从静态的解耦合开始,主要是为了减少服务器的类型,这样数据中心用户至少在机架设计的时候,只是关心CPU和内存,以及在组装这个机架的时候,可以摆放多少个盘进去,以实现CPU和盘之间,这种物理资源的任意配比。然后,第二步通过在云平台或者云操作系统和资源管理层进行整合之后,数据中心用户可以动态地进行物理资源的绑定,也就是说这个不再是一个简单的一对一的关系,而是根据业务以及这个节点的故障情况动态地调度这个业务,实现最优的TCO。
较之于vSAN等软件实现手段,PMC提出的解耦合着力在硬件层面的实现,这就导致了性能有较大差异。目前SAS每个连接都是12G一个HBA出口就是8个端口即96G的带宽,但是如果是软件形式放在以太网上,就是算是部署万兆网卡,也有10倍的差别,更不要说这些协议对CPU的额外开销。
当然,解耦合也带来一系列其他的好处,比如说当盘从服务器里头挪掉之后,机械设计可以得到优化,服务器本身就做得更小。针对于空间有限的数据中心用户而言,就可以在同样的空间里摆放更多的服务器。同时,这样也极大地减少了不同业务类型所需要不同的服务器种类,在做整体数据中心的硬件资源管理时就会比较简便。此外,还可以实现共享启动盘等复杂的数据保护,不会因为启动盘损耗,导致节点丢失,而且当操作系统集中化后,也给管理和升级带来了便利性。另外,这样也可以实现工作负载的任意迁移等,这些模式都可以带来一系列TCO的改善。
这样的设计其实从两年前PMC刚提出来时,发展到今天已经可以实现了。PMC认为利用今天非常成熟的SAS技术,至少在机架内,任意资源任意规模的解耦合其实已经可以实现。大体设计为,多个服务器节点,而这些服务器其实已经没有硬盘了,它们之间通过SAS HBA连到一个SAS Switch上面去,再连到一系列提供盘资源的高密度JBOD,这个构架非常简单,利用了基于工业标准的SAS分区技术,可以实现以盘为单位的资源动态分配,在系统设计上实现每一种资源类型的性能和密度优化。采用SAS主要是因为各个部件都非常成熟,目前所有服务内都采用了这种技术,而且这些器件都是久经考验的,PMC只是在控制平面和系统设计上做了不同的实现。
目前,PMC正在和产业链的合作伙伴一起在推动这个构架的实现,包括和天蝎计划的主要厂商一起合作。但PMC的终极理想并不在于此,更远景的来看,这样的SAS的Fabric是否能演进成PCIe的Fabric,现在PMC也是在做研发工作,希望不远将来可以将这些更终极的方案介绍给大家。
作者:杜美洁
来源:51CTO