阿里云ECS最强计算阵容
日前,阿里云在2017云栖大会·深圳峰会上宣布,华北3地域超大规模数据中心正式对外开放运营,云服务器ECS全系列降价20%。毫无疑问,这是阿里云技术红利和技术创新再次集中释放的表现,也是云计算规模效应的体现。作为这其中的主角,云服务器ECS“功不可没”。近日,笔者和两位阿里云资深产品经理就云服务器ECS的研发工作做了深入沟通,首次披露阿里云十余种基于最新平台计算实例背后的那些研发秘密。
从场景出发,打造最强计算阵容
据了解,阿里云通过八年的努力,打造了面向不同企业规模、不同应用场景的实例,根据其业务场景,大致分为以下几类:
- 其一,通用型计算实例。通用型计算实例是覆盖一般业务使用需求的实例规格族,具有相对比较均衡的CPU,内存,存储和网络的能力。对于一般的企业云上业务来说,如各种类型的Web服务器、数据分析、缓存服务、批量处理等业务都可以使用并选择到适合自己业务的规格。目前阿里云能够提供的通用计算实例包括面向站长和中小企业的通用共享型实例N1/N2、XN4/N4/MN4,具有选择丰富,性价比高的特点;和面向业务严肃的中大型企业的通用独享型实例SN1/SN2,具有高性能且计算能力稳定的特点。N5为下一代面向通用场景的实例类型,采用阿里云定制的Skylake Xeon CPU,最多可提供96 vCPU的处理核心,同样搭配DDR4内存,相比上一代,单实例处理能力上限提升高达60%。
- 其二,计算优化型实例。计算优化型实例覆盖了高计算性能、密集计算场景。用户业务在这一场景下对于内存的大小并不需要过高的配置,转而更关注CPU的计算能力,比如高并发的web应用、批量处理、高性能分布式分析、多媒体处理等业务都可通过计算优化实例获得更好的计算性价比。其中,C4规格族(C4/CM4/CE4)为阿里云当前一代主力售卖的高主频实例规格族,采用Intel Xeon E5-2667 v4处理器,实例默认打开turbo,睿频可达到最高3.5GHz的处理频率,相对比当前覆盖通用场景的中主频机型,计算频率提升达到40%。下一代的C5规格族将在2017年中发布,相对于这一代,单实例的计算能力上限将有超过100%的能力提升。
- 其三,内存优化型实例。面向内存优化场景的实例与计算优化实例刚好相反,用户业务在这一场景下对于内存的大小和性能更为关注,而CPU计算的压力并不是整个计算通路的瓶颈点,一般用户运行各类缓存系统、搜索业务、内存数据库、高I/O数据库和Hadoop集群都可通过该类型实例获得相对较优的性价比。阿里云当前一代主售的面向内存优化场景的规格族为SE1,提供最大480GB的DDR4内存,最大56 vCPU计算能力,相比上一代的内存优化规格族,计算能力和内存提升到接近2倍。
- 其四,存储优化型实例。存储优化场景下的ECS实例规格族以提供给用户最好的存储性能和最高的单位存储成本性价比为最根本的设计原则以不同的规格族来满足用户对于IOPS、吞吐、容量、稳定延迟的需求。比如,I1规格族为面向I/O密集型的优化实例,采用最新的NVMe SSD磁盘,单实例IOPS可以达到48万,并可提供稳定在200us左右的低IO延时,搭配56vCPU和 244GiB DDR4内存。可广泛适用于关系型数据库、数据仓库及NoSQL数据库场景。D1规格族为面向大容量存储、大吞吐量的优化实例,单机可提供最大168TB的存储空间,总吞吐可以超过5000 MBps,依旧搭配56vCPU和 244GiB DDR4内存。广泛适用于MapReduce分布式计算如Hadoop、Spark等、分布式文件系统、日志系统。
不难发现,从通用型到各个面向应用场景的优化型实例,阿里云ECS将计算实例划分得非常细致,这样的好处是显而易见的,无论是初创企业,还是大中型企业,不管是做计算还是存储,企业都能轻易的找到适合自身业务的ECS实例,这有助于阿里云能够覆盖到更加广泛的客户。这也并非是一日之功。据阿里云事业部高级专家倪波(竹雾)回忆,两三年前阿里云ECS还仅有寥寥数款产品“打天下”,但是经常会遇到很多问题,如IO、CPU计算能力不足等等。
“哪些场景用户痛点多、需求量大,我们就会学到那个场景里面的关键问题和我们的不足”,竹雾说,这个时候要么是出一个新的规格,要么就是把缺点补足,逐渐积累出如此多的面向不同应用场景的计算实例。
云+异构计算,迎接智能时代
除了上述的通用型、计算型、内存型和存储型ECS实例,阿里云在今年1月发布了异构计算实例,包括GN4实例规格族、GA1实例规格族和F1实例规格族。之所以我将“异构计算实例”单起一章,因为在我看来,异构代表着计算技术新的演进方向,也更加符合未来的趋势,阿里云抢先推出ECS的异构计算实例,算是紧紧扣住了时代的脉搏。
“人工智能”并不是新的理念和技术,数十年前,“人工智能”就已经被科学家们提出,并被尝试和验证。“人工智能”在近两年能够大热,一方面得益于大数据的蓬勃发展,另一方面得益于云计算、HPC以及异构计算的有力推动。人工智能、深度学习对计算能力的需求非常高,需要比传统计算架构更加强大的计算能力和每瓦特性能,而异构计算相比单纯的CPU计算架构,更能满足人工智能、深度学习对强大计算性能、计算能效以及计算实时性的需求,推动和加速了整个人工智能、深度学习生态的迅速发展。
今年1月21日,阿里云发布了异构计算解决方案,包括GPU实例和FPGA实例。GPU解决方案比较擅长做AI领域的模型训练,能够达到非常高的批量计算能力;而FPGA的解决方案比较适合做AI领域的在线的预测/分类,能够达到非常高的吞吐量和非常低的延迟:
首先是GN4实例规格族,单实例最大提供了2颗 NVIDIA M40 GPU,总计6000 个并行处理核心、共计24 GiB的 GPU 显存,14 TFLOPS 单精度浮点运算处理能力,依旧搭配56vCPU和96GiB DDR4内存。适用于机器学习、流体力学计算、基因组学、地震分析、分子建模、金融计算以及其他需要强大并行浮点计算能力的服务器端业务场景。
其次是GA1规格族,为渲染及计算优化实例,提供了4 颗 AMD S7150 GPU,总计 8192 个并行处理核心、32 GiB 的 GPU 显存、15.08 TFLOPS 单精度浮点运算能力和 1 TFLOPS 双精度峰值浮点能力。适用于依赖 GPU 进行非线性编辑、深度学习、VR、3D渲染、金融分析、气象分析、地质分析、计算化学、动力学模拟、基因工程等领域。
最后是F1规格族,搭载FPGA实例,使用户可以基于公共云创建特有的硬件加速器,单块FPGA配有16GiB 受 ECC 保护的内存(2 x DDR4),专用 PCI-Express x8 接口,具有近1518个数字信号处理(DSP)引擎,近115万个逻辑元素,针对目前应用广泛的视频转码、图像处理、深度学习、基因预测、金融分析等场景具有非常高的计算性价比。
对此,阿里云事业部产品专家胡晓博(藏晖)表示,阿里云的异构计算实例,一方面降低了客户的使用门槛,一方面降低了客户的试错成本。比如GPU、FPGA计算,实际上门槛很高,一般的客户知道用起来好,但是自己搞不定。所以,阿里云推出异构计算实例,实际上也是在将自身的能力“抽象”出来,以更具性价比的方式分享给客户。
用产品和技术,诠释社会责任
“任何一家抱有成长成独角兽的企业初创团队是可以信任阿里云”,在竹雾看来,阿里云的发展过程,以及ECS实例的演进过程,实际上给初创企业建立了很好的模型。
从通用型、计算优化型、异构计算,从单个实例,到大规模横向扩展,阿里云ECS的一系列实例实际能为客户成长的每一个过程提供理想的解决方案,阿里云一直所希望的,是将阿里的能力抽象出来、以合适的价格给到用户。
正如竹雾所言:“阿里云把自己的能力贡献给社会,这有点像开源精神。”这句话非常值得琢磨。古典经济学理论认为,一个社会通过市场能够最好地确定其需要,如果企业尽可能高效率地使用资源以提供社会需要的产品和服务,并以消费者愿意支付的价格销售它们,企业就尽到了自己的社会责任。
然而,随着社会的发展进步,如今“社会责任”的含义早已不仅限于最初的供求关系,诚信、规范、环保、慈善、推动科技发展等等,企业肩负着更为广泛的社会责任,商业上的成功,并不是一家成功企业的唯一衡量标准。
在我看来,阿里云能够在中国公有云市场一枝独秀,并能在全球和AWS、Azure形成“3A”竞争格局的一个重要原因,就是在于阿里云能够不断将自身能力输出,为不同阶段的企业提供合适的云计算工具,将世界顶级的计算能力,变成普惠科技,不但推动了企业的云化过程,进而也推动整个云计算生态的发展。从这个角度来看,阿里云在商业道路上披荆斩棘的同时,也在用产品和技术诠释着社会责任。在这个过程中,阿里云ECS无疑起到了关键的助推作用。
感谢老朋友申耀的深度报道。
来源:申耀的科技观察公众号 作者:思考人生的申斯基