继《零起点部署大数据虚拟化》系列教程之后,本着“知其然,亦知其所以然”的原则,本系列走进大数据虚拟化的内部,分上下两篇博文,帮助读者了解vSphere Big Data Extensions(以下简称BDE)的部署架构和系统架构,理解部署原理和内部构成,以及各自的作用。希望对您有所帮助,也欢迎您留言评价。
上: Serengeti虚拟化应用(即本文)
下: Serengeti管理服务器的系统架构
Serengeti虚拟化应用
vSphere Big Data Extensions (BDE)是VMware基于 Serengeti开源技术的企业发行版。其重点是增强vSphere基础架构对Serengeti的支持,更好地部署、运行和管理大数据相关负载。
从部署角度看,BDE打包了Serengeti虚拟化应用,并且包括一个vCenter网页客户端的插件。
Serengeti虚拟化应用(VirtualAppliance)包括Serengeti管理服务器和虚拟机模板。这个应用可以很容易地部署在VMware的vCenter之上。
大数据虚拟化(BDE/Serengeti)的部署结构图
Serengeti管理服务器是整个Serengeti的核心部件,提供Hadoop集群在虚拟化环境下的部署,管理的功能。并且为不同用户提供不同的资源使用策略。
对资源利用率要求高的客户,可以在Serengeti的帮助下,使资源在hadoop应用和其他应用之间有效的共享。而对于Hadoop的performance有更高要求的客户,则可以通过Serengeti实现资源在不同应用之间完美隔离,达到在资源独占情况下的最优使用效果。
Serengeti管理服务器对外提供RESTAPI,以便远程客户端访问和控制hadoop集群。SerengetiCLI和BDE的UI 插件都是通过RESTAPI访问Serengeti管理服务器的。
Hadoop 集群的所有虚拟机都是从Serengeti虚拟机模板直接或间接复制而来,其中包括一个基本的CentOS操作系统,简单的集群安装需要的软件。但是其中不包含Hadoop的安装包,是因为Serengeti可以支持多种Hadoop发行版,这些软件的安装是在集群的创建过程中完成的。
部署完成之后,Serengeti管理服务器作为一个虚拟化应用运行在某一台虚拟主机中。并且注册成为vCenter的一个扩展服务器。之后,Serengeti会和vCenter建立SSL链接,确保数据交互的安全性和可靠性。
未完待续... 之后会讨论下篇 - vSphere Big Data Extensions/Serengeti的系统架构,敬请期待!
作者简介
蔺永华 (Emma Lin)
VMware高级开发工程师,Staff Engineer
担任VMware大数据产品vSphere BDE、Serengeti开源项目的技术带头人,引领和参与Serengeti核心架构与功能的设计和研发,经历Serengeti自问世以来的6个版本的研发和发布。长期致力于通过vSphere BDE/Serengeti使VMware虚拟化基础架构成为大数据应用的最好选择。在VMware之前,就职于BEA/Oracle软件开发中心,长期从事分布式系统的开发、设计工作,拥有丰富的企业软件开发经验。
查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Servers/virtualization/