大数据虚拟化零起点(一) 开篇

大数据的虚拟化:企业IT发展潮流

大数据的虚拟化是当前大数据以及Hadoop社区的一个发展趋势。Gartner在2013年6月举行的Hadoop Summit大会上提到,为了让Hadoop等大数据技术真正落地企业,我们要从具体业务需求出发,驱动大数据相关技术和产品的进一步发展,逐渐告别之前技术驱动的创新。Gartner同时指出,虚拟化是这个新阶段的重要趋势。随着全球企业IT虚拟化的比例突破三分之二,以虚拟化为基础的软件定义的数据中心对企业来讲变得越来越普及和重要,大数据在这样的浪潮下如何影响和融入现有企业数据中心的基础架构变成了现实的挑战。本博客将围绕这个话题,从运维、技术、和解决方案的角度给出具体内容。

到底什么是大数据的虚拟化?

解答这个问题首先要回顾企业IT为什么要做虚拟化?我认为原因有以下几点:

1. 虚拟化能够显著提升服务器的利用率,通过整合服务器资源达到更佳的利用率。

2. 以x86服务器为代表的虚拟化本身的拥有成本相对小型机和软硬件一体设备来讲,更经济;而且性能表现一点也不逊色,横向扩展更是巨大优势。

3. 虚拟化在云计算(无论是公有云还是私有云)中承担着很重要的基础工作。没有虚拟化技术,云计算的弹性和多租户往往难以得到真正落实。

4. 虚拟化已经可以支撑企业关键应用(如ERP、邮件服务器、业务生产数据库等),这证明在虚拟化和性能稳定性之间已经不再需要二选一。此外,众多成功案例和技术白皮书也可以帮助更多客户加强信心。虚拟化迈向全面成熟的标志已经树立。

显然企业虚拟化的进程不会停止,目前包括VMware在内的领导厂商都在拓展虚拟化2.0。不仅是服务器(计算资源)虚拟化,包括存储和网络等过去相对难以直接被虚拟化所用的孤岛都出现了最前沿的创新推动,例如“软件定义数据中心”、“存储虚拟化”、“网络虚拟化”等热点,都已经出现了具体的产品和解决方案。

大数据的虚拟化,是将大数据的工作负载运行或迁移到虚拟化的基础环境中。除了自然地继承以上所谈到的虚拟化的普遍优点,值得一提的还有几个特殊的好处:

1. 由于大数据基础架构在起步时往往难以确定需要多少计算和数据节点,这些节点用物理服务器需要一一去堆。如果没有专家团队支持,将会非常耗时费力,而且将来扩展非常不方便,利用率极低,管理效率问题相当突出。虚拟化不仅可以快速部署集群,更可以灵活管理它们,同时显著提高利用率。

2. 大数据混合使用共享存储和本地存储,用来提高性能。虚拟化可以完全满足这些需求,并且让我们灵活的扩展和设计策略。

3. 虚拟化可以将大数据从底层向上对外形成多租户和数据分析服务,很好的隔离计算环境,为推动大数据即服务奠定基础。

4. 虚拟化还有利于整合和集成其它的数据应用在统一的虚拟化平台上,大大降低IT基础架构的复杂度和运维成本。

我想以上不仅解释了什么是大数据的虚拟化,也说明了这个市场的存在价值。那么我们还需要什么?知识和技能。企业面临的最大问题不是实在的需求,而是没有专业的人才去发现和处理它;57%的企业认为他们急需掌握具体技术和知识的人才;同时,管理和安全也是一大挑战,占37%。这些数字都印证了虚拟化存在的必要性和价值。(数据来自微软公司在Hadoop Summit 2013上的报告)

关于大数据的虚拟化这个崭新的话题,我想市场上可能还没有多少人可以了解具体如何实现它,需要使用什么样的技术和产品。因为不了解,便容易造成主观臆断,觉得大数据和虚拟化是矛盾的,甚至觉得将两者结合在一起是“不靠谱”的。我将通过即将发布的一系列博文具体阐述如何实现虚拟化上的大数据,让读者知道这两者的关系,帮助他们解开疑虑。所以,接下来的一系列博客文章都属于技术“干货”,将指导有兴趣进一步了解和尝试这个领域的读者或企业进一步探索并动手亲自尝试使用。

作者简介:

张君迟

VMware大数据解决方案项目经理

目前负责VMware大数据解决方案的管理和市场工作。曾担任VMware数据库管理产品vFabricData Director产品经理,对虚拟化、云计算、关系型数据库和大数据等企业产品、技术方案和市场有深入的理解和实战经验。在此之前,就职于Microsoft从事分布式系统的产品管理和研发工作。

查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Servers/virtualization/

时间: 2024-08-07 02:50:22

大数据虚拟化零起点(一) 开篇的相关文章

大数据虚拟化零起点(四) 部署vCenter Server Virtual Appliance 5.1

在大数据虚拟化零起点基础运维第二步中,我们完成了vSphere5.1的安装.接下来,我们可以开始第三步--部署vCenterServer Virtual Appliance 5.1. 在开始部署之前,我想先介绍一下什么是vCenterServer Virtual Appliance(VSVA),以让大家了解部署它的用途和价值. 顾名思义,VSVA本质上是vCenterServer,但其部署模式变成了vApp形式.在这种形式下,VSVA保留了vCenterServer的特性,包括可以管理多个ESX

大数据虚拟化零起点(七) 安装Big Data Extensions Plugin

今天我们就将实现大数据虚拟化POC环境的零起点部署.在下面的文章内容中,我将通过6个步骤,带领大家完成BigData Extensions Plugin的安装.具体步骤如下: 1.在浏览器打开Big Data Extensions的plugin注册界面: 输入URL http://<serengeti-mgmt-server's-ip-address:8080/register-plugin,选择Install.如下图所示: 2.输入vCenter Server的IP地址(注意不要在IP前加ht

大数据虚拟化零起点(二) 基础运维第一步 环境规划和准备

大数据的虚拟化之旅以POC开启最为合适.POC是Proofof Concept的简称,意思是概念验证,也就是通常意义上指的测试,用以了解产品的特性是否符合预期的需求. 那么,如何从零起点部署大数据虚拟化的POC环境呢? 我认为,工欲善其事,必先利其器. 这里的"器",就是虚拟化环境.虚拟化环境是开始搭建大数据基础架构的一个前提,但是,我相信各位读者的"器"目前可能各不相同.所以,为了保证所有读者都能顺利完成部署,我会从一开始的搭建虚拟化环境开始,从源头帮助大家了解搭

大数据虚拟化零起点(六) 使用CLI创建Apache Hadoop集群

在大数据虚拟化基础运维第五步创建Hadoop集群开始之前,我想先说明,这里我不通过BDE提供的可视化界面来创建集群.原因是,我们之前部署好的vApp包括BDE管理服务器,是通过虚机的方式在运行.此时,它还没能跟vSphereWeb Client进行绑定,从而暂时无法交付可视化管理界面.在之后的博客文章里,我将介绍如何交付可视化界面. 但大家不要担心,BDE管理服务器自身已经提供了完备的对外服务接口(RestAPI),用户只需通过命令行(CLI)的方法操控它,就能开始对Hadoop集群进行快速部署

大数据虚拟化零起点(三) 基础运维第二步 安装vSphere 5.1

在大数据虚拟化的环境规划和准备完成之后,我们便可以开始安装vSphere5.1了.安装vSphere5.1并不复杂,却是大数据虚拟化基础运维的重要一步.在下面的文章里,我将把安装vSphere5.1归纳为12个步骤,带领大家一步一步完成安装. 1.登录Dell PowerEdge服务器.方法是通过http://<remote_host_ip>.你需要从网络管理员手中获得这台服务器所在网络的IP地址,以及管理员账号和密码,以用来远程登陆这台服务器的管理界面.如下图所示: 这里需要提醒以下两点:

大数据虚拟化零起点(五)部署vSphere Big Data Extensions 1.0 vApp

VMware vSphere Big Data Extensions(简称BDE)beta版本于2013年6月正式发布,同年9月22日作为vSphere 5.5的新功能正式上市.作为VMware推出的基于Serengeti开源技术的商业发行版,BDE的发布将延伸vSphere这一受到广泛认可的IT基础架构,使其成为部署.运行和管理大数据集群和负载的最佳基础架构平台. BDE是基于Serengeti的商业发行版.下图为BDE1.0 版的功能清单.在众多功能中,最令人惊喜的莫过于BDE1.0 版提供

深入解析大数据虚拟化的架构(下)- 系统架构

继<零起点部署大数据虚拟化>系列教程之后,本着"知其然,亦知其所以然"的原则,本系列走进大数据虚拟化的内部,分上下两篇博文,帮助读者了解vSphere Big Data Extensions(以下简称BDE)的部署架构和系统架构,理解部署原理和内部构成,以及各自的作用.希望对您有所帮助,也欢迎您留言评价. 上: Serengeti虚拟化应用 下: Serengeti管理服务器的系统架构(即本文) Serengeti管理服务器的系统架构 Serengeti管理服务器包括几个重

深入解析大数据虚拟化的架构(上)- 部署架构

继<零起点部署大数据虚拟化>系列教程之后,本着"知其然,亦知其所以然"的原则,本系列走进大数据虚拟化的内部,分上下两篇博文,帮助读者了解vSphere Big Data Extensions(以下简称BDE)的部署架构和系统架构,理解部署原理和内部构成,以及各自的作用.希望对您有所帮助,也欢迎您留言评价. 上: Serengeti虚拟化应用(即本文) 下: Serengeti管理服务器的系统架构 Serengeti虚拟化应用 vSphere Big Data Extensi

大数据虚拟化:VMware正在虚拟化Hadoop

VMware发布了在vSphere上对Hadoop部署进行管控的插件,给企业在大数据平台上带来更加便捷的操作. VMware今天发布了 vSphere 大数据插件BDE (Big Data Extensions)的Beta测试版.用户将可以使用VMware广为人知的基础架构管理平台管控其搭建的Hadoop集群.插件仍然需要一个Hadoop平台做为底层,凡基于Apache Hadoop的供应商均可,如HortonWorks.MapR.Cloudera以及VMware的合作伙伴Pivotal等.BD