【51CTO.com原创稿件】在数据时代的今天,如何部署企业的大数据平台,充分挖掘数据、分析数据、发挥数据价值,成为摆在企业面前的重要难题。面对爆炸式增长的数据,传统的数据分析平台存在着诸多的问题,已经不能满足需求,借助云计算实现的云上数据分析平台,就能够非常灵活、轻松的实现企业的各种数据分析需求,并能够有效控制成本。这里,笔者就与大家简单的聊一下从传统架构到云上数据,到底发生了哪些转变。
首先,来分析一下传统数据分析平台存在的各种问题。
传统大数据分析平台面临的主要挑战
一)多租户支持。从Hadoop出现的第一天起,对于多租户的支持一直是大数据里被诟病的重要一点。如何在一个Hadoop集群做多租户,由此提出了做队列调度等等一大堆解决方案,但真正落地的并不多。如果把大数据拆成多个集群,拆完后失去了资源复用的意义,但是如果把所有数据放到一个大的集群中,又无法保证数据安全。因此,在传统数据分析平台中多租户的支持一下是老大难。
二)快速部署。企业在建设大数据平台时需要采购很多设备,对于人员的技术要求非常高,快速地推向市场将面临很大的风险。
三)系统的灵活性和可靠性。传统大数据平台想要实现扩容,操作起来非常麻烦。例如计算能力不够时需要扩容,采购机器至少需要花费几周的时间,而要真正投入到使用当中,时间就会更长。
英特尔技术专家在接受笔者采访时曾表示,大数据分析平台要综合考虑效率、成本和数据安全,传统的数据分析平台无论从哪个方面来讲,都已经无法满足企业对数据分析的需求,而云计算平台则能够很好的解决这些问题。
硬件革命使大数据和云计算紧密结合
众所周知,在2011年Hadoop刚开始流行的时候,整体硬件的性能非常低,网络仅有一千兆,硬盘每秒钟磁盘的IO水平非常低,写只有每秒50次左右,读是每秒钟100到300次,计算能力也不强。6年之后,硬件性能发生了翻天覆地的变化,CPU计算能力提升了10倍、20倍,存储从每秒钟50次写的次数提升到每秒钟写次能上50万,I/O的性能有一万倍的提升,网络从千兆网到40G、100G,也有100倍的提升。正是这种硬件性能的革命,使得Hadoop的设计理念发生了一些变化。
之前在利用Hadoop做大数据分析时,由于硬件性能差,挪动数据的成本太高,所以只能挪算法,数据在哪我们就在哪里算。随着硬件性能的提升,让我们能够把存储和计算分开。根据客户的实际需要,将计算集群和存储集群分到两个独立的集群,通过高速互联网链接起来,这实际上就是成本和效率之间的折中。此外,为了保证多租户,保证灵活性、安全性,将存储网络和计算网络分开,在存储网络内,比如对象存储,可以通过Amazon S3,restful等接口访问数据,从而实现多租户。同时,在计算集群里通过虚拟化、容器,实现多租户,按需调度。两个集群分开,完全可以满足用户的部署问题、安全问题。此外,硬件的革命使得大数据+云计算成为可能,等于Big Data As a Service。
云上数据,更加灵活、易管理
虽然说云计算在大数据里面不是必须的,但是没有云计算这个轮子,大数据里面所谓的按需分配、多租户、灵活扩展、动态配置都是不可能的;而如果我们要达到一个成本和可管理性、灵活性的一个折中,云计算是必须的。所以结合在一起就是云上的大数据,从而实现存储集群和计算集群的分离。
英特尔技术专家表示,在系统的存储层面上,包括块存储、对象存储、第三方存储,把各种存储形成一个独立的、软件定义的SDS(软件定义存储),灵活地在存储层面上做多租户、自动化、灵活性。在计算层面上,通过虚拟机、容器等技术,实现多租户,灵活地配置各种服务,把大数据做成多种服务。这样,用户能够按照自己的需求来动态选择、动态扩容,实现两层分开。当然,对于SDN来讲,可以用传统的网络,用10G、40G、100G的进行链接。对于互联网企业来讲,直接用软件定义网络即可。
例如英特尔与金山云合作的KMR计算,数据放在块存储还是放在对象存储上,实际上是有不同的配置来实现的。用户想节省成本,想成本最低,都是批处理,这时候可以把数据全放在底层对象存储,用KS3做对象存储,当需要计算的时候,Spark直接从对象存储调用数据计算。同样,如果用户想保证效率,对计算的实时性要求很高,这时可以在内存里面建立一个内存文件系统,把热数据全部缓存在内存里面,直接用KML或者是Spark实现内存计算,保证查询的实时性和计算的实时性。
写在最后:从传统的架构到云上大数据,实现了很多的转变。传统的大数据平台计算和数据一般都在一起,到云上之后计算有可能是虚拟机、有可能是容器,存储和计算是分离的。任何计算节点访问存储时都是通过高速互联网络把数据迁移到本地来。实现的优势也就是大数据的服务化,灵活配置。因此,借助强大的计算性能,结合云计算平台的优势,从传统架构的大数据平台向云上数据的转变,将给用户提供更高的灵活性和管理性,并能够为用户节省大量的成本。
者:ZC
来源:51CTO