Monitoring这个市场有多大?相信很多人都没有概念。国际权威调研机构Gartner在前不久的一篇报告中预测:“As a group, the monitoring market is expected to reach 11.6 billion (constant currency) by 2020. ”88亿美元和116亿美元,这两个数字的巨大,恐怕出乎了很多人的意料。
在美国,VC和PE纷纷对Monitoring这个领域投入巨资,贝恩资本和金门资本携手以67亿美元进行了BMC的私有化,Thoma Bravo斥巨资对包括Compuware和Riverbed在内的六家Monitoring公司进行了私有化,总金额超过百亿美元。在VC领域,且不说New Relic在IPO之前的4亿美元融资和AppDynamics的3亿美元融资。就在前不久IconIq对Datadog这家成立不足四年的公司完成了9600万美元D轮投资,再次刷新了Monitoring领域的融资记录,也让监控市场再次成为SaaS领域最受瞩目的一个赛道。
2016年,是大规模监控之年!大规模监控在国外称为Web Scale Operation,在美国,这个领域已经无声无息然而却无比迅速地成为DevOps环节最核心的一环,很多初创公司成为这个领域最受瞩目的明星。DataDog、SIgnalFX、Sysdig、opsclarity、instana、bigpanda等等,不断攀升的知名度和融资额,一次又一次,一轮又一轮,让很多创业和投资界的人士发出感叹。Web Scale Operation就是下一个APM市场。这个领域,一定会诞生一家甚至多家独角兽,而像Sequoia Capital、BenchMark Capital、Greylock Capital这些知名VC早已布局其中。就在今天,Moogsoft 这家2011年成立的公司,完成了3100万美元的C轮融资,领投方是Northgate Capital。
我们OneAPM自己,也有Web Scale Operation的产品,叫做Cloud Insight ,我是从 2015 年下半年开始筹备 Cloud Insight 的,期间经历多次波折,但最终做出来了一个自己最喜欢的产品。在这里,我想谈一谈自己的心路历程。
近几年,国内的很多技术发展趋势总是跟着国外的步伐。从某种意义上来说,国外公司的一些发展历程可以作为国内企业战略的参考。作为拥有多年技术经验的工程师,我们曾将开发流程转变为敏捷开发,也曾感受到云基础架构的颠覆力量。从开始着手做这个产品时,整个技术团队看得很清楚,十年后的 IT 基础架构必然会发生翻天覆地的变化。因此,我们完全相信,未来云计算市场必然需要一种新的数据监控和管理平台。
那么,这个数据平台要解决什么问题呢?主要是解决数量级的问题。原来的监控通常只面对几十台物理机和一些相关的数据库中间件的服务,而今天的监控可能要面对几千台的云主机和几万个Docker实例。今天的应用、服务、容器、主机之间的关系变得复杂和多变,更需要一种更加动态和弹性的可视化方式。因此,我们创造了Cloud Insight这款次时代的产品,而整个团队的赌注就是:敏捷开发和新一代云平台的结合将彻底改变相应的监控管理问题的量级,并迫使整个堆栈和新型监控与分析工具(特别是这一点)实现重组。
其实,在国外有一款很棒的基础组件监控产品——Datadog,他们从 2010 年底开始筹备这个产品,而且取得了不少成果,更是拿下了 Facebook、Airbnb 这样的重量级客户。五年的时间转瞬即逝,Datadog自成立以来发现的理论得到了大规模的证实,而且比预期的规模更加广阔。因为在过去的几年中,云用户群体出现爆发式的增长。在国外,无论是微型科技创业公司还是大银行,各种规模的企业都开始使用公有云或私有云服务。
而国内也一样经历了 Docker 的爆发式增长,云平台也被愈加广泛的使用到各个行业,同时,DevOps 理念也在层层渗入。尤其是在云平台的使用方面,不少企业架构于混合云环境,甚至使用多种云厂商产品,这些都是很好理解的事情,也是两种状态(从没有云到普及云)之间很正常的过渡。
那么,我们所说的监控“规模”究竟指的是什么呢? 就像 Datadog 所认为的那样,它是四个维度的产物:
1,基础设施单元的数量
提到规模,大多数人立即想到的就是这一点。从过去的几年中,任何生产环境所包含的“基础设施单元”数量都呈现出指数级增加。曾经,这些基础设施单元都是实体服务器或相当经久耐用的虚拟机,而现在,基础设施单元越来越多地由短暂的云实例、容器和微服务构成。那些在 2010 年运营着数百台服务器的企业,现在都轻松管理着数千甚至数万个基础设施单元。换句话说,企业正在用“海量”可移动的组件取代了那些相对静止的机器。
2,代码和配置的修改频率
几年前,一个很大型的软件团队一年可能只发布一次或几次产品。而现在,很多企业一天就发布好几次代码更新,这是因为大小企业都已经从瀑布开发流程切换到了敏捷开发流程。如果用这一频率乘以企业拥有的大规模团队数量,就能得到随时变化的生产环境数量了。
3,与基础设施互动的技术人员数量
这可能是技术人员近年来感受到的最大的“文化转变”了。在过去,基础设施仅由运维团队(或大型企业中的“共享服务”小组)进行管理,而现在,包括运维团队和开发团队在内的多个团队都可以接触到基础设施。带来最直接结果就是:与基础设施互动的技术人员数量激增。
4,栈区涉及的平台、工具或服务数量
从瀑布开发过渡到敏捷开发的另一个结果是:企业从只有一个中央企业架构小组负责事先制定所有基础设施决策,转变为授权各个团队自行决策——这样的话,各个团队就可以每周或每月推出新的产品,而无需受制于集中式决策。不同的团队会选用不同的平台和工具,最终形成了一个更加多元化的生态系统。这一趋势,连同开源和 SaaS 服务的崛起,大大增加了可选组件的数量。简而言之,与数年前相比,企业现在用来构建并运行应用程序的技术选择性已经大为增加了。
2016,我们想做点“大”规模监控的“事”
由于以上各个维度的迅速变化,监控问题的量级也发生了巨变。而借助 Cloud Insight,可以帮助企业在这些维度之间来去自如。所有迹象都表明,2016 年不仅会是公有云和私有云的丰收年,还将开创大规模监控的纪元。稍过时日,大家或许会发现,用 Cloud Insight 轻松管理复杂环境下的千百台主机,运维与开发实时协作,多种数据一体化展现是多么有趣的事。
本文转自d1net(转载)