阿里大数据SRE专家池枫:做Tesla,是因为传统运维方式已不能满足业务发展需求

4月20日20:00-21:30,一场别开生面的技术大会—— “运维/Devops在线技术峰会”将在线举办。从网络基础架构实践和演进,到同城容灾架构剖析;从如何稳定、安全的使用云数据库,到企业如何在云上安全加固最佳实践;从阿里云专家理解的DevOps,到如何构建一个通用化的智能运维平台……不仅一一告诉你云上的运维重点在哪、运维人应该如何思考,也手把手教你如何做。同时,对于处于转型中的企业,我们也邀请了有代表性的互联网公司来分享他们的亲身体验。

阿里云运维/Devops在线技术峰会官网:

峰会统一报名链接:


阿里大数据SRE技术专家池枫说,他希望Tesla是一个创新、高效的自动化、智能化平台

池枫,阿里大数据SRE技术专家。2011年加入阿里巴巴大数据SRE团队,见证阿里大数据产品最快速的发展过程。先后负责阿里Hadoop、Hbase、Apsara、ODPS等产品运维, 全程负责大数据运维自动化体系建设。历时2年时间带领团队完成Tesla智能运维体系设计,开发,落地,进化历程。专注智能运维在大规模异构集群下的场景应用,专注业务运维与智能运维结合后的转型道路探求。

在4月20日20:00举行的运维/Devops在线技术峰会上,池枫将会分享《如何构建一个通用化的智能运维平台(Tesla)——大数据SRE实践》议题。为此采访了这位在大数据SRE浸淫多年的技术专家。


以下是本次采访内容:

:历时三年,你带领团队建设了Tesla智能运维体系,能聊聊什么是Tesla?为什么要建设它?


池枫:先回答为什么要建设Tesla,这个还要从2014说起,那个时期大数据在业界初露峥嵘,阿里巴巴内部大数据的业务也快速发展,产品种类,服务规模双双增长,并且产品的迭代周期极大缩短,各种异构的集群级大数据产品造成了多种多样的运维模式,给我们团队带来了相当大的压力,大家明显感到传统的运维方式,已经远不能满足快速的业务发展。如何破解,我们选择建设一个能够长期发展的自动化平台,这就是Tesla的由来。

什么是Tesla,我们希望它首先是一个创新、高效的自动化平台,还希望它是一个通过数据驱动由自动化向智能化转变的平台,借助Tesla体系的不断完善提升我们运维的价值。

:Tesla开发过程中,有没有遇到什么困难,又是怎么解决的?


池枫:Tesla的建设过程对我们整个大数据SRE团队来说是一个非常巨大的机会和也是挑战。碰到的许多困难,最重要的一块就是团队内部产品研发的组织模式,换句话说我们对传统工具团队开发模式进行了优化,Tesla 分两部分的研发人员完成,一部分提供框架级别的服务开发,另一部分提供了业务逻辑实现的服务,我们摒弃了传统B2C模式,采用了C2C共享协作的开发模式共建我们的Tesla平台。这种方式使Tesla从无到有,从小到大,发展的速度大大加速,迭代的目标更加明确,质量控制更容易达成,也保证我们以现有的人力做到今天的规模的。


:Tesla能解决哪些典型问题?哪些地方可能还需要继续完善?


池枫:Tesla 面向的场景都是最典型的的运维运营场景 ,我们产品几乎打通了所有关键的运维环节:例如应用环境管理 ,变更操作执行,需求智能处理,事件关联处理,故障分析诊断,运维数据挖掘。我们希望沉淀运维经验的决心非常坚决,因为我们认为这种沉淀好比是对运维的格式化存储,只有格式化的数据将来才能被机器所学习和挖掘,积累这样的数据的能力是智能化的关键。

所有我们正在建设的产品都仍然有很大的进步空间,尤其是与智能化相关的如:问题的分析、故障的预测、行动的决策,对我们来说仍然处在探索关键期,能够给与我们借鉴和帮助实践特别少,所以这块今年我们集中了团队中最优秀人员去整合我们运维、运营数据,期待在这块有突破性的成果。


:目前Tesla内部的应用情况是?


池枫:Tesla目前服务所有的阿里大数据产品研发团队和运维团队。产品线覆盖ODPS ,HBase ,ADS,Galaxy,tt,datahub等集团核心的大数据产品,覆盖上十万级业务服务器规模,运营站点PV 5000+p/日,平台自动化事件:近百次/日,自动化时间近万分钟/日(此处的近万分钟是指单人顺序执行需要的耗时),是整个部门的运维工作的根基。 

:Tesla未来的发展计划是什么?


池枫:关于Tesla未来发展方向 ,近1年的思考中已经非常明确:就是成为更+的智能化。

我们不仅希望在Tesla上运维事务丝滑平顺,而且希望自然人对整个业务产品线的决策影响越来越少,所有的服务运行,更依赖于对格式化数据的分析驱动。具体到落地详细的计划,我们会分两个方向齐头并进,分别为“内和外”,对内我们强调数据仓库的完善,运维模型训练,借助内部海量的数据资源完成我们智慧化演进。对外 我们会借助大数据专有云项目的推进Tesla在私有云场景 的企业化支持能力,并且我们会在2017年完成Tesla核心子产品集成版本的开源目标,希望能推动运维智能化做一份贡献。


:你认为一个完善的大数据运维自动化体系应该具备哪些特征?其工作中的重点、难点是什么?


池枫:“完善”的定义各有所见 ,我理解一个体系必须发源于其服务的业务产品,能够灵活适应“变”和快速的实现“通”。抽象不同产品中各种运维环节,具备层次化服务产品结构,能够连接 资源、事件,人各个维度的产品体系。

如何设计一个能够兼顾多种异构的大数据产品的运维平台体系是首先要解决的重点,另一个是人的因素,传统Ops需要转型,Ops+Dev+Data 人才的聚集是完成智能化运维的充要条件。

想和阿里大数据SRE专家池枫面对面技术交流?快拿起微信扫码吧!



池枫演讲提纲:

  1.  大数据SRE 运维产品的发展变迁;
  2.  智能运维产品体系理念;
  3.  分享核心套件的设计思路,使用场景及案例展示;
  4.  对自动运维生态的生态的展望。

听众收益:

  1. 复杂运维事务自动化沉淀方案。
  2. 智能运维模式的实践案例。

欢迎报名,聆听干货:

时间: 2024-08-23 22:10:05

阿里大数据SRE专家池枫:做Tesla,是因为传统运维方式已不能满足业务发展需求的相关文章

数加平台——阿里大数据OS实践

在云栖计算之旅第5期--大数据与人工智能大会上,阿里云大数据事业部数加平台技术负责人陈廷梁从数加定义.起源.愿景.价值.架构.规划六个方面分享了<数加平台--阿里大数据OS实践>.其中,他主要介绍了数加平台的演进过程和阿里大数据OS的架构.   以下内容根据视频整理而成.   视频回顾:点此进入 pdf下载:点此进入   数加是什么 在阿里云的官网打开大数据部分(整个大数据部分统称为数加),其中包括:大数据基础服务部分,MaxCompute.ADS.流计算.大数据开发套件:人工智能部分,机器学

阿里小Ai之父解析阿里大数据在新兴行业的应用

"今天所有做智能芯片的,都会被迅速扫进历史垃圾堆.为什么?因为真正的智慧在云端.当所有数据汇集在云上,智慧的交融.数据的融合就变得没有成本.当没有成本成为现实时,爆发就不是以前的1+1添砖加瓦,而是像核聚变一样可怕." 6月8日,中欧EMBA走进阿里,阿里云人工智能首席科学家闵万里进行了题为<大数据创新业务实践>的分享,在演讲中他提到了上述的观点. 尽管演讲主题是<大数据创新业务实践>,但闵万里的PPT,以及在现场都始终强调本次分享的八字精髓:智能在端.智慧在云

详解:从Greenplum、Hadoop到现在的阿里大数据技术

对于企业来说,但是到底云计算是什么呢?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起点再审视云计算的发展路径,可以发现,经过十余年的发展演进,云计算有三条发展路径,并且最终沉淀下来了三种落地形态. 第一条路:源自于谷歌对大规模数据的处理,谷歌为全球的互联网用户提供同一个服务--搜索,它需要将全世界所有的网站的数据都爬回去,然后做排序和索引,之后再为用户提供搜索服务.可以看到这样的工

从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的. 一,DT时代 大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导商业决策.比如保险行业,人寿保险会通过大数据的统计计算,根据人均寿命来计算保费与回报率. 这

漫谈阿里大数据

免费开通大数据服务:https://www.aliyun.com/product/odps 目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的. 一,DT时代 大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导

从Greenplum、Hadoop到现在的阿里大数据技术

在2016云栖大会·武汉峰会上,阿里云技术专家宋杰分享了他对云计算的三条路径的理解和感悟,并且阐述了云计算对于企业而言到底意味着什么的问题.那么阿里大数据发展之路经历了哪三次技术突围?阿里又是如何通过十余年的技术沉淀最终铸就飞天系统的呢?本文将为你揭晓答案,精彩不容错过. 对于企业来说,但是到底云计算是什么呢?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起点再审视云计算的发展路径,

阿里大数据破获超千万元假球系列案

通过QQ.微信等平台,在网上批发假冒斯伯丁.耐克.阿迪达斯等名牌篮球足球,近日阿里巴巴打假特战队与斯伯丁品牌合作,协助安徽省定远县警方打掉一制售假球团伙,目前制假团伙负责人杜某等已被警方控制.初步估算,该团伙涉嫌售假记录数千条,总涉案金额达数百万元. 而近半年来,利用大数据技术阿里巴巴打假特战队与品牌合作,已协助警方打掉五个制售假球窝点,总涉案金额超过1000万元. 成本15块钱假名牌篮球朋友圈热卖 "制售假球有销路,能挣钱!"面对警方的询问,杜某最终说出了真心话.2011年,杜某在定

云计算、大数据能为反恐做什么?

文章讲的是云计算.大数据能为反恐做什么,11月25日召开的国家反恐怖工作领导小组专题会议上,公安部部长郭声琨提出,要运用大数据.云计算技术打击恐怖行为."从海量的人流.物流.信息流.资金流中及时发现涉恐线索,做到预警在先.预防在前.敌动我知.先发制敌." 大数据如何反恐呢?全球各国的成功经验值得借鉴.8月底,美国国防部长卡特(Ash Carter)赴硅谷招募顶尖科技人才.近年来的信息大爆炸使得五角大楼不得不将目光聚焦高科技硅谷,以打击反恐.美国中央情报局的CTO Gus Hunt则表示

阿里大数据野心:建立数据地图 未来谨慎开放

阿里集团董事局主席马云提出的"平台.金融.数据"三步走战略正逐渐清晰起来.继阿里集团架构调整.组建小微金融服务集团之后,阿里大数据的神秘面纱也在一步步揭开. 4月11日,阿里举办媒体开放日,淘宝网商业智能部首席商业智能官车品觉首次向外披露阿里大数据进展. 车品觉认为,未来,数据将成为公司的核心竞争力.阿里集团数据的优势在于,用户从搜索到浏览.支付,形成深度的交易链条,其中每一个节点都将产生大量数据.他透露,阿里集团拥有的数据达到30P(1P=100万GB). 然而,当前数据人面临一个矛