阿里云飞天技术总架构师唐洪:飞天技术与应用

一年一度的阿里技术论坛(Alibaba Technology Forum)已走进第7个年头,4月15日,阿里众多技术领军人走进清华校园。通过特设的三大技术论坛,参会人员近距离接触了阿里巴巴在云计算、大数据、金融、电商等方面的技术创新。

在云计算与大数据论坛上,来自阿里云飞天技术总架构师唐洪带来了以《飞天技术与应用》为主题的深度分享。下面是精彩内容内容整理。

图:阿里云发展历程
飞天是阿里云自主研发的大规模分布式云操作系统

飞天设计原则

在开始介绍飞天技术前,唐洪和现场观众分享了当初判断要做云计算需要解决的三个本质问题,而这三个本质问题决定了飞天系统设计的基本原则。

第一个本质问题,大规模。云计算本质上是随着互联网诞生并且为了解决互联网的问题产生出来的。根据2012年10月份数据统计,互联网每天产升2.5EB的数据,并且这个数字每40个月就会翻一番,处理这样大的数据一定要解决大规模计算的问题。拿淘宝为例,淘宝上每天完成上百亿元规模交易,同时要在6小时内(早晨6点以前)完成所有交易数据的统计。当然规模是相对的,但规模增加了时间限制,绝对值本身不是很大数据量的计算在本质上也是大规模计算的问题。

第二个本质问题,低成本。也就是说我们不单要解决规模计算的问题,而且要想办法让大家算得起。低成本不单单是简单的降低价格,而是像电话一样改变人们的习惯。同时,也能够像“电网”做到对资源的调度。

第三个本质问题,服务运营。真正能够提供大规模廉价的计算,唯一的方式是卖计算而不是卖计算机,像公共服务一样做到按量付费,这对很多创业公司来说是非常有益的。服务运营也意味着弹性扩展,当用户需要使用更多资源的时候可以很快开动资源,而不是等着再跟供应商下单,等计算机运到机房里。最后,服务运营也要解决安全问题,大家在使用自然资源、在使用云计算的时候不用担心安全问题。

正是基于上述对云计算要解决的三个本质问题的理解,在飞天系统设计开始就定下了两个基本原则。第一个原则,以大规模通用计算平台为基础,用同一套系统支持离线和在线服务,能够做到资源共享。第二个原则,以Web API的方式提供服务,也就是说希望提供线上服务,而不是到门市部填申请单交银行卡才能提供服务,让用户感觉不到地域的边界。

图解飞天架构

飞天开放平台架构

飞天最底层是全球部署的12个地区和几十个数据中心,这些数据中心里是安装了Linux操作系统的通用高端服务器。橙色组件组成了大规模通用计算平台,最底下四个橙色块(夸父远程过程调用、安全管理、女娲分布式协同和伏羲资源管理)代表构建分布式系统最基本的组件。唐洪着重指出,在整个飞天设计里面第一就把安全作为一个功能来设计。盘古分布式存储,简单来说,就是把所有集群中的硬盘组织成一个单个的文件系统。同时,两侧分别是天基的数据中心管理、分布式部署,以及神农分布式监控。唐洪说,大家觉得部署和监控是很简单的事,但做成7×24小时不间断就没有那么容易了,这时需要非常大的监控系统,秒级监控所有指标判断是否有问题并且实时修复。

中间蓝色一层是核心的资源型服务组件,大概分为三类:一是弹性计算,简单理解就是将物理机切分成虚拟服务器的概念。二是海量存储的数据库,其中OSS是存储无结构的数据比如视频、照片、音乐之类的,Table Store可以认为是半结构化存储,RDS则是关系型数据库服务。第三类是数据计算,它则分为多维度准实时数据的查询服务、实时流计算处理服务和大规模批量计算服务。

在上面还有一些端到端、基于云的应用所需要的核心服务,比如内容分发CDN、网络服务、安全服务、数据服务等。网络服务,包括VPC、域名服务和VPN。中间件服务,包括消息队列、工作流等。数据服务,则包括比如人工智能、语音识别、翻译、图象识别之类。

最上层则是生态支撑,容器服务可以支持那些基于容器的微服务架构,或者是编排服务帮助开发者在云上开展资源的编排。还有云市场,可以认为是云上的AppStore,开发者可以把他们的应用注册在云市场里面,使用者直接注册使用。还有开发者服务,开发者很容易监控诊断他们的应用并且发现问题和调试。

飞天技术特色

谈到飞天的技术特色,共六个方面。其中第一点,飞天同一个平台同时支持离线在线服务,这是飞天的通用性特色。如阿里巴巴集团子公司神马搜索就是建在飞天上,他们会进行千亿级别网页的离线处理,索引所有网页,大概每一两个月把整个索引翻一遍,此外拥有这么多网页的同时同样拥有整个网页之间关联的连接图,也是千亿级别的节点,并且有百亿级别的索引可以在线查询;在线方面,基于飞天平台的邮箱服务每天处理亿量级的邮件,日发送邮件达到千万量级,所有发送和接收在10毫秒级别完成。

其他几点包括:规模,飞天单集群达到了万台规模、百PB级别存储、10万级别的CPU合数;整个架构设计里面没有单点,确保了整个系统可用性达到99.95%;飞天应用设有默认等级,通过多副本冗余算法,数据可靠性达到10个9的可靠性;完全分布式的部署、监控和诊断。关于第六点安全方面,唐洪指出,飞天安全管理嵌入在飞天内核最底层,并且使用基于权能的安全管理框架,真正有效实施“最小化权限”原理。

2013年8月15号,阿里巴巴集团已经拥有了中国范围最大的集群,达到五千台规模。现在,飞天已经成为阿里巴巴所有核心业务数据处理的平台,包括广告、搜索、个性化推荐、信用分析、风险管理等,并且飞天现在已有多个万台规模的集群,每天处理上百PB数据。

2014年7月1号MaxCompute(原ODPS服务)正式对外开放,这也标志着阿里巴巴成为世界上第一家对外公开提供5K处理能力的公司。很多公司可能有这样一个计算能力但从来没有把它当作公共服务开放给大家。在MaxCompute平台上线之前,组织了一场“天池大数据算法大赛”,当时有七千多个团队,主要是高校团队报名参加,在没有任何推广的情况下还有350多个来自海外的团队。

2015年10月,飞天打破了世界排序竞赛的记录,当时打破了4项,最有名的是用377秒完成100TB排序工作。之前这个成绩是1400多秒,也就提高了三倍还不止。

飞天之上

除了介绍飞天平台技术方面的内容,唐洪还分享了云计算如何实践技术拓展商业边界。

阿里云帮助它们降低创业门槛

在降低互联网创业门槛方面,移动APP中的小咖秀就是一个典型。移动App天然就是长在云计算上的,移动设备本身的计算能力、存储能力非常有限,所以必须把大量计算和存储转换到云上去。并且很多移动创业公司面临着启动资金少、迭代周期快的问题,并且如果他们真正设计了一款非常流行的产品,业务增长非常快,所以要抵抗快速增长的压力,都对应到云计算的几个本质特征。小咖秀利用阿里云多媒体解决方案,开发第一版仅用了2天时间,2015年5月上线后两个月下载量位列App Store全榜前十,娱乐榜前五,日活跃用户超过5000万。然而,小咖秀后端服务团队仅有三个后台工程师,一个运维工程师。

在赋能业务创新方面,经典案例是天弘基金和《小门神》动画电影。天弘基金在10个月内管理资产从零增长到890亿美元,从一个无名小卒变成中国最大的货币基金。在产品发布后,天弘基金从IOE架构迁移到了阿里云,处理能力提升11倍、清算速度提升16倍。

《小门神》是追光动画打造的3D动画电影,其总渲染量达八千万核小时,超过《工夫熊猫2》、《超能陆战队》等好莱坞大片,《小门神》每秒钟影片渲染量超过一万核小时。阿里云提供了三万CPU核的弹性资源,缩短整体渲染周期几十倍。

在支持传统产业升级方面,经典案例比如12306。12306在2014年底上云,承接2015年春运高峰75%的余票查询流量,2014年12月19日达到春运火车票售卖高峰,PV297亿次,平均每秒PV 30万次,共发售火车票956.4万张,互联网售票占比59%。12306案例真正体现了云计算的优势——弹性扩容、秒级交付、按量付费。

最后在问答环节,唐洪再次强调了阿里云和其他开源系统和云计算公司的区别:“云计算的本质之一是服务运营。与开源相比,我们提供的是服务而不是软件。所以在提供服务的时候,我们想到的是怎么能够最高效、提供最好性能来完成用户的计算。在架构设计方面,阿里云不用虚拟机可以做到多租户,这和亚马逊提供的EMR之类的一个本质区别。”

时间: 2024-08-31 11:10:37

阿里云飞天技术总架构师唐洪:飞天技术与应用的相关文章

【阿里飞天】阿里飞天平台总架构师唐洪:飞天开放平台

中国最具影响.规模最大的大数据领域盛会--2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行.数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL.NewSQL等技术方向,还对互联网.金融.电信.交通.医疗等创新案例,大数据资源的法律法规.大数据商业利用的政策管制等有深入讨论. 阿里飞天平台总架构师唐洪带来的分享是"飞天开放平台",唐洪认为大数据和云计算可以说

阿里云首席架构师唐洪:拥抱开源的云端更具生命力

近日, 国际开源界顶级会议LC3(LinuxCon + ContainerCon + CloudOpen)首次在国内举行,阿里云首席架构师唐洪作为特邀嘉宾出席并发表主题演讲.唐洪首先从一组数字开始,回顾了阿里云历史及重大技术突破时间点:第二部分主要分享了阿里云目前的技术架构和亮点,以及在此基础上形成的广泛的阿里云产品生态:第三部分重点讲述了阿里云和开源社区的合作及进展,特别是阿里云在广义的虚拟化技术领域的历程,及在开源社区取得的成绩:最后还展望了阿里云在容器和异构计算安全等方向上未来的目标.唐洪

阿里云首席架构师唐洪:下一个技术飞跃是将应用程序的特性与适合的计算模型动态匹配

阿里云正在加大对客户自有环境下的容器服务支持.近日,阿里云首席架构师唐洪在接受国际容器技术垂直媒体<containerjournal>采访时表示,下一个伟大的技术飞跃是将应用程序的特性与适合的计算模型动态匹配. 据了解,近日,阿里云新推出了一个专有云产品:客户可以在自己的物理服务器上运行Docker企业版.这被称之为阿里云飞天专有云敏捷版(Apsara Stack Agility). 唐洪表示,阿里巴巴将持续推动在公共云上使用虚拟机来支持Docker容器.与此同时,一些企业组织也希望使用阿里云

阿里云首席架构师唐洪:解读开源和云端结合的三大优势

6月20日,阿里云首席架构师唐洪作为特邀演讲嘉宾出席了LC3(LinuxCon+ContainerCon+CloudOpen)2017中国大会,并发表演讲,分享阿里在开源领域的故事. 原来,阿里巴巴一直积极与国际开源组织合作.阿里巴巴不仅是Linux基金会的金牌会员,也是Linux社区的活跃开发者,此前已经为Linux内核提交了290多个Patch,在国内互联网公司当中贡献度第一.同时,阿里也是开源项目Xen的顾问委员会成员,Xen是Linux基金会合作项目. 借此机会, Linux.com也特

阿里云效平台@ArchSummit架构师峰会,7月15-16日我们在现场等你!

7月15-16日,华南地区最大的技术盛宴-ArchSummit全球架构师峰会深圳站将要拉开大幕,大会包含20多个热门专题.百余位国内外技术专家精彩演讲以及千余位参会者现场深入交流.阿里云效平台作为大会高级赞助商,将为与会者带来干货议题分享和精彩线下活动,届时与会者可以到17号展台参与活动! 议题分享 演讲人:阿里巴巴B2B业务高级测试开发专家章屹演讲标题:<云上的大型系统持续集成与持续交付的企业级解决方案及案例分析>时间:7月16日(周六)下午14:30-15:15地点:深圳·华侨城洲际酒店

阿里云SDN/NFV之架构与实践

摘要:在10月23日阿里云网络技术演讲上,来自阿里云网络产品团队孙成浩(花名:梵叶)分享了<阿里云SDN/NFV之架构与实践--一次自然的技术演进>.作为网络产品团队中负责产品相关的技术架构架构师,他结合阿里云的网络云产品探讨了阿里云虚拟网络的网络技术架构,并且结合SDN和NFV分享了阿里云的思考和实践. 他的演讲内容主要分为三个方面:1.为什么抽象出来了SDN和NFV的概念,如何一步一步摸索出这两套架构 2.如何理解SDN和NFV?.3未来的SDN/NFV架构上的展望.以下是本次演讲上的发言

分布式领域架构师要掌握的技术

分布式系统无疑是持久的热门话题,但其实如果不是一定有必要,强烈建议不要进入分布式领域,在集中式的情况下很多问题都会简单不少,技术人员千万不要因为外界火热的例如微服务,就把自己的产品的也去做改造,一定要仔细判断是否有必要,不要为了技术而技术,那么在必须分布式的情况下(访问量.存储量或开发人数),一个分布式领域的合格的架构师要掌握哪些技术呢,这篇文章就聊聊这个话题. 简单重复下我对架构师的标准,一个架构师最重要的不是画几个框,连几条线(这是基本要求),而是控制技术风险,要控制技术风险显然不是看几个结

上云培训课程:在阿里云上进行通用架构设计

课程名称:在阿里云上进行通用架构设计   课程代码:ACA21201   课程介绍:云平台架构是指将ECS / SLB / RDS  / OSS / OCS / OTS / ODPS / CDN等云平台服务按照业务场景对不同资源类型的需求以合理的关联关系组合在一起.而架构设计是指按照业务需求选择最优的云平台服务部署对应的系统或存储对应的资源,并结合各个云平台的服务特性设计出高性能.高可用的组合方案,以最终满足业务系统运行的需求.本课程从理论.产品.技术.实践多角度结合,深入讲解如何在阿里云上进行

深入剖析阿里云推荐引擎——新架构,新体验

摘要:本文的整理自2017云栖大会-上海峰会上阿里云算法专家郑重(卢梭)的分享讲义,从2016年2月V2.0公开使用到现在,阿里云推荐引擎有了更大的进步.有着获取排序的在线计算,修正匹配的近线计算及匹配排序的离线计算的计算机架构. 在2017云栖大会-上海峰会上,阿里云算法专家郑重(卢梭)做了题为<深入剖析阿里云推荐引擎--新架构,新体验>的分享.相比于22016年推出的阿里云推荐引擎V2.X,阿里云推荐引擎V3.0在业务,场景,流程,AB Testing,计算架构及算法架构上都有了很大的提高