摘要:本次阿里云行业圆桌论坛上,梨视频CTO刘隽、阿里云云计算频道张勇(花名:身行)以及阿里云业务架构师刘欣(花名昕晖)共同探讨了梨视频的上云实践之路,云上架构设计、视频个性化推荐以及对于安全与运维的思考。对话行业大咖,引领云端科技,畅谈云上话题,尽在阿里云行业圆桌论坛。
以下内容根据阿里云行业圆桌论坛视频整理而成。
本期嘉宾介绍:
刘隽,梨视频CTO;
刘欣(花名昕晖),阿里云业务架构师;
张勇(花名身行),阿里云内容运营。
梨视频简介
梨视频是2016年上线的资讯类短视频平台,目标是为新一代的年轻人寻找适合的互联网资讯类短视频。梨视频在上线之后发展非常迅速,在短短三个月的时间内就已经达到了百万日活,并且全网分发的播放量也已经突破每天5亿次,而梨视频的发展离不开阿里云提供的强大的技术支持。
梨视频上云之路
梨视频为什么在创业之初就启动上云?
刘隽谈到正因为梨视频是一家创业公司,所以上云这条路就是唯一的选择。因为对于初创公司而言,技术和资金的储备往往都非常有限,而云计算能够提供非常便捷的,维护和技术成本都很低的解决方案,能够帮助初创公司快速实现自己的业务,快速上线。在现在这个时代,上云可能是所有初创公司唯一的选择。
刘欣指出对于初创公司而言,需要快速地部署自己的业务,快速地进行试错,而云计算所具有的弹性以及开箱即用的部署方式会更加适合初创型的公司。
那么在梨视频使用云服务之前,有没有进行调研呢?
刘隽表示在梨视频上云之前,曾对于阿里云以及其他的云厂商进行了深入的调研,最后选择了阿里云是因为这样的几个原因:首先,阿里云是国内最大的云计算厂商,而且阿里云所提供的服务是相对比较全面的,其他的云计算厂商虽然也有各自的强项,但是梨视频最终还是选择了阿里云,这里面一个很重要的原因就是阿里云能够提供一对一的个性化咨询服务,因为初创公司的技术实力往往比较有限,所以对于大型的技术架构而言,往往需要依赖于专家给予的指导和建议,而阿里云所提供的一对一的专家服务就是最能打动像梨视频这样的初创公司的地方。
在梨视频进行云计算调研的时候会考虑到哪些衡量标准?
刘隽谈到在进行对于云计算厂商调研的时候会评判自己需要用到的技术,包括虚拟机、存储、PaaS服务、SaaS服务等,其实所有基础架构的服务不但需要做到很稳定并跟紧时代的潮流,而且还离不开技术的后续服务。刘隽谈到他是阿里云的老用户,之前也曾经使用过阿里云的服务,那时的阿里云虽然在国内处于领先地位,但是在技术服务这部分相对而言还是有不足之处的,那时候阿里云可能仅仅提供工单服务,所以对于实时性的要求往往是无法满足的,但是现在通过钉钉可以与阿里云进行实时的沟通服务,这对于梨视频而言是帮助很大的增值服务,这也是阿里云领先的一点。
刘欣也认为梨视频团队给他的印象就是非常专业,在整个合作的过程中,梨视频的技术团队能够为阿里云提出非常具体并且非常深刻的技术问题。梨视频的技术团队对于一些细节非常执着,所以也为阿里云提出了很多的技术要求和挑战,也正是这些技术的要求和挑战才能帮助阿里云不断完善视频相关的产品。刘隽补充到虽然梨视频和阿里云是甲方乙方的关系,但是彼此之间存在着很多良性的互动,两者之间存在着相互依赖的关系,因为阿里云倾向于获取最终用户的需求,用户需要什么阿里云就会优先去实现什么,同样梨视频也需要关注自身的需求能不能得到充分的理解和尊重,双方之间存在良好的互动,彼此认可对方的技术实力,才能共同在一起努力将云和云上业务做得更好。
那么梨视频现在已经使用了哪些阿里云的产品呢?
刘隽表示梨视频对于阿里云的产品使用上还是比较全面的,包括阿里云的ECS、OSS、消息服务、SLB、CDN、RDS、Redis、安全方面的DDoS清洗中心以及EMR大数据平台等,基本上能使用到的云组件都已经运用在梨视频的产品中了。当然这也是基于之前公司的经验,之前是从IDC迁移到阿里云上的,因为那时候有很多原来的资产负担,因为当时自己做了存储,所以就没有使用阿里云的OSS,这样就会导致一定程度上的灵活性的缺失,而梨视频初始时的规划原则就是能使用云上的组件就尽量使用。而且从目前的实践上来看梨视频选择的这条路是正确的,上云也帮助梨视频节省了大量的人力物力。
刘欣也指出梨视频的技术团队在阿里云的产品的使用上还是比较不错的,提出的问题也都是相对比较专业的问题,对于一些小问题,梨视频的技术团队完全能够通过帮助文档自行解决,这样阿里云在提供技术支持的过程中就可以更加专注于产品的稳定性以及对于产品功能性需求的改进上了。
如果当初梨视频没有选择上云,现在又将会面临哪些情况?在成本方面又会有什么区别呢?
刘隽谈到如果当初梨视频选择自建IDC就无法适应用户的快速增长,因为梨视频在上线的三个月期间,每周的用户量都会出现明显的增长。如果选择自建IDC,就会面临很多问题,其中比较大的问题就是IDC机房无法提供弹性带宽的服务,这对于新闻资讯类产品就是比较大的问题,除此之外比较大的问题就是机器扩容,包括采购流程、部署流程都会比较漫长,所以要想适应高速互联网发展下的用户快速膨胀,将产品和业务部署在云上还是比较正确的选择。而对于成本而言,可能大家会认为自建机房或者托管在硬件成本上比云计算便宜,其实还需要对于人的成本进行考量,因为运维这些都需要有专业的人,而且需要解决很多问题,这样就会牵扯公司方方面面的精力。但如果选择上云,一方面稳定性相对而言会比较好,因为云机房的规格一般会更高;另一方面,需要运维的成本会降低很多,综合而言对于像梨视频这样体量的公司,使用云的成本要比自建物理机房、自己维护IDC要便宜很多。
刘欣也谈到对于像梨视频这样发展速度如此之快的公司而言,时间和机会成本也是非常关键的,如果错过一个发展阶段会是得不偿失的,所以如果将时间都浪费在IT的扩展、购买服务器以及采购流程上对于公司的业务发展是非常不利的,所以云计算的发展对于业务的快速部署极大地提升了的机会成本。而在运维层面,使用云计算可以节约人力,让技术团队更加关注于业务功能的开发以及业务需求的满足上,实现业务的快速更新迭代。
梨视频云上架构
梨视频的业务发展非常迅速,三个月的时间内日播放量就已经突破了5亿,那么梨视频上云架构是什么样的呢?
刘隽谈到正如刘欣刚刚提到的像梨视频这样的公司需要考虑机会成本,如果发现新的机会或者新的用户增长点就要迅速地进行把握和适应,所以在架构上面梨视频一开始就想好了使用云服务来进行整体的设计,包括视频转码、分发以及直播全部是基于阿里视频云进行设计的,这就让梨视频整体的基础架构的设计非常简化。虽然架构设计比较简化,但是在目前梨视频基础用户量比当初所设想的多得多的情况下,框架也能够非常良好地运营,而且到目前为止还没有出现过因为系统负荷或者流量高峰导致的不可访问情况。在业务量增长如此快速的情况下,之前设计的框架都能够非常良好地运营,这也是与梨视频运用了大量的被高并发验证过的云服务有很大关系的。
视频个性化推荐实践
在技术选型上,梨视频为什么选择了EMR呢?
刘隽表示梨视频在初始时就是向平台化发展的,所以引入了各种各样做不同品类视频的机构,到目前为止梨视频就已经引入了1000家,2017年计划要达到5000家,这就说明了在梨视频平台上视频的种类是非常丰富的。从今日头条将个性化推荐的这股风炒起之后,所有的新闻资讯类的客户端都已经向这个方向转型了,而视频客户端还是比较传统的,所以梨视频在认识到短视频的丰富度很大的前提下,就决定在构建初期就要做个性化推荐。梨视频组建了个性化推荐技术团队,但是面临的问题就是在一流的互联网公司往往都有强大的基础设施的支持,也就是公司已经搭建了整套平台,技术团队只需要在平台上构建业务就可以了,而梨视频的推荐团队虽然做业务的能力很强,但是缺少搭建基础设施的能力,而在进行选型的时候梨视频就调研了各家公司对于大数据平台的支持,于是就选择了借助阿里云的能力。当时阿里云提供了两套方案,一种是更上层的数加平台,另外一种就是基于开源的EMR的方案。这样就为梨视频吃了一颗定心丸,因为基础设施可以交给阿里云做,梨视频只要在上面安心地搭建自己的业务就可以了。梨视频选择了EMR而没有选择数加其实是因为之前的一些业务是基于开源社区的,而EMR也是完全基于开源社区搭建的框架,比较适合梨视频团队成员的背景,所以梨视频最终选择了EMR进行个性化视频的推荐,并且整个大数据的业务也是基于EMR构建的。
那么梨视频对于基于EMR的数据处理系统是如何设计的呢?
梨视频EMR数据处理系统图
刘隽谈到在这方面梨视频的技术同学已经在发布了几篇技术贴,并且受到了大家的欢迎。其实梨视频在做EMR数据处理时也使用了很多阿里云的服务,包括通过LocalStore收集数据并存储到集中的地方,还使用了OSS存储大数据,之后的全部数据处理都是基于EMR的,后续的Spark、Streaming、Hive以及线上模拟等技术全部是搭建与EMR平台之上的。为了使得EMR平台适应基础设施的环境,梨视频在搭建数据处理系统时与阿里云技术团队存在非常多的互动和交流,梨视频不仅探索出了如何合理地使用EMR平台,还对于阿里云上的EMR平台提出了很多新的需求。
刘欣则表示推荐系统相对而言是比较复杂的,并不是像大家想的那么简单,并不是有了一些关键技术和推荐算法就能够得出比较好的结果。实际上因为梨视频平台上有海量的视频资源,用户登录视频网站之后,首先就需要为用户解决信息过载的问题,在大量的视频中为用户选择哪些视频就是推荐系统的关键功能。面对如此复杂的系统,关键在于技术团队对于推荐这部分的精深的理解,才能够在基础设施之上快速地实现比较完善的推荐系统,这个过程中也对于阿里云产品提出了很多要求和需求,阿里云的产品团队也在这个过程中通过对于产品不断的迭代和改进很好地支撑了系统的运转。
梨视频对于视频的推荐有什么可以分享的呢?
梨视频视频推荐图
刘隽指出在视频推荐方面大家都是处在探索的过程中,与其说是分享经验不如说是分享梨视频所看到的问题。对于视频推荐,梨视频之前也曾经认为这只是文字推荐的延伸,而新闻资讯往往可以通过对于大量的文字,包括标题和摘要进行文本分析,可以让机器充分地理解文章到底在说什么,对于文章的理解就是推荐的基础,而对于视频推荐而言,面临着比较大的问题就是视频的标题往往比较短并且摘要也比较短,还没有正文,所以可能就需要编辑打一些标签,但是因为打标签是人为工作,所以标签的质量可能是参差不齐的,而且很重要的一点就是如果要让机器理解视频就需要深入地理解视频内容,通过对于视频的分析或者图片抽帧分析来让机器真正地理解视频想要表达的内容。只有在完成以上工作之后才能实现精准推荐,梨视频在这一部分也只是进行了比较初级的摸索,而视频理解也是比较前沿的方向,而目前团队精力有限,所以在这部分也只是进行了初级的尝试,效果还远远不够,这就是梨视频所看到的问题。
其实在视频推荐上还存在非常大的问题,包括梨视频以及今日头条等推出的视频类产品,距离最终想要的推荐效果相差还是比较远的。在这方面,梨视频也做了很多的努力,包括对于标签体系的优化以及不断完善,而且在进行视频推荐的时候也会考虑很多像冷启动用户的处理、用户兴趣的偏移等问题,而推荐系统的确是非常复杂的工程,但是相信如果有好的基础架构的支持,团队经验更加丰富就可以构建更多的应用来完善推荐系统。再列举一个比较好的例子就是在梨视频上线之初,整个大数据团队只有三个人,如果没有阿里云的支持,构建推荐系统就会成为不可想象的事情,因为需要从基础架构开始搭建,那么整个团队没有足够多的人员参与是根本不可能上线的,而梨视频做到了这点,一方面依靠优秀的技术同事的能力,但是也是离不开阿里云基础架构的支持的。
那么梨视频对于未来的视频推荐系统的优化有什么样的思考呢?
刘隽表示一方面需要让机器更深度地理解视频,不仅仅是从文字标签上,而应该让机器更深入地理解视频的本质,了解视频在讲什么。第二方面就是目前的推荐系统考虑的更多是一些算法、机器模型、点击率模型以及通过率等,但是这些东西并不见得就是用户真正想要的。梨视频是内容+技术的公司,所以拥有大量的内容团队,而且梨视频的公司文化也是综合性的文化而非单纯的工程师文化,很多同事也是文科出身的偏向于新闻和资讯的,所以这样的环境也就影响了对于产品的思维。那么是不是点击率高就代表推荐效果好呢?还是让用户看到真正感兴趣的东西呢?其实精准推荐也会出现将用户视野限制得越来越窄这样的问题,所以其实精准有时并不能够解决信息过载的问题,比如有个用户特别喜欢足球,精准推荐就会向他推荐大量的有关足球的内容,但是用户的时间是有限的,如果让用户一天看一万篇足球的东西,这样就造成使得用户无法接触到其他可能感兴趣的内容,这也是梨视频不希望看到的情况。这可能从技术上评价是一个比较不错的结果,但是在实际情况下将用户作为具象来考虑的时候可能就并不是一个最好的推荐结果,所以梨视频在接下来优化推荐引擎的时候,就会更多地考虑将用户当做具象来考虑,让用户接触到他真正感兴趣或者可能对于用户有帮助的内容,这就是梨视频在推荐系统的研发方面比较重要的课题。
刘欣指出阿里在电商推荐这部分也遇到像刘隽谈到的问题,最早时就是比如曾经购买过一个杯子,之后淘宝推荐的就全都是杯子,这也是目前推荐系统不断在完善的一个方向,也就是让推荐系统真正地具有语意或者情感理解的能力。而从视频推荐的角度来谈,业界一直在用深度学习和人工智能的方式做计算机视觉,所以对于视频推荐系统而言,深度学习以及计算机视觉这部分都是需要攻克的方向,而阿里云目前也有专门做计算机视觉、图像和视频理解的团队,之后也可以与梨视频进行更进一步的交流。
梨视频云上安全策略
云上安全是一个比较复杂的系统工程,那么梨视频是如何建设云上安全的呢?
刘隽谈到梨视频对于安全是非常重视的,在构建之初就使用了阿里云的DDoS清洗服务,并且自身在前端也部署了WAF的七层安全防护,并且梨视频的代码全部是经过审计的,所以从各个方面来讲,梨视频对于安全都是比较关注的。而且技术团队基本都是将精力集中在业务上,全部使用云来解决基础架构问题,并且将运维的工作都交给了合作伙伴,他们也提出了很多的运维最佳实践保证梨视频可以在云上的最佳实践下安全地部署和运行自己的业务。虽然在这个方面花费了很多成本,但是却能够保证业务的稳定性,而如果出现宕机的情况,损失用户和机会成本是无法用金钱来衡量的。
刘欣表示与梨视频技术团队接触下来发现他们是比较严谨的,这与梨视频的公司文化也是存在一定的关系的,技术团队会将安全方面的一些潜在风险规避掉,而很多互联网公司往往是在遭受到安全攻击之后才会购买安全产品,梨视频技术团队则是防患于未然,在可能会遭受到攻击之前就将安全部署到位。对于很多互联网公司或者初创公司而言,都应该像梨视频这样在一开始就要将安全考虑到位,具备超前的安全意识。
梨视频的运维思考
除了考虑技术选型的成本之外,对于人才的培养也会成为比较大的成本,那么梨视频在运维人才的培养上有什么经验值得分享呢?
刘隽表示梨视频真正的运维人员只有一两个人,基础的运维工作都是交由梨视频的合作伙伴进行的,这样就将运维同学解放出来,让他们去思考运维自动化、流量调度、流量质量评估等有技术含量的运维工作,在让他们思考高层次的运维工作时就会得到运维技术的成长,这也是在人力非常有限的情况下,能够帮助运维同学技术成长的地方。
作为CTO,对于运维有什么样的思考?
刘隽谈到包括EMR平台等云上的运维存在一定的难度,这已经是接近于PaaS的一种服务了,底层的内存和磁盘等资源都已经不会暴露在外部了,也就是一种托管的运维方式,而在这种情况下,如何提前发现问题是值得思考的。阿里云上很多的组件都是经过高并发验证的,相对而言的可靠性要比自己实现高很多,在基于此的前提下还需要部署一些监控系统,包括很多部署的实践都需要基于云上的情况去考虑,对于像可用区的分割、子网设计等方面梨视频的合作伙伴都提供了很多的最佳实践,让梨视频安心地针对自己的业务,当然这也离不开阿里云的技术支持。
刘欣也指出目前阿里云的很多产品为用户暴露的运维信息以及可以调试的窗口都是比较少的,当用户发现问题的时候往往缺少技术手段进行调优以及排查,这样在很多时候只能求助于阿里云的工程师和售后团队。阿里云也看到了自身产品在可运维性上的一些问题,之后一方面会通过更好的技术响应支持去快速解决客户的问题,另外一方面也在努力解决产品的可运维性,比如阿里云最近在改进的云监控的天梯系统,这些都是阿里云为了提升产品的可维护性上所做的一些努力。
对于大数据、云计算以及AR、VR的思考
有人说大数据的发展能够让企业非常专注于业务层面,对于这句话是否认可?
刘隽表示对于这句话比较认可,目前互联网的红利时期已经过了,大家都在努力地寻找机会,而爆发式野蛮增长的机会也越来越少了,初创公司也要考虑把钱花在刀刃上,由于技术工程师的成本非常高,所以将优先的成本用在真正对于自己业务有帮助的地方应该是每个公司都应该走的路,所以拥抱云计算也应该是初创公司唯一的选择。
那么云计算时代,CTO的职责是否发生了变化呢?
刘隽表示目前他自己也处于摸索的状态,目前梨视频的产品都是媒体类的拥有比较丰富的色彩的产品,从CTO的角度来看,不光要考虑技术,也要更多地考虑产品本身以及需要呈现的东西,以及为了让产品呈现出所要呈现的形态技术需要做的准备,而在云时代,CTO可以减轻的负担就是不用过多地考虑基础架构的东西、物理机房的问题以及运维的问题,可以专注于业务的发展、技术和方向的规划。
目前业界都在讨论AR和VR,那么梨视频在这方面有什么动作呢?
刘隽谈到对于AR和VR而言,虽然目前很热,但是真正好的场景还是比较难找到的。梨视频对于这两部分一直非常关注,但是也在一直寻找适合场景,其实特别很多新闻资讯类现场VR的场景,国内外都有一些尝试,梨视频也计划在四月份迭代的版本就会原生地支持VR的内容,在这方面做了布局和技术准备。其实场景是非常重要的,无论是什么技术都不能脱离场景,所以AR则更需要大家去挖掘好的场景,一旦发现好的场景就可能出现革命性变化,所以要想让AR和VR真正走向成熟不仅需要技术上的准备还需要场景上的创新。
刘欣也提到在旅游方面可以利用VR视频进行宣传,给用户一种身临其境的感觉。其实当场景足够有价值的时候,技术就能够更加快速地走入生活中。