阿里云全球首批MVP杨绣专访 - 技术要坚持刨根问底

自我介绍

我现在在人人车负责数据架构方面的工作,搭建数据采集、抓取、存储、计算、BI可视化等系统。

之前在百度网页搜索部,是一名架构工程师(主要在抓取业务),技术方向是高并发分布式服务架构,负责大抓取系统内的架构模块研发。

涉及高并发抓取器、链接缓存、压力控制、时效性筛选等子系统。

工作的主要目标是系统性能优化、稳定性提升,为策略算法应用提供舒适的架构,这也是我自认为比较擅长的。

使用阿里云产品过程中,我提过很多工单,包括系统bug、易用性问题、功能建议。因为喜欢刨根问底,不满足于“重启一下”、“再试一次”之类的临时性解决方法,我会很认真地描述使用场景、异常现象和可能的原因,要求客服和后台研发继续分析给出明确原因。

这一点对阿里云改进产品体验有一些帮助。

人人车和MaxCompute(原ODPS)的磨合和共同成长

早期,人人车的报表系统是使用RDS(MySQL)+ECS搭建而成,因为当时系统数据量很小,所以运行一段时间比较稳定。

随着业务数据量变大,系统物理指标报警越来越多,我们需要经常给RDS增配,逐渐发现RDS实例每月也要花不少钱了,所以考虑将数据计算部署到可扩展性更好的计算平台上。

当时考虑Oracle和Hive两种方案。按当时我们的业务场景和数据规模来看,Oracle完全能够胜任,但是考虑到未来数据增长、Oracle维护成本较高,我们也不熟悉Oracle,所以直接就否掉了这个选项。

而Hive非常符合我们的技术背景,团队里很多人以前就用过,Hive SQL语法也非常简单易学,可扩展性也很好。当时了解到阿里云有和Hive类似的数据平台MaxCompute(原ODPS),所以就安排时间试用了一下。

试用MaxCompute(原ODPS)前其实心里还是倾向于Hive,因为作为Hadoop生态的开源平台开放性更好,我们也有相关经验。我们参考网站的MaxCompute(原ODPS)帮助文档,经过几个小时的了解和体验,没有什么不适的感觉,和Hive类似的语法、存储方式、计算模型,但不需要我们自己部署、运维。

不足之处是不能支持我们的一些实时数据场景。

综合考虑后,我们决定使用Maxcompute搭建数据仓库,作为数据存储和计算的平台,实时性场景另行解决。阿里云当时还有另一款产品-DPC(采云间)是一套针对MaxCompute的SQL-IDE、任务管理和运维监控的web平台。

通过采云间,我们可以

1. 在网页上通过点选、拖拽设置定时同步任务,把Mysql的数据拉到MaxCompute的表格,操作比较方便;

2. 编写SQL代码实现业务统计逻辑;

3. 再设置同步任务将计算结果推送到我们BI系统的Mysql中。

后来采云间停止维护,数加·大数据开发套件Data IDE。

使用MaxCompute(原ODPS)(+采云间+数加)早期确实是遇到了很多问题,一些局部性的问题能够得到客服和技术支持及时处理和修复,比如一些可稳定复现的bug,而不易复现但出现频率很高的问题让人非常困扰。

工单沟通不能让那一边的技术人员很好了解我们这边发生了什么问题,后来和数加支持团队建立了定期沟通机制,将双方的技术人员拉到了一个钉钉群能更顺畅地沟通这种难以通过工单描述的现象和复现步骤。

曾经比较刻骨铭心的记忆有两段,一段是关于产品功能的、一段是关于系统稳定性。

从一个平台迁移到另一个平台,我们经历了两次,第一次是将数据任务从RDS迁移到采云间,第二次是从采云间迁移到数加平台。我们的业务系统当时少说也有几百个表,而做这件事只有1或2个人,采云间和数加当时在产品设计上可能没有考虑这种场景,所以从Web页面没有办法批量设置数据上传任务,而通过第三方软件配置的数据上传任务不能和阿里云的任务调度很好地集成在一起。

好在这种迁移并不多,忍一下就好了。听说,年初上线的数据集成模块能够很好地解决这类问题。

2016年5月,我们的数据系统稳定性很差,平均每周一次故障导致任务流中断。每当早上醒来发现数据没有算完,整个一天都会心情很差。

究其原因,

  • 一方面是我们的任务结构设计有缺陷,如数据源变化、任务流依赖过于集中、关键路径缺少监控。
  • 另一方面是MaxCompute(原ODPS)平台异常,如任务队列阻塞、计算资源不足。

我们和阿里云团队当面分析了每次故障的原因,根据阿里云的建议对任务流进行了梳理、调整任务依赖关系,避免依赖过于集中,将不合理的定时触发改为上游任务触发。

使用数加平台的运维系统对关键节点添加了”出错报警”、”未完成报警”,同时也给关键路径的每段SQL代码添加一条统计代码,监控每天核心任务数据量的异常变化;阿里云方面则加强平台监控、优化了异常处理流程。

我们最大的感受是阿里云售后和技术支持团队对用户的问题和反馈非常重视、跟进也非常及时,值得一个大大的赞。

【阿里云花肉酱:阿里云并不完美,希望大家来一起帮助阿里云提升产品体验https://connect.aliyun.com/】

很荣幸作为阿里云全球MVP,

我认为这是阿里云对我们团队的认可,我们在使用阿里云服务过程中提出的问题和建议,能够帮助更多的用户节省时间提高效率少走弯路

我是杨绣,人人车大数据负责人,我在阿里云MVP等你

时间: 2024-09-30 00:19:07

阿里云全球首批MVP杨绣专访 - 技术要坚持刨根问底的相关文章

阿里云全球首批MVP张建平专访 - 我对数据有执念

昨天我们采访了阿里云全球首批MVP傅奎,让我们认识到了一个"可爱""谦虚"的安全大牛. 今天很荣幸给大家介绍另一位阿里云MVP(阿里云MVP计划),数据分析专家张建平,希望能帮大家拓宽数据分析的思路 ^_^ 花肉酱:建平你好,能否先介绍一下你自己? 我之前在通信行业工作8年多,在这8年期间做过产品开发,业务运营,后来才到互联网行业,作为入行互联网不到2年的"老年人"吧.(害羞笑) 我对数据有着很深的执念,反观十年多的工作经历,自己最为擅长的还是和

阿里云全球首批MVP李文毅专访 - 一个“改邪归正”的90后

前言:第一次在上海云栖大会现场见到李文毅,惊讶于比想象中年纪小很多,却有着丰富的经历,一起来了解这位爱折腾的90后吧 从碰到第一台 Win95 开始,就疯狂痴迷计算机,从小凡是跟计算机有关系的都是第一. 高中玩VB.html.网络协议和服务器,还顺带跳了个级. 到大学开始正儿八经地学习网络工程,搞个 DDOS 攻击.爆个数据库什么的不在话下. metasploit.kali 等等系统安全漏洞扫描工具玩的炉火纯青,大部分 Win2003 的服务器只要知道 IP 都能直接搞挂.  那时候国内互联网正

阿里云全球首批 MVP 傅奎专访 - 君子善假于物

个人基本介绍 很荣幸能成为阿里云全球第一批MVP(MVP计划).原本以为可以窃喜一番,没想到紧接着就是花肉同学的夺命催稿钉(钉).[花肉酱:人家也不想的啦] 作为信息安全领域摸爬滚打十年以上的从业人员,我练过渗透,干过产品,做过集成,卖过服务,吹过咨询,也曾在互联网电商企业"扫黄(牛)打黑(产)"一线与职业黑客.羊毛党直接对抗.目前正全面负责千寻位置公司(www.qxwz.com)未来时空基础设施的的信息安全工作. 我不擅长写自我介绍类的材料,一方面受限于我的文字表达能力,同时也因为我

阿里云全球首批MVP赵玮专访 - 爱运动的女研究员

前言:约赵玮的时候,她刚刚游泳课下课,不同于一般宅男宅女类的程序员,她的精神状态很饱满 7/8在上海,她将带来精彩的分享,详情:阿里云数据化运营实践分享 自我介绍: 计算机专业出身.被黑的最惨的处女座,好奇心重 不是宅女,玩过所有的体育项目 从GIST的研究员,到三星电子,到通用电气再到加入创业公司,为了寻找更强的价值感,一直在路上 我一直坚信,大数据即未来 过去,在运营业务的过程中获得的各项数据,是用来表征企业状况,分析原因,预测未来等 数据最初是为了帮助业务获得更好发展而存在的 可是未来衡量

阿里云全球第二批MVP 祁宁专访 - 社区的成长才是我们的价值所在

2017 阿里云二期 MVP 于九月二十二号正式对外发布. 本期有二十五位不同领域的 MVP 加入,与首批八名共同组成阿里云 MVP 团队. 他们将继续代表广大开发者发声,将技术人的声音反映到阿里云的技术图谱上,优化阿里云产品的开发者体验. 部分MVP展示: 本篇讲给大家介绍 SegmentFault创始人 && CTO .开源软件Typecho 作者:祁宁Joyqi 个人介绍 感谢阿里云给予的MVP称号, 简单说说吧,其实我走上编程之路就是一种巧合,我大学的专业是电子信息工程,按这个套路

阿里云第二季MVP花落名家,是你吗?

   2017年9月22日,阿里云第二批MVP名单正式公布,本期有25位不同领域的 MVP 加入,与首批八名共同组成阿里云 MVP 团队.    他们将继续代表广大开发者发声,将技术人的声音反映到阿里云的技术图谱上,优化阿里云产品的开发者体验.   从2017年6月公开招募至9月,已收到上百名申请,但经过层层筛选,最终授予了25位阿里云MVP头衔.   从MVP成员页不难看出,他们分别来自不同领域,不同的技术岗,从最初的热衷到对技术的执着追求.有负责大数据领域的公司CTO.技术总监.大学教授.学

阿里云全球开源数据库峰会演讲主题曝光

本文讲的是阿里云全球开源数据库峰会演讲主题曝光[IT168 资讯]4月24日,开源数据库领域全球最具影响力峰会Percona Live 2017将在旧金山硅谷举行.包括谷歌.Facebook.领英.Twitter.Booking和阿里云在内的全球数据库精英将齐聚一堂,共话数据库领域的现状与发展. 峰会前夕,Percona Live 2017组委会特别专访了阿里云数据库团队高级技术专家张广舟(PostgreSQL专家)和彭立勋(Replication专家),技术专家翟卫祥(InnoDB专家)和刘鑫

阿里云全球10个国家及地区节点参与双11,科技行业迎来全球“购物节”

今年,阿里云首次将"双11"模式推广至全球.中国.香港.新加坡.马来西亚.日本.美东.美西.德国.迪拜及澳大利亚等全球10个国家及地区的阿里云全球地域(Region)将参与"双11",首次购买上述地域的技术与产品,将获得半价优惠. 阿里云联合5000生态伙伴全球杨帆双11 除了全球节点参与外,阿里云来自全球的生态合作伙伴如Fortinet.Check Point.Splunk.F5.Sophos等Gartner魔力象限中各领域全球领导企业,也首次参与活动.借助阿里云

游戏风云:阿里云全球同服游戏方案全面解读

在3月8日的"2017游戏行业全球同服和安全攻防技术沙龙"上,阿里云资深业务架构师韩虎分享了阿里云全球同服游戏解决方案,他从当前的技术环境入手,介绍了业务功能整体架构,并重点解析了四种全球同服游戏参考架构,最后还辅以案例说明典型系统的设计要点. 以下内容根据现场分享和幻灯片整理而成. 经过前几年的激烈竞争,2017年国内手游行业进入一个稳定发展期,市场进一步细分,游戏公司纷纷寻求业务创新,其中手游重度化和端游经典IP手游化仍是重点所在,但是很多游戏厂商在去年已开始规划或操作游戏出海,如