加班越久故障越多,如何跳出程序员的恶性循环?

如何让每一位可爱的工程师少加班、不加班?阿里巴巴技术专家张冠楠,在质量保障体系建设、持续集成领域、敏捷实践领域和研发效能领域方面具有丰富的经验和心得。今天,冠楠将用阿里研发团队的实际案例,生动说明如何用数据驱动研发效率提升。

本文是我利用云效公有云度量功能,加上敏捷部分的方法指导,实践于某事业部几十人团队沉淀的成果,希望能给大家一些借鉴意义。我会就各种具有关键表征的数据进行介绍,但是详细数据,包括具体研发团队的数据,还需要访问云效公有云度量功能页面。

数据展现

先直接给大家数据,我是4月份开始进入这个团队的。大家重点看这个团队3月份的数据:

问题分析

上面几张图比较容易看出来,这个团队的明显特征是:

  • 3月份完成需求数明显上升,且团队负载较重。
  • 质量不高-缺陷数、reopen率以及线上发布成功率。
  • 需求平均完成时长特别长。
  • 突增故障。

于是我们带着数据暴露出来的这几个问题,和团队一线研发人员、PD、TL进行沟通,分析数字背后的意义。大家很快达成一致,发现团队存在的主要问题是:

  • 需求deliver传统瀑布模型,要1个半到2个月去完成一个特别大的需求,最后却和用户期望偏差较大,数据表征上就是之前需求数量较少,3月份突然完成了很多而且时间很长的需求。
  • 大家加班加点干活,负载较重,引入的缺陷也较多,PD和用户不满意带来的修改又会加重工作量,如此恶性循环。
  • 缺陷重视度不高,管理不规范,优先级划分不清楚,甚至残留重要缺陷,留在bug列表里未解决而流到了线上引发故障。

上面三点形成了恶性循环,结果就是越做越多,越多越错,越错越改,越改越多。

解决方案落地和数据运营

发现问题之后,有针对性的进行解决和落地就相对容易,我们给到团队的解决方案是:

  • 需求细化:拆分成最小可交付产出,尽量避免一个需求做了1个多月,才去找PD和用户验收。
  • 随时拥抱用户:迭代式产出,交付即验收,让不准确性降到最低,在错误误差最小的时候修正。
  • 重点跟进质量管理和运营:透明数据,鼓励团队尽早尽快修复bug,并有严格的上线前bug解决率标准。
  • 尽全力保证线上发布成功率。

同时辅助于团队的决策,我们进行定期的数据运营,每周都会去统计和分析数据,包括质量和效率相关的,确保我们能在第一时间发现问题,纠正偏差。所以在3个多月的时间里,我重点关注了如下数据。关于这些数据的解读和分析,内容比较深入,我这里只做简单的概括性介绍:

  • 需求的吞吐量:团队指定时间段内完成的需求数,可大体反应出团队的产出趋势。
  • 需求的平均完成时长:需求从创建到终态的平均时长,时间越多,需求交付粒度越小效率越高。
  • 新增缺陷的数量 :统计时间段内团队被新增指派的缺陷数量,结合存量缺陷以及缺陷平均解决时长,反应团队产品的质量以及对于缺陷解决的效率。
  • 缺陷的平均解决时长 :缺陷从创建到解决的平均时长,表征解决缺陷的效率。
  • 线上发布的成功率:线上发布成功次数与总次数之比,越高证明产品上线质量越高。
  • 缺陷的reopen率 :缺陷被reopen的次数与缺陷数目之比,该值越高证明修复缺陷的质量越差,reopen率是表征产品质量的一个重要指标。

结果分析和总结

大家回到上面的6张图以及下面的一张缺陷解决时间图,我们3月底进入,重点看从4月份开始的数据:

  • 团队的负载得到了控制,需求的完成数下降了,后续3个月保持一个相对平稳的状态。
  • 需求细化拆分后,交付的时长下降了,团队以更快的速率去和用户交付需求。
  • 缺陷的数量下降,reopen率下降,线上发布成功率上升,质量在好转。
  • 缺陷的平均解决时间明显上升,团队更快的交付,更快的反馈问题,更快的解决问题。

总体而言,就是需求交付的快,得到的反馈快,修正错误/缺陷的成本低,缺陷也慢慢收敛,质量也随之提升,缺陷修复的也快了,这就是一个良性循环,概括总计就是:效率提高了,质量也保证了。团队的人干活也是更加努力啦!

如何进一步提升?

根据对需求数量以及平均完成时长的数据显示,团队还是有上升空间的,对于需求的交付粒度和速率上,还是略显波动,要想更快的知道我们做的是否是用户需要的,就要快速的、迭代式的交付需求,以免用户想要个车,我们给了他4个轮子。
所以能否彻底解决此团队需求的交付和用户期望偏差的问题,还是需要再向前走一步,需求继续细化,提升交付速率。 参见敏捷中推荐的,快速迭代,快速交付,快速得到用户反馈,只为了更快更准确。

总结

数据有魅力,研发数据也一样,我们使用它就是为了两个目的:一是保证质量;二是确保交付的速率。行走过程中深度使用了云效度量新功能,结合敏捷中部分理念,配合传统测试方式保障,来助力研发团队。
可能有的人会质疑,需要用这么冰冷冷的数字去衡量我们可爱的程序员哥哥吗? 我的回答是:这不是衡量。数据只是手段,是帮助我们去诊断团队的一个切实有效的手段。学会利用它并驾驭它。因此我们只需要:

  • 关注数据,读懂数据。
  • 重点问题重点解决,优先解决,一段时间只关注一个或很少的几个问题。
  • 相信团队的自驱能力,同时结合TL的管理与激励,养成良好的团队建设力。

欢迎交流讨论

研发团队每天打交道最多的就是需求、缺陷、代码、发布、应用、测试等等,这些和我们研发人员息息相关的数据,云效现在以研发大盘、团队空间、人员效能、质量分布等多种维度数据整合到了数据平台上,后续更会以定制化的方式满足研发团队对于研发数据的需求。利用好这个工具,能帮助我们清晰的了解团队的现状,暴露问题,找到改进措施,提升团队效率和产品质量。
我是一个敏捷爱好者,在深入研发团队做测试以及质量管理的时候,也是吸取和借鉴了敏捷的部分思想去落地。我的感受是:拿最切实有用比如站会、看板、快速迭代式交付需求,再加上数据辅助,都是能帮助到团队更快、更准确的交付高质量产品的手段。
最后贴几张我在度量上截的某研发团队的数据展示,这个团队是我们最近接触的团队,通过数据我们对这个团队的推测是:团队在质量上需要提升,在缺陷的管理上需要加强。首先团队缺陷的数量逐月上升,这已经是质量不好的趋势体现。

另外缺陷的解决时间也没有加快,这样会导致越来越多的缺陷流到线上去,可见团队除去1月份无故障,后续几个月都有故障。而且这个团队的线上发布成功率持续走低,开发对上线的代码把控程度较低。 所以,找到这些数据表征的背后原因,并且着手去解决掉,是这个团队近期最迫切的事情了。
养成良好的研发习惯,保持高效的团队协作,应该是每个研发同学持之以恒的追求。

时间: 2024-11-01 08:40:58

加班越久故障越多,如何跳出程序员的恶性循环?的相关文章

坐得越久 死得越快 还是站着编程吧

又一项研究显示,久坐对你的健康是真的.真的.真的非常有害.请买一个可站着工作的桌子吧! 可站着编程的电脑桌 一项对超过20万个澳大利亚人的研究结果给这样一个事实又增加了一份活体证明:坐得越久的人死得越快.研究同时还发现,锻炼不能改变这种趋势--尽管它能有效降低这种风险. 研究结果清晰的告诉我们这样一个简单的信息:多站立.少坐着,这样能延长你的寿命. 尽管那些每周锻炼超过5个小时的人的死亡风险会大大降低,但当他们坐的过久时,这种风险仍然会升高. 目前,"久坐对身体有害"已经被广泛的认可.

久坐对健康的危害 程序员知道吗?

在过去的几年中,许多研究都表明了带点体力劳动的工作能给我们带来很多好处.事实上,正是由于这种认知,立式办公桌日渐为大家所熟悉 . 不要以为这过于杞人忧天,最近的一项研究表明每天长时间地坐在办公桌前是非常危险的.研究发现,如果我们长时间地坐着,那么会增加患很多疾病的风险,包括癌症.心脏类疾病和糖尿病. 研究人员通过共计 47 个研究,来探索长时间坐着与健康之间的联系.分析结果表明,久坐会让我们比其他人提高约 25% 的可能性患上各种导致死亡的健康疾病. 坐多久才算是真的坐久了呢? 虽然没有明确的危

《三国之天》经验系统引争议在线越久经验越多

韩国另类三国题材网游<三国之天>近期在游戏中添加了"反疲劳度"和"经验值交易"系统,由于这一系统与防沉迷系统背道而驰,引来了不少争议. 经验值交易系统 在<三国之天>中,经验值也可以和道具那样允许玩家之间买卖.游戏中,玩家可以通过背包的形式,把自己获得的经验值出售给其他玩家.由于这一系统的存在,学生或者失业者等有较多的时间玩游戏的玩家可以把自己的经验值出售给有钱却没时间玩游戏的上班族,成了一种变相的代练系统. 反疲劳度系统 反疲劳度系统与疲劳

SSD固态硬盘是不是容量越大速度越快?

  SSD固态硬盘容量越大速度越快吗? 理论上来说,固态硬盘容量越大,IPOS性能越好,随机读写速度越快. 通俗的说,由于固态硬盘是由多个存贮芯片共同构成的,容量越大,芯片数量越多,而每个芯片的读写速度一样,但是多个芯片一起读写速度就快了. 但是值得一提的是,SSD跑分和实际使用是两回事,SSD固态硬盘也并不是,容量越高体验就越来越出色,以下我们通过一组64GB.128GB.256GB.512GB不同容量,但均为三星830系列的SSD进行随机读写和连续读写速度进行对比,结果如下图所示. 图为不同

【越好奇,越强大】伯克利研究人员使用内在激励,教AI学会好奇

你可能不记得第一次玩"超级马里奥兄弟"是什么感觉,但试着想像一下:蓝色的天空,棋盘石的地面,还有一个蹲着的红色男人在静静等待.他面向右方,你把他推到那个方向.再多走几步,就会看到一排砖块在头顶盘旋,看起来像是一个愤怒的蘑菇.这个人跳起来,他的四像素拳头指向天空. 对于20世纪80年代长大的人来说,这个场景听起来很熟悉,但是你可以在Pulkit Agrawal的YouTube频道上看到一个更年轻的玩家. Agrawal是加利福尼亚大学伯克利分校的一位计算机科学研究人员,正在研究天生的好奇

一位39岁程序员的困惑:知道得越多编程越慢怎么办?

Zilk1988 年 14 岁时就开始编程,此后尝试过几种职业,最终还是在 1997 年决定成为职业程序员(又称码农),现在已经 39 岁,对此选择依然无怨无悔. 但是后来他发现一个问题,自己的经验越丰富,完成项目或任务的时间反而越长.因为他见过了太多可能会出问题的情况而对选择踌躇.比方说,假设他刚想 到要写一段写入文件的代码时,电光火石之间他就已经开始担心起下面的一系列的问题:权限.锁定.并发.原子操作.迂回 / 框架,不同的文件系统.目录中的文件数.可预测的临时文件名.PRNG(伪随机数生成

搜狗王小川:做手机的越多我们越安全

TechWeb编辑推荐:越来越多的互联网企业热衷于进军手机行业,国内企业如此,国外亦如此,近日有消息称亚马逊智能手机将在年内上市.不过也有例外,腾讯就坚决表示不做手机,搜狗也对进军手机行业持否定态度."做手机的越多我们越安全."搜狗CEO王小川表示,互联网公司做手机其实是为了带动自身原 有的服务,并不会在硬件制造上融入更多的创意,"我们更希望用户因为喜欢我们的产品而使用我们的东西,而不是做一个手机,使搜索引擎默认就放进去."他直言,将重心摆在服务上可以和更多的手机厂

团购网站新模式:拽住回头客消费越多奖励越多

中介交易 SEO诊断 淘宝客 云主机 技术大厅 最近,基于用户地理位置提供服务的团购网站遇到了不少问题,而SCVNGR自认为找到了使消费者成为回头客的方法. 团购网站最近几个月过得不大顺心.两年前,社交定位网站FourSquare和团购网站Groupon这样的公司还籍籍无名,如今基本上已成了家喻户晓的品牌.随着关注而来的,还有猛烈的批评:Groupon颇具创造新的会计方法大受攻击,一些消费者和小商户也表达了不满,认为团购服务并没有吹嘘的那么好.事实证明,要在各方利益之间取得平衡给商户省钱,让消费

《淘宝规则》发布违禁信息 累计扣分越多处罚越准

[http://www.aliyun.com/zixun/aggregation/32866.html">亿邦动力网讯]1月25日消息,据亿邦动力网了解,淘宝网近日修订了<淘宝直通车软件服务使用规范>,加重了对发布违禁信息的处罚. 据亿邦动力网了解,如果卖家违反<淘宝规则>,发布了违禁信息,累计扣分6分以上但未达12分的,将被暂停淘宝直通车软件服务14天,累计扣分越多处罚越准.卖家累计扣分12分以上但未达24分,淘宝网有权暂停其淘宝直通车软件服务一年.一旦卖家扣分达