Booking.com的A/B测试实践

我们希望通过客户的观点来驱动我们的产品开发,而经过实验证明的各种假设则是探索客户观点的最佳手段。目前,在阿姆斯特丹举办的OSCON大会上,来自于booking.com的首席设计师Stuart Frisby为与会者讲述了他们如何在产品开发中大量应用A/B测试实践的情况。

A/B测试是一种通过比较某个指定特性不同版本的差异,以理解哪一个版本的效果更好的一种行为。但要正确地实践A/B测试,需要满足一些前提条件。

每个特性都需要进行完整的测试,但这种测试必须是原子性的。如果你不能做到每次测试只针对一项变更,你就无法控制变化因素,从而不可能得到清晰无误的结果。虽然目前市面上已经出现了许多A/B测试工具,但Frisby认为这些工具都不够理想,因为他们都缺少进行恰当的、完整的测试所必需的上下文与灵活性。他建议你创建一套属于自己的工具,或者至少也要使用某种能够允许你修正并匹配你的上下文的工具。

应用这一实践的软件组织必须建立一种数据驱动产品开发的文化,而不是依赖于专家的意见。所招聘的员工应具备企业家的心态,这样就能够促成一种“刨根问底”的组织文化,从而促使每个人对于他所不了解的内容提出疑问。作为一种终极的促进因素,优秀的A/B测试实践在许多情况下会证明,在当前上下文中,你、你的老板或业界专家的想法其实是错误的。

Frisby描述了一个假想的A/B测试场景,以了解改变背景颜色所产生的效果。在实践中,Frisby并不推荐这种类型的A/B测试,他相信改变颜色不是一种解决用户问题的正确方式。但这一场景能够简单地表现出整个流程,这个实验的假设场景是这样的:

由于在网站中使用了一些较高对比度的元素,使得我们的业务中一个主要的行为功能(即“立即预定”按钮)显得不够突出。

用于对此次实验的结果进行分析的衡量标准:

如果有更多的用户选择单击某个对比度较高的按钮,并最终下了订单,我们就知道这个假设是正确的。

团队将发布该按钮的两个版本:一个是正在使用中的蓝色背景按钮,一个是全新的绿色背景按钮:

让我们假定绿色的按钮会使预定转化率从2.7%下降至2.2%,那么这个假设就是不成立的,因此booking.com将继续延用原来的按钮样式。

在开展A/B测试的过程中,软件组织必须注意一些常见的错误。首先,不要尝试“大范围的A/B测试”,即一次性改动过多的内容。也不要尝试“边缘A/B测试”,即仅仅专注于产品中某个很小的部分,即便它非常重要,例如你的登陆页面。此外,Frisby还简略地描述了“假定可再现性”这一思想。

“假定可再现性”这一思想是指由他人所进行的实验也能够在你自己的环境中再现。但上下文始终是最关键的因素,对于其他人有效的做法未必就适合你。Frisby提出了一种层次型的可信赖数据源(按可信赖度从高到低排列):你自己的实验数据;你个人的观点,因为你最了解你自己的产品;他人的观点;他人的实验数据,因为它会为你造成一种假象,让你错误地确信它的结果。

Frisby并不建议在所有场景中都应用A/B测试,如果你的web应用程序没有达到一定的访问量,那么测试的结果可能也是无意义的。此外,如果你没有定义客观的衡量指标,并通过这些指标根据你的测试结果进行决策,那么也不应当采用A/B测试。最后,软件组织必须要做好准备,因为A/B测试的结果很可能会与组织所确信的恰恰相反,而接受这一点并不像人们想象中那么容易。

原文发布时间为:2015-11-25

时间: 2024-09-22 04:05:56

Booking.com的A/B测试实践的相关文章

《腾讯iOS测试实践》一一第3章 iOS兼容性测试 3.1 引言

第3章 iOS兼容性测试 3.1 引言 苹果公司每年都有两个引人注意的大动作:一是发布新系统,二是发布新机型.无论是发布新系统还是发布新机型,都会让iPhone平台上的研发团队忙于兼容适配的工作.作为iPhone平台上的测试人员,对苹果公司每年放的大招都要有招架之术.很多不了解情况的人会认为苹果公司的机型比较少.系统发布也不频繁,应该不会有太多涉及适配的问题,而实际情况并非如此.每发布一个系统和机型,都会伴随大量的技术实现或者硬件变革,用户在感受机型与系统更新带来全新体验的同时,背后需要开发人员

《腾讯iOS测试实践》一一导读

Foreword 前 言 为何编写本书 随着移动互联网的兴起,移动终端的测试也进入火热的时代.两大主流操作系统Android和iOS占据了移动端的主要市场份额,其中iOS系统只能在苹果系列的移动终端使用,也就是说,在苹果系列的移动终端产品上,操作系统都是清一色的iOS系统,这就形成了硬件和系统同属于一家公司的独特现象.每年苹果公司发布新机型或者新操作系统时,都会引起全球果粉的疯狂.如此火热的平台,如何保证其App的质量就显得尤为重要. 长久以来,市面上单独讲解iOS平台测试相关知识的书籍比较少见

Android开发和测试实践—接入友盟统计

这两年一直在做无线的测试,后续还会继续去做无线的测试,但是之前因为时间的原因一直都没有非常仔细的了解到代码层面.近期抽空自己做了些app的开发,决定如果想把移动的测试做好做深入,有一定的app开发经验非常的有必要,因为只有这样很多东西才能真正理解了.另一个方面,这本身也很有趣.目前尝试的一些东西都还比较基础,准备持续的做下去. 实践的过程也想陆续整理出来,做下笔记,也给别人一些参考,遇到很多问题的时候也是到谷歌度娘的找答案,帮助很多.目前更多关注android,ios的部分稍继续. 基本上现在任

《腾讯iOS测试实践》一一1.2 工程效率

1.2 工程效率 总体来说,工程效率就是研发效率(包含测试效率).这里我们会把测试效率单独提出来进行说明,因为这是与测试工程师相关度最大的工作.研发效率,其实就是让产品上线的时间更快(在品质有保障的前提下),大多数时候是说与研发流程相关的(不局限于敏捷流程,Feature Team研发模型),例如包含但不局限于以下活动.需求评审:需求评审机制以及更新通知,避免需求有改动而没有及时同步到相关角色.代码质量:静态代码扫描,千行代码缺陷率等.架构评审:代码架构的讨论以及评审.Bug流程:Bug生命周期

性能测试计划VS测试实践

许多人说,面向过程的工作是成功的关键.虽然我非常赞成这个说法,但我总是纳闷为什么人们对于性能测试的7个要点并没有特别关注,而这7个要点能左右性能测试项目的成败. 当一个测试人员被分配到性能测试项目组,项目经理会让他/她做的第一件事就是着手准备测试计划.但在测试计划的准备阶段,测试经理及其属下在准备文档时通常会掉以轻心,文档的大部分内容要么是从以前的项目中复制过来的,要么是从网上找来的任意模板:对测试计划中提到的需求说明不予任何关注就直接转移到下一阶段了.不可否认的是:作为公司流程标准中的必须项,

《腾讯iOS测试实践》一一1.5 测试设计

1.5 测试设计 测试设计是一个系统性工程,涉及内容比较多,从前期需求分析到用例设计,再到各类数据的分析等.下面我们择取主流的理论来看一下. 1.5.1 探索式测试探索式测试是目前业界比较流行的一种测试风格,是由测试专家Cem Kaner博士于1983年提出的,后来经过James Bach.James Whittaker等人的发展流行起来.国内大多数人是因为James Whittaker撰写了<Exploratory Software Testing>(探索式软件测试)一书才了解探索式测试,并

好的测试实践——软件测试的尽早介入

测试的尽早介入,是软件测试提倡的一个基本原则.测试过程中实践测试的尽早介入原则,其主要的优点表现在:提高质量.降低成本.加快进度和过程改进等. 首先,我们将从缺陷的角度来看看测试尽早介入的表现.缺陷是我们测试人员的最主要输出之一,但是它的一些特征说明了测试尽早介入的必要性. 1)缺陷是什么时候引入的 图1 不同阶段缺陷引入的分布 2)缺陷在什么时候发现 图2 缺陷发现的阶段 3)缺陷的雪崩效应 图3 缺陷的雪崩效应 4)缺陷发现与修复的成本放大效应 图4 缺陷发现与修复的成本放大效应 图1缺陷是

《腾讯iOS测试实践》一一2.3 iOS平台的特殊性

2.3 iOS平台的特殊性 iOS平台作为一种独立的操作系统平台,有很多其他平台所没有的特性.2.3.1 证书 我们在找工作时,需要向用人单位出示学校颁发的毕业证书,同理,要想我们开发的应用能够在iOS设备上安装启动,就需要向iOS设备提供由苹果公司颁发的证书,证明我们的应用是经过苹果公司官方认证的.iOS设备在启动App前,会先验证证书是否合法,这个过程被固化在了iOS系统中,除非手机越狱,否则都要经历这个过程. 要想开发iOS应用,首先要成为苹果公司认证的开发者(虽然Xcode 7之后可以用

《腾讯iOS测试实践》一一3.2 系统兼容

3.2 系统兼容 iPhone上的操作系统被称为iOS,每次发布新版本,想体验新特性的用户就需要将自己的手机进行固件刷新,或者购买已经配置最新系统的iPhone.操作系统的差异是手机"软实力"的差异.新系统发布给我们带来了新功能和接口实现的变化.3.2.1 新增功能 什么是系统的新功能?发布每个大系统,除了界面更新外,必然伴随着一些全新的功能,升级了新系统后这些功能可以直观地被用户体验到.例如iOS 8带来的widget,支持第三方输入法,iOS 9带来的spotlight新特性,iO