系统可用性量表(System Usability Scale,SUS)用于测量软件、硬件、电话和网站的易用性,它由10个项目组成。在使用SUS时,有10件事你要知道:
1. SUS的平均分是68分:我们收集了500个产品在SUS上的分数,发现它的平均分是68分。记住:SUS的分数不是百分比。68分虽然是最高分的68%,但是它是在50%的百分位上。最好将SUS的原始得分看作是一个分数;如果想用百分比表达,需要对照数据库来将原始分数转化为百分比。
2. SUS测量可用性和可学习性:尽管SUS旨在测量可用性这一单一维度,但我们发现有两个题目可以用来测量可学习性:第4题(我觉得我需要技术人员的支持才能使用这个系统)和第10题(为了操作这个系统,我需要学习很多东西)。下图显示了可学习性得分和可用性得分(10个题目的和剔除可学习性题目后剩下的8个题目的)之间的关系。
根据所测试的系统类型和它的成熟度的不同,可学习性的测量可能会与可用性的测量同样重要。
3. 反向题弊大于利:与许多问卷一样,SUS的每个题目会交替变换语气。奇数题是正向表达,偶数题则是负向表达。这种做法旨在减少默认和极端反应偏差。如果你看到有人飞快地答完一份问卷而没有仔细阅读题项,你会觉得这种做法是一个不错的主意。
在几年前我们发表的一篇论文中,我们发现全部采用正向表达的量表和原始量表在反应偏差上是没有差异的。
而且不幸的是,我们发现了交替变换语气的负面效应。11%的研究者会错误地计算SUS得分,因为他们忘了偶数题要反向计分。另外,我们考察的研究中有17%的研究存在参与者忘记改变偶数题回答顺序的问题。尽管存在这一弊端,原始SUS还是可以使用,只是要检查两次你的题目编码;如果可以,当分数看起来是错误的时可以采用一定的途径跟进你的参与者。
4. 熟悉导致满意:我们研究了来自软件和网站的SUS分数发现,用户以往对应用的经验影响他们用SUS测量得到的可用性知觉。一般而言,有很多使用经验的用户倾向于认为一个应用更可用。比较经验最丰富的用户和经验最少(或根本没有经验)的用户,这一趋势尤为明显。
就网站而言,我们发现重访用户对网站的评价高出首次访问的用户11%。软件也表现出同样的模式。
5. 可用性能够预测客户忠诚度:总体上,我们发现,SUS得分能够解释客户为什么推荐某软件或网站大约40%的变异,后者采用净推荐值(Net Promoter Score)测量。贬损者(Detractors)平均的SUS得分为67分,略低于总体平均分。推荐者(Promoters )平均的SUS得分为82分,远远高于总体平均分。基于大量的独立数据,我们发现,你可以简单地将SUS得分除以10来估计用在净推荐值量表(10点量表)中的推荐可能性问题。例如,SUS得分为72,你可以除以10得到推荐可能性为7.2。
6. SUS的原始分数并不是正态分布,样本均值是正态分布:SUS的原始分数分布是一个非常不对称的图形(如下图)。这让一些熟悉参数统计和正态分布理论的人变得忧心忡忡,当需要采用置信区间和t检验来做出统计推断时。
上图显示了来自某个研究的用直方图(类似条形图)描绘的311个SUS得分的分布形态。
虽然正态分布是大部分我们推荐的统计程序用到的分布形态,但只有样本均值的分布需要呈现正太分布。下图显示了样本量从8到30的样本均值的形态。在所有情况下,样本均值的分布都是钟型分布且对称,这让我们可以得到准备的置信区间和p值,甚至是在小样本量的的情况下。
上图显示了分别来自样本量为8、20和30的数据集的1000个样本均值。这些样本均值呈现对称的钟型,即使是在样本量很低的情况下,这使得参数统计更加可行且准确。
7. 小样本量的时候你也可以使用SUS量表:理论上,你至少需要两个用户才能测量到变异(即标准差),并计算置信区间。但我们从来没有用SUS量表只测量两个用户。我们会报告5个用户的SUS得分。
对早期的可用性研究而言,5是一个神奇的数字。置信区间会相当大,但平均的SUS得分却异常稳定。我们做了一个电脑模拟,发现在样本量为5时,样本均值在50%的情况下的变异维持在6分以内。
上图显示了总体的SUS均值和样本量为5的SUS均值的差异。重复1000次抽样,在50%的样本中,样本量为5的SUS得分与真实的SUS得分相差在6分以内。对于小样本而言并不糟糕。
换句话说,如果实际的SUS得分是74,从5个用户那里得到的平均SUS得分在50%的情况下会落在66到80之间。在75%的情况下,平均SUS得分会在10分以内,95%的情况下是17分以内。换言之,即使样本量很小,你也能在超过50%的情况下获得与实际得分出入不大的SUS得分。
8. SUS得分并不是用来诊断的:SUS量表的初次使用者有时感到讶异,因为SUS不能提供诊断性信息。在最好的情况下,SUS能够提供可用性和可学习性的测量,这可以用来与一些行业基准进行比较。SUS量表没有一个题项会告诉你界面上哪里需要调整。这是因为SUS量表与大多数问卷一样,并不是用来诊断的。诊断的话需要太多的题项,而且很可能仍然没法很清楚地确定搜索结果页或产品描述的标签是否需要改善。庆幸的是,让用户尝试一些真实性的任务并记录下他们从行为上表现出的问题能够很快发现影响SUS得分的区域。
9. SUS不针对特定技术:SUS量表上题项的表述方式使得它能够施予任何用户与之交互的系统。这意味着一家开发硬件、软件或语音应答系统的公司可以将SUS量表作为一个可变通的网络基准。这种灵活性也有它的代价。当你需要对一种技术进行更为特殊的测量时(例如,信任度或视觉吸引力),SUS量表是无能为力的。
10. SUS量表并不总是最好的问卷:由于SUS量表没有技术针对性,并且相对简短,根据工作的不同我们可以选用其他工具。
测量网站可用性,我们可以采用13个题项的SUPR-Q。其中四个题项可以计算出稳定的与SUS等价的得分。其他题项可以测量可靠性/可信性、美观性和忠诚度。
测量任务层次的可用性,我们采用单个题项的难易度问题(SEQ)。
测量知觉到的移动应用的有用性,我们采用这一题项“应用的功能能够满足我的要求”,5点量表计分。
这些量表的一个共同点就是,我们可以比较原始分数和一个更大的数据集,得到相对等级和百分位数,从而让数据更有意义。