关于系统可用性量表

  系统可用性量表(System Usability Scale,SUS)用于测量软件、硬件、电话和网站的易用性,它由10个项目组成。在使用SUS时,有10件事你要知道:

  1. SUS的平均分是68分:我们收集了500个产品在SUS上的分数,发现它的平均分是68分。记住:SUS的分数不是百分比。68分虽然是最高分的68%,但是它是在50%的百分位上。最好将SUS的原始得分看作是一个分数;如果想用百分比表达,需要对照数据库来将原始分数转化为百分比。

  2. SUS测量可用性和可学习性:尽管SUS旨在测量可用性这一单一维度,但我们发现有两个题目可以用来测量可学习性:第4题(我觉得我需要技术人员的支持才能使用这个系统)和第10题(为了操作这个系统,我需要学习很多东西)。下图显示了可学习性得分和可用性得分(10个题目的和剔除可学习性题目后剩下的8个题目的)之间的关系。

  根据所测试的系统类型和它的成熟度的不同,可学习性的测量可能会与可用性的测量同样重要。

  3. 反向题弊大于利:与许多问卷一样,SUS的每个题目会交替变换语气。奇数题是正向表达,偶数题则是负向表达。这种做法旨在减少默认和极端反应偏差。如果你看到有人飞快地答完一份问卷而没有仔细阅读题项,你会觉得这种做法是一个不错的主意。

  在几年前我们发表的一篇论文中,我们发现全部采用正向表达的量表和原始量表在反应偏差上是没有差异的。

  而且不幸的是,我们发现了交替变换语气的负面效应。11%的研究者会错误地计算SUS得分,因为他们忘了偶数题要反向计分。另外,我们考察的研究中有17%的研究存在参与者忘记改变偶数题回答顺序的问题。尽管存在这一弊端,原始SUS还是可以使用,只是要检查两次你的题目编码;如果可以,当分数看起来是错误的时可以采用一定的途径跟进你的参与者。

  4. 熟悉导致满意:我们研究了来自软件和网站的SUS分数发现,用户以往对应用的经验影响他们用SUS测量得到的可用性知觉。一般而言,有很多使用经验的用户倾向于认为一个应用更可用。比较经验最丰富的用户和经验最少(或根本没有经验)的用户,这一趋势尤为明显。

  就网站而言,我们发现重访用户对网站的评价高出首次访问的用户11%。软件也表现出同样的模式。

  5. 可用性能够预测客户忠诚度:总体上,我们发现,SUS得分能够解释客户为什么推荐某软件或网站大约40%的变异,后者采用净推荐值(Net Promoter Score)测量。贬损者(Detractors)平均的SUS得分为67分,略低于总体平均分。推荐者(Promoters )平均的SUS得分为82分,远远高于总体平均分。基于大量的独立数据,我们发现,你可以简单地将SUS得分除以10来估计用在净推荐值量表(10点量表)中的推荐可能性问题。例如,SUS得分为72,你可以除以10得到推荐可能性为7.2。

  6. SUS的原始分数并不是正态分布,样本均值是正态分布:SUS的原始分数分布是一个非常不对称的图形(如下图)。这让一些熟悉参数统计和正态分布理论的人变得忧心忡忡,当需要采用置信区间和t检验来做出统计推断时。

  上图显示了来自某个研究的用直方图(类似条形图)描绘的311个SUS得分的分布形态。

  虽然正态分布是大部分我们推荐的统计程序用到的分布形态,但只有样本均值的分布需要呈现正太分布。下图显示了样本量从8到30的样本均值的形态。在所有情况下,样本均值的分布都是钟型分布且对称,这让我们可以得到准备的置信区间和p值,甚至是在小样本量的的情况下。

  上图显示了分别来自样本量为8、20和30的数据集的1000个样本均值。这些样本均值呈现对称的钟型,即使是在样本量很低的情况下,这使得参数统计更加可行且准确。

  7. 小样本量的时候你也可以使用SUS量表:理论上,你至少需要两个用户才能测量到变异(即标准差),并计算置信区间。但我们从来没有用SUS量表只测量两个用户。我们会报告5个用户的SUS得分。

  对早期的可用性研究而言,5是一个神奇的数字。置信区间会相当大,但平均的SUS得分却异常稳定。我们做了一个电脑模拟,发现在样本量为5时,样本均值在50%的情况下的变异维持在6分以内。

  上图显示了总体的SUS均值和样本量为5的SUS均值的差异。重复1000次抽样,在50%的样本中,样本量为5的SUS得分与真实的SUS得分相差在6分以内。对于小样本而言并不糟糕。

  换句话说,如果实际的SUS得分是74,从5个用户那里得到的平均SUS得分在50%的情况下会落在66到80之间。在75%的情况下,平均SUS得分会在10分以内,95%的情况下是17分以内。换言之,即使样本量很小,你也能在超过50%的情况下获得与实际得分出入不大的SUS得分。

  8. SUS得分并不是用来诊断的:SUS量表的初次使用者有时感到讶异,因为SUS不能提供诊断性信息。在最好的情况下,SUS能够提供可用性和可学习性的测量,这可以用来与一些行业基准进行比较。SUS量表没有一个题项会告诉你界面上哪里需要调整。这是因为SUS量表与大多数问卷一样,并不是用来诊断的。诊断的话需要太多的题项,而且很可能仍然没法很清楚地确定搜索结果页或产品描述的标签是否需要改善。庆幸的是,让用户尝试一些真实性的任务并记录下他们从行为上表现出的问题能够很快发现影响SUS得分的区域。

  9. SUS不针对特定技术:SUS量表上题项的表述方式使得它能够施予任何用户与之交互的系统。这意味着一家开发硬件、软件或语音应答系统的公司可以将SUS量表作为一个可变通的网络基准。这种灵活性也有它的代价。当你需要对一种技术进行更为特殊的测量时(例如,信任度或视觉吸引力),SUS量表是无能为力的。

  10. SUS量表并不总是最好的问卷:由于SUS量表没有技术针对性,并且相对简短,根据工作的不同我们可以选用其他工具。

  测量网站可用性,我们可以采用13个题项的SUPR-Q。其中四个题项可以计算出稳定的与SUS等价的得分。其他题项可以测量可靠性/可信性、美观性和忠诚度。

  测量任务层次的可用性,我们采用单个题项的难易度问题(SEQ)。

  测量知觉到的移动应用的有用性,我们采用这一题项“应用的功能能够满足我的要求”,5点量表计分。

  这些量表的一个共同点就是,我们可以比较原始分数和一个更大的数据集,得到相对等级和百分位数,从而让数据更有意义。

时间: 2024-09-16 06:30:27

关于系统可用性量表的相关文章

教你用UX KPI来量化用户体验

  当我们描述事物探讨问题的时候,合理的量化能让人更容易理解,也让交流更顺畅.比如你要描述越南香菜泡面的难吃,"吃一口吐5分钟"比"很难吃"更到位,不是么?虽然数字并不足以描述整个故事,但是可以让你简单直接设身处地的明白胃部翻滚的状态.那么对于用户体验,能否量化呢?当然可以. 尽管用户体验是定性地提高用户交互的品质和总体的满意度,但是它有必要进行量化,并对其进行度量.而用户体验的KPI (UX KPI) 就是用来干这个的. KPI是什么? KPI 的全称是Key P

可用性测试的权衡之道

对于可用性测试,业内人士存在一些普遍认可的原则.它们神圣地如同自然科学里的理论,似乎我们只能对其言听计从.俯首称臣才能践行出"好的可用性测试".其实,即便是科学,它的一个特征也是"可证伪性"--理论的正确性总是存在前提条件的.真理再向前一步就成为谬误! 可用性测试中的原则同样如此,需要根据目的.资源.环境的不同,灵活把握.权衡取舍,而非一味恪守某一个或某几个原则,也许这才是可用性从业人员经验重要性的体现. 一.任务设置:精细 VS 宽泛 制定的任务过于精细,一般原则

mysql 分库分表的方法

分表后怎么做全文搜索 1.merge方式分表(不好) 2. 使用 sql union 3 使用Sphinx全文检索引擎 一,先说一下为什么要分表 当一张的数据达到几百万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会死在那儿了.分表的目的就在于此,减小数据库的负担,缩短查询时间. 根据个人经验,MySQL执行一个sql的过程如下: 1,接收到sql;2,把sql放到排队队列中 ;3,执行sql;4,返回执行结果.在这个执行过程中最花时间在什么地方呢?第一,是排队等待的时间,第二,

数据库-sqlserver大数据量用like

问题描述 sqlserver大数据量用like 现在我有一个数据库表,数据量大概是300W,还在不停的添加,其中有一个查询需要用到模糊查询, 如果用select Cs_Id,Cs_Content from Customer_Service where Cs_Content like '%关键字%'的话效率很低,而且如果同时查询的人多会影响整个数据库的性能,我也想过用全文索引,但是全文索引的分词效果很差,有时候需要查询的数据查询不出来,有没有什么好的优化方法?感激不尽 解决方案 自己先分词(比如说

mysql分表的3种方法

一,先说一下为什么要分表 当一张的数据达到几百万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会死在那儿了.分表的目的就在于此,减小数据库的负担,缩短查询时间. 根据个人经验,mysql执行一个sql的过程如下: 1,接收到sql;2,把sql放到排队队列中 ;3,执行sql;4,返回执行结果.在这个执行过程中最花时间在什么地方呢?第一,是排队等待的时间,第二,sql的执行时间.其实这二个是一回事,等待的同时,肯定有sql在执行.所以我们要缩短sql的执行时间. mysql中有一

mysql数据库分表方法总结(1/2)

一,先说一下为什么要分表 当一张的数据达到几百万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会死在那儿了.分表的目的就在于此,减小数据库的负担,缩短查询时间. 根据个人经验,mysql执行一个sql的过程如下: 1,接收到sql; 2,把sql放到排队队列中 ; 3,执行sql; 4,返回执行结果. 在这个执行过程中最花时间在什么地方呢?第一,是排队等待的时间,第二,sql的执行时间.其实这二个是一回事,等待的同时,肯定有sql在执行.所以我们要缩短sql的执行时间. mysq

mysql分表几种方法总结

分表 1,做mysql集群,例如:利用mysql cluster ,mysql proxy,mysql replication,drdb等等 有人会问mysql集群,根分表有什么关系吗?虽然它不是实际意义上的分表,但是它启到了分表的作用,做集群的意义是什么呢?为一个数据库减轻负担,说白了就是减少sql排队队列中的sql的数量,举个例子:有10个sql请求,如果放在一个数据库服务器的排队队列中,他要等很长时间,如果把这10个sql请求,分配到5个数据库服务器的排队队列中,一个数据库服务器的队列中只

第十三章——表和索引分区(2)——使用拆分删除和加载大数据

原文:第十三章--表和索引分区(2)--使用拆分删除和加载大数据 前言:         很多时候需要对大数据量进行归档或者删除,并周期性加载大数据量到一个大表中,现在来做个简单的例子,你经常需要删除大数据量表中的大量数据.同时,你想加载大量数据到这个表中,当表中数据有数十亿时,这个操作可能消耗几个小时,但是如果你的表有分区,那么执行起来会很有效. 本文将模拟删除一个季度的数据,并加载整个季度到现有表,其中使用了拆分(splitting).合并(merging)和切换分区(switching).

《C语言及程序设计》实践参考——油量监控

返回:贺老师课程教学链接  项目要求 [项目2:油量监控]设计一个程序,用于赛车油量的监控.该程序在赛车油量偏低(少于1/4,即0.25)时,警示车手应该注意:在油箱接近满载(不低于3/4)时,提示提手不要停车.而对于其他情况下,不提示任何信息,以免车手分心.请设计出这个程序来,输入油量刻度(0-1之内的数,如0.21),提示相应信息,如果需要的话.提示:下面显示了几种情况,注意对程序的完整测试.[参考解答] 解法1   #include <stdio.h> int main ( ) { do