出声思考（think aloud）的可用性测试是参与者在进行任务操作的时候同时描述自己对产品的感受，由于它相时易学易用，可以生成有用数据，可信度高，而且不那么昂贵，所以是可用性从业者青睐的一种技术。

运用出声思考的可用性测试，可得到以下收获：
获得对产品的第一印象
发现产品中容易引起混淆的部分
揭示最初的学习问题
揭示一些用户的心理模型
确定语言是否能够被理解
有效探索导航和工作流程
发现用户如何从错误中恢复

这个方法适用于需求分析到产品发布的整个阶段，可以使用出声思考来获对概念草图、故事板、线框图、纸原型、现有产品、操作模型和竞争产品等的反馈。此方法的最佳应用时机是新产品处于设计探索阶段时，这个时候关注的是整体导航、主要功能设计和高层级组织这样比较宏观的问题。

1. 可用性测试

可用性测试是关注于界面原型特定功能的结构化访谈。访谈的核心是由评估者执行一系列的任务。访谈的录像和笔记日后会用于分析评估者的成功、误解、错误和观点。在进行几次这样的测试之后，比较观察到的内容，将最常见问题收集起来形成功能、导航和表现的问题列表。

2. 什么时候进行可用性测试

由于可用性测试最善于观察人们怎样执行特定任务，因此它应当用于测试个别特征的功能性及其对期望用户的呈现方式。它最好是用于凸显功能在应用中固有的潜在误解或错误，而不是评估整体用户体验。在开发周期的早期到中期阶段，可用性测试可在指导特征功能的定义和开发方向上起关键作用。

3. 怎样进行可用性测试

完整的可用性测试需要3-4周时间，实现从概念立意到结果呈现的全部过程。下表是典型的可用性测试时间表。

时间	活动
测试前2周	确定测试受众：开始招募
测试前2周	确定测试的功能
测试前1周	写第一版脚本：构建测试任务；与开发团队讨论；检查招募进展
测试前3天	写第二版指导；回顾任务；与开发团队讨论；招募应该完成
测试前2天	写完指导；安排测试联系；设置并检查所有设备
测试前1天	在上午进行测试练习；适当调整指导和任务
测试	测试
测试后1天	与观察人员讨论；收集所有笔记的复印件
测试后2天	休息1天，做做其他事；给自己反思的时间，考虑是否存在引起更大错误的小问题
测试后3天	观看所有录像；记笔记
测试后1周	整合笔记；写出分析
测试后1周	将结果呈现给开发团队；讨论并记录进一步研究的方向

招募
最适合邀请的是哪些近期将需要类似服务的人，和哪些近期使用了竞品的人。基于任务的可用性测试，每轮测试至少应该有5位参与者并为这5个位置招募6-10人。
选择功能
第二步是确定需要测试的功能，即确定创建的任务和呈现顺序。获得功能排序列表的一个结构化方法是：
（1）列出界面上最重要的5个内容
（2）加一个“重要性”标签，按1-5级分级，5意味着最重要。再加一个“疑问”，根据满意度分级，1表示最满意，5表示最不满意。
（3）将“重要性”得分和“疑问”得分相乘，数值最高的最需要进行测试。

还可以与开发人员会谈，先查看如下的功能：

经常使用的
新的
大力宣传的
早期版本的反馈认为是有问题的
如果不正确使用会有潜在危险或不良副作用的
用户认为重要的
产品团队重点关注或带有疑问的

创建任务
好的任务应该具有以下特征

合理：应该是人们会进行的典型任务。
按最终目标进行描述：如果用户要购买某些产品，给他们购买的理由；如果他们要创造写什么，就给他们创造的情景。
具体：任务应该有具体的目标。
可行：任务可以完成。
按现实中的顺序进行：任务应该按实际使用的流程安排
没有专业偏向：理想的任务是每个参与者都对其略知一二，但是没有人知之甚多。
长度适中：将复杂度控制在不超过10分钟时间

编写脚本
介绍（5-7分钟）：
[关闭显示器，关闭录像设备，设置好计算机]
欢迎，感谢您的到来。您好吗？（您觉得位置舒服吗?对保密协议是否还有疑问?等等。）
我是__________。我正帮助______________来了解他们的受众对某一产品的使用感觉如何。这位是_________，他今天会在我们进行时在一旁观察。我们邀请您前来是为了解您对他们的产品有何感想：哪些对您而言有用，哪些没用，类似这样的内容。
这个评估过程大约一小时。
我们将对今天发生的清况进行录像，但录像只用于分析。这是主要是方便我不需要坐在这里记笔记，而是可以专注于与您交谈。观看录像的人只有我、开发团队的几位人员和其他几个人。这些录像只用于研究，绝不会用于公共广播、宣传和推广。

解释背景知识
现在我要为您朗读知情同意书的内容。我为每个访谈对象都朗读这份文件，它是一个标准件。作为参与这类研究的人员，它赋予您权利。
作为这次研究的参与者:
您可以在任何时间停止参与。
您可以在任何时间提问。
您可以在任何时间离开。
不存在任何的欺骗。
您的回答将进行保密。
在开始前还有什么问题吗？
让我们开始吧！

初步访谈（10-15分钟）
初步访谈用于建立背景，通过一开始提一些一般性的问题，然后将交谈的话题缩小到产品上，从而将访谈的关注点缩小到参与者的经验范围之内。

[开始录像}
您一周通常花多长时间用于上网？
其中多少时间用于工作，多少时间用于个人？
除了收发电子邮件，您经常在网上做什么？
您曾经在网上进行购物吗？买了些什么？您多长时间进行一次网购？
您是否曾在网上对产品进行研究，最后在商店进行购买？这种情况更多发生在哪些产品类别上？为什么？
是否有东西是您绝对不会在网上购买的？为什么？

我马上会让您打开显示器，我们会来看看产品，但是先让我给您一些如何进行操作的指导。
使用过程中需要记住的最重要的事情是，您在测试界面，而不是界面测试您。您绝对不会做错什么。就是这么回事。如果有东西看上去是破的、错的、奇怪的，又或者是让人困惑的，这并不是您的错。但是我们希望了解这种清况。因此如果任何时候有什么东西您觉得不对，请告诉我们。
同样，如果有您喜欢的内容，也请告诉我们。就算只是一个功能、一种颜色或一种布局方式，我们都希望知道。
请尽可能坦率。如果您认为有东西很糟糕，请说出来。不要感到害羞；您不会上海任何人的感倩。因为产品就是为像您一样的人设计的，我们非常希望知道对您来说，哪些功能好用，到底哪些不好用。
同时，当您使用产品时，我希望您能将自己的想法大声说出来。这样能告诉我们您在进行操作的时候是怎么想的。只需在操作的过程中进行叙述，有点类似于现场直播。告诉我您在做什么，为什么这样做。

现在一切就绪，我希望您从“收藏夹”（Favorites）菜单中选择“某某网站”。
[快速地]首先吸引您关注的是什么？接下来呢？您看到页面时首先想到了什么？
[1-2分钟后]这是关于什么的网站？
您对它感兴趣吗？
如果这是您第一次访问这个网站，接下来您会做什么？您想点击哪里？什么内容是您想一探究竟的？

基于任务的访谈应该如下所示：
任务（20-25分钟）
现在，我希望您用界面完成几个任务。像平常一样进行操作，过程中叙述您的想法。
这是我想让您执行的任务列表。[分发列表]
第一个情境如下所示：
任务1在这里进行描述
[阅读第1个任务，分发任务1的描述]
我想让您进行的第二个任务是
任务2在这里进行描述
[阅读第2个任务，分发任务2的描述]
等等

期待查明问题：
导航元素的名称有意义吗？
界面元紊是否像评估者预期的那样有效？
是否存在没有意义的界面元素？
什么内容吸引了评估者的注意力？
在所有给定功能中什么元素最重要？
是否存在评估者希望能得到额外信息的地方？
他们对每个给定元素的行为，每个屏幕的内容有怎样的预期？

总结和随意的头脑风暴（10分钟）
请关闭显示器，我们将就几个问题进行总结。
总结
对和您有着相似计算机和网络经验的人们。您如何用几句话描述这个产品？
这是否是一个有趣的服务？您会使用它吗？
您会推荐它吗？为什么会？为什么不会？
您是否能通过说出三个好的方面和三个不好的方面，来总结我们谈论的内容。
随意的头脑风暴
好的，现在我们已经了解了一些它所能做的，让我们轻松随意地聊几分钟。不要思考得太过具体。您希望一个像这样的系统能做到现在这个所没能做到的什么事？您是否曾经说过:“我希望有程序能帮我完成某事”？是什么事？
您是否有最后的问题？评论？
谢谢您，如果在回家的路上、明天、甚至下周，您有任何其他的想法或主意。请随时发送电子邮件到________[递出名片]

4. 进行访谈

进行用户访谈有两个目的：获得来自评估者的最自然的回答和最完整的回答。用户访谈环境中的一切，从空间布局到提问方式，都以这两个目标作为关注点。
空间布局
空间布局应该尽量不要布置得像实验室，而要接近于产品使用环境。如果产品是在工作场所使用，那么就应该在一个不错的办公室环境中进行测试。如果产品是在家庭中使用，那么它就应该在像家一样的环境中进行测试。
如果在有双向玻璃的房间中进行测试，可以使用摄像设备。一个典型的可用性测试的最终布局如下图所示：

适度
主持人需要让用户感觉舒适，并在适当的时间提取出有用的回答，而不要打断用户自己的叙述流程，或改变他们的观点。应该在所有的用户访谈中采用非定向的访谈形式。

探查期望：在用户要执行动作之前让他们停下来，然后询问他们对动作效果的期望。
多问“为什么”。通过询问简单直接而又没有偏向的问题，可以了解很多关于人们的态度、信仰和行为方面的信息。
有时建议解决方案：如果有一个特别的注意可以解决用户的问题，可以将它提出来。
探查出错原因：当评估者出错时，马上调查他们的想法和期望。
调查非语言线索：观察用户的下意识动作。
让访谈以任务为中心：允许用户探索自己的体验，但让关注点集中在产品和任务上。
尊重评估者的想法：如果跑题引导谈话回到当前的任务和主题上。
关注他们的个人体验：人们有将自己的体验理想化，并将其推断为他人的需求或自己的未来需求的倾向。

管理观察员
可用性测试中对观察员的指导，包括：

倾听
可用性测试没有统计学上的代表性
不要将每字每句都当成真理，这只是几个人的观点
人们是矛盾的
不要期望革命性突破
不要只关注人们做了什么和注意到什么，也要同样关注他们不做什么或什么东西没注意到。

5. 分析过程

对输出进行分析的过程分为3个阶段：收集观察资料、组织观察资料以及从观察资料中提取趋势。
收集观察数据
有三类观察数据需要收集：支持人的、观察者的和分析者的
收集主持人和观察者的笔记比较简单，拿来他们的笔记，并让他们和你一起过一遍，逐条解析它们的意思。
收集分析者的笔记是相对耗时的工作。分析者要讲录像看过至少4遍，并记下出现错误、产生困惑的地方以及评估者发表意见的情形。他们需要注意评估者在评估哪些功能的时候、在什么情况下遇到的问题，并提供问题的详细描述。
使用定量的方法在归纳和比较时会起到很大的作用。英国的体验设计和评估咨询公司Flow Interactive使用以下的方法：
0-失败
1-用非常迂回的方法缓慢完成
2-稍慢地完成
3-很快完成
例如，可以使用下面的表格来反映一个评估者的表现

用户：Marlon	阅读时间	错误	完成时间
查找特定样式的服装	1	3	1
购买替代品	3	1	2
找到相似的衣服	1	2	0
关键点	0-没有阅读	0-由于错误没有完成	0-失败
	1-阅读的很慢	1-出错很多	1-用迂回的方法缓慢完成
	2-阅读的比较慢	2-出错比较多	2-稍慢地完成
	3-阅读的很快	3-很少或没有出错	3-很快完成

然后在收集处理好之后，为每个指标创建一个总结表格，完成时间的指标的表格如下所示：

任务表现时间测量
	Marlon	Eva	Marc	Barb	John	平均值
查找特定样式的服装	1	2	1	0	2	1.2
购买替代品	2	3	2	1	1	1.8
找到相似的衣服	0	0	1	1	0	0.4

组织观察数据
首先，通读一遍笔记，获得总体感觉，寻找重复内容。接下来把所有观察数据按照相似性分组，例如根据不理解的术语、购物车问题或让人困惑的信息结构。
提取趋势
将所有观察数据分组后，浏览各个分布并将它们合并，分离哪些无关主题的组。扔掉只有1-2个人的观察资料。对每个分组用简短的语句将问题归类，用几句话全面地描述现象。尽可能解释根本问题，将注意力集中在对问题的描述、问题对用户体验的直接影响以及问题产生的位置上。要非常谨慎地提出解决问题的建议。

分享&收藏

转载请注明：陈童的博客 » 网站的评估与分析：可用性测试