大师网-带你快速走向大师之路 解决你在学习过程中的疑惑,带你快速进入大师之门。节省时间,提升效率

AI时代的语音设计经验漫谈

文章翻译自Lyndon Cerejo发表于SMASHING MAGAZINE的Designing Voice Experiences,全文通过构建一个语音问答类的益智游戏来分享了作者关于语音体验设计的经验,涵盖了一个语音应用程序从设计到开发测试及上线的整个流程。


基于语音的界面正变得司空见惯。 Siri和Cortana等语音助手也已经出现好几年了,但在过去的这个假期,亚马逊和谷歌的语音驱动型设备进入了数百万个家庭。

VoiceLabs最近的分析估计,今年将有2450万个语音驱动型设备出货,这几乎是去年的四倍。 作为体验设计师,我们现在有机会进行语音体验和语音界面的设计了!

设计一个全新类型的界面并不意味着我们必须抛弃以前已经成功应用到界面设计中的所有经验。我们需要根据语音驱动界面的细微差别来调整我们的设计流程,包括会话交互的加入以及可视化屏幕的缺失。我们将研究那些典型的语音类产品的工作原理、讨论设计语音体验的步骤,并通过为Amazon的Alexa平台设计一个语音应用程序(Amazon称在Alexa平台上的语音应用为 Skills)来说明这些步骤。

了解语音界面之间的关联

就像移动应用在操作系统和设备上运行一样,三个层次必须一起工作才能实现语音交互:

启用语音交互的层级
启用语音交互的层级
  1. 语音应用程序(Amazon Skills 和 Google Actions);
  2. 人工智能平台(Amazon Alexa,Google Assistant,Apple Siri,Microsoft Cortana);
  3. 智能设备 (Echo, Home, smartphones, computers).

每个层级都依赖下一层级,并支撑上一层级。 语音界面位于上面两层,两者都驻留在云端,而不是在物理设备上。

让我们以Alexa平台上一个名为 Jeopardy!的Skill(应用)为例,来看看这些层级之间是如何协同工作的

启用语音交互的层级
启用语音交互的层级

诸如Amazon Echo和Google Home之类的语音驱动设备不断地在等待唤醒词(“Alexa ...”或“OK,Google ...”)从而进入操作状态。 一旦激活,设备会将随后接收到的音频发送到云端的AI平台(“... play jeopardy!”)。 该平台使用自动语音识别(ASR)和自然语言理解(NLU)的组合来识别用户的意图(开始益智游戏)并将其发送到支持应用程序(Jeopardy!J6 Skill on Alexa)。 应用程序处理请求并通过文本进行响应(如果支持则提供可视化信息)。 该平台将文本转换为语音并通过设备播放(“欢迎来到Jeopardy J6,这是今天的线索......”)。 这一切只需几秒钟。

建立语音体验

去年,马克·扎克伯格(Mark Zuckerberg)接受了一个个人的挑战,去建立一个简单的AI来管理他的家。 他做到了,它被叫做Jarvis,还拥有了Morgan Freeman的声音

Mark Zuckerberg把Morgan Freeman介绍给使用他声音的AI
Mark Zuckerberg把Morgan Freeman介绍给使用他声音的AI

当然,大多数人没有能力或资源去做同样的事情,但是我们可以通过在已经搭建好的第三方AI平台上运行我们的语音应用程序来减少工作量。 这让我们只需要担心语音应用程序的设计和开发,大大简化了开发工作。 AmazonGoogle已经公开提供了相应的模板、代码以及详细的使用步奏,帮助开发者构建不同类型的语音应用程序,即使非开发人员也可以在一个小时内开发一个应用程序!

他们在简化应用程序开发方面的投资正在得到回报,每个月都有数千个新的语音应用程序正在启动。 语音应用的增长带来了大家对于90年代网络淘金热的回忆,以及应用商店推出后移动应用爆炸式增长景象的联想。

截至2017年5月,Alexa 平台上各 分类Skill的数量
截至2017年5月,Alexa 平台上各 分类Skill的数量

在拥挤的语音市场中,良好的设计将使您的语音应用程序与其他数百个类似的应用程序区分开来。

语音体验设计

要设计一个良好的语音用户体验在开始开发之前应该经历五个步骤(发现 -> 定义 -> 细化 -> 描述 -> 提炼)。 虽然直接进入开发可能是诱人的,但在探索如何进行正确的设计上花费时间也是值得的。

设计语音体验的步骤
设计语音体验的步骤

我们将讨论和应用每个步骤来设计一个语音应用程序,这可以很容易地使用Alexa的许多Skill模板中的一个来进行开发。

  • 发现

    设计之旅始于“这个语音应用程序如何为用户提供价值”这个问题。无论您是在开发一个独立的语音应用程序(如我们的示例)还是您的语音应用程序只是您的顾客使用的许多接触方式之一。您要 考虑的是人们为什么和在哪里使用语音应用程序。 正如Mary Meeker的“2016互联网趋势报告”所显示的那样,人们使用语音接口是因为免提互动的好处,交互的速度和易用性,同时主要在家中或在汽车中使用。

    使用语音界面的主要原因(作者的标注)
    使用语音界面的主要原因(作者的标注)

    关键是要找到那些相比使用电话或计算机来说语音应用更易用、更便捷的用户需求。例如银行提供的帐户信息或电影观众在附近寻找新的电影这样的场景。

    如果您有已经有语音应用的竞争对手,请审视他们正在做的事情以及他们的应用在应用市场(例如亚马逊的Alexa Skill商店)收到的评论和反馈。 其目的不是盲目模仿,而是去了解他们已经设定的功能模块,以及目标用户的期望。

    (在写这篇文章的时候,有超过1500个“益智游戏” 相关的的Alexa Skills,这使它成为了数量最多的 Skill类别,但是这其中没有一个是迎合了用户体的Skill。 在 接下来的语音设计过程中,我们将创建一个用户体验设计相关的Skill,让读者测试他们设计相关知识,你甚至可以从中学到新的东西。)

  • 定义

    在这一步中,我们将定义我们的应用程序的个性和它将具有的功能。

    个性

    在设计语音界面时,我们没办法通过网页和移动界面中大量使用的视觉元素来展现个性。 语音界面中的个性必须通过口头交流的声音和语气来实现。 跟能听到Freeman舒缓声音的Zuckerberg不一样,我们听到的只能是设备默认的声音。 这使得在传达我们想传达的个性时,语调和措辞至关重要。

    好消息是,这个领域的大部分基础工作应该已经完成并记录在企业品牌指南或网站风格指南中(提示:寻找“语调”部分)。 为您的语音应用程序充分利用这些指导原则,并在各个任务路径和接触点之间保持一致的个性。

    当我想到个性和语调时,“维珍集团”立即映入了我的眼帘。 他们清楚地界定了他们是谁以及如何将这些传达给用户。 对于“维珍美国”来说,理想的语气是“时髦、随和、非正式、俏皮以及口齿伶俐”,这些在所有的交流中都清晰的传达了出来。

    维珍美国的品牌个性
    维珍美国的品牌个性

    来源:(Virgin America)

    如果你曾经要求过Alexa唱歌或尝试过任意一个Alexa内置的复活节彩蛋,那么你会知道她有自己的个性。 当我好奇的向负责她个性构建的团队了解时,他们是这样说的:

    当构建Alexa的声音时,我们尝试着给她设计了自己的个性,它包含了亚马逊最重视的那些特质。 我们希望她在乐于助人,谦虚和聪明的同时还能保持有趣。 这是一个循序渐进的过程,我们期望随着更多开发者投入其中,使她变得更聪明的同时Alexa的声音也能随之演变。

    个性还可以反映在应用列表中显示的应用名称、图标、说明,以及用于唤起应用程序的名称(调用指令)中。 所以,在发布你的应用程序的时候,要确保它显而易见。

    对于我们的用户体验设计技巧,我们可以采取一个简单或有趣的方法,这将反映在我们测验问答选项的措辞中。

    一个正常音调的例子是:

    哪一种UX设计原则偏向简单而不是复杂?

    1. 奥卡姆剃刀原理
    2. 希克定律
    3. 美即好用效应
    4. 满意度

    而一个有趣音调的例子是:

    显然,有一个UX的设计原则,偏向于简单而不是复杂。 真的! 你能猜到它叫什么吗?

    1. 奥卡姆的剃刀原理:一个用户体验设计狮可以得到的最好的。
    2. 希克定律:听起来像一个用户体验土鳖想出来的东西。
    3. 美即好用效应:这是一些奇特的UX术语。
    4. 满意度(satisficing):I can’t get no satisficing...对滚石道歉。(滚石乐队的歌曲《(I Can't Get No) Satisfaction》)

    还是让我们坚持正常吧。

    功能

    这是您仔细思考哪些功能是对您语音程序用户有用的地方。 从第一步重新审视您的工作,以确定与您业务相关的核心能力。 有时提供核心功能是一件不容易的事情,例如银行提供与余额、交易和到期日相关的信息。 其他产品则以相关功能的形式提供价值,比如汰渍的去污指南语音应用程序,或者Glad(食品存储和垃圾袋制造商)的语音应用程序,其中一个帮助用户记住他们存放剩菜的地方,另 一个允许用户检查哪些物品应该被回收或丢弃在垃圾箱中。

    如果你在从网络到手机的时候做了类似的练习,那可以作为起点。 对于语音功能,请考虑到在公共场合语音设备的哪些功能可以为用户提供便利。 如果一个Skill有安全或隐私方面的顾虑,可以考虑增加一个保护级别(Capital One Alexa Skill允许用户为账户访问创建一个个人密钥)。 虽然您最终可能会通过语音使用一系列功能,但您可以从一到五个核心功能开始,并在启动后使用语音分析功能从用户习惯着手进行更新和改进。

    用户体验设计Skill的核心功能可能是:

    1. 在需要时提供用户体验设计原则查询;
    2. 随机挑选一些用户体验(UX)原则来测验用户(单人玩家);
    3. 用多个用户体验(UX)原则来测验用户(单人玩家),并保存分数;
    4. 与多名玩家举行UX知识测验竞赛。

    因为我们正在使用亚马逊的技能模板来构建这个用户体验设计Skill,我们的选择目前仅限于上面的第一个(fact Skill模板)或第三个(益智游戏Skill模板)选项。 假设我们的研究表明,我们的用户发现测验游戏比单纯听取用户体验原则知识更有价值,那我们的核心功能就应该是使用用户体验原则来测验用户并保存得分。

  • 细化会话流程

    现在您已经将语音应用程序的功能列入候选名单,开始关注应用程序与用户的详细对话流程。人的交谈很复杂,它往往有许多波折,随时可能转动,人们经常从一个主题跳到另一个主题。语音AI平台还有很长的路要走,以适应这种复杂程度,所以你必须训练你的Skill如何回应用户。

    您的语音应用程序只能支持您在上一步中定义的功能,但用户始终可以以任何格式询问应用程序。对话流程的详细设计可以让您正确响应用户,或者将对话推向那些应用程序可以为用户做的事情。

    对于语音应用程序将支持的每种功能,开始在用户和应用程序之间创建会话对话,类似于剧本中的对话。当你写这些对话时,请记住预设的个性以及语音和音调的特点。然后就可以开始创建和管理您的语音应用程序的实际内容了;对于我们将要创建的测验应用程序,这将意味着建立测验问题的列表。

    从“开心路线”开始 - 语音应用可以在没有任何异常或错误的情况下响应用户请求的会话流程。然后,继续详细说明会话流程中的例外情况(用户不提供完整的信息)和错误(语音应用程序不理解或不能完成用户要求的内容)。

    因为谈话会被听到而不能被阅读,所以一个好的做法是大声读出来,看看它是不是一个自然的口头谈话,并检查它是否传达了你预设的语气。

    如果您的语音应用程序需要使用手机App中显示的内容来补充对话,请将这些交互设计在一起,以便用户能将它们无缝的关联起来。例如,如果新Echo上配备了触摸屏的传言是真的,那么除了听取说明之外,汰渍的除污Skill还应该告知用户他们也可以参照Alexa应用程序在屏幕上展示的除污步骤。

    以下是我们用户体验设计Skill中快乐路径的示例对话的核心能力:

    • 用户:“Alexa,启动用户体验设计测验”。
    • Alexa:“我会问你五个问题,多选答案。试着尽可能多的正确。 只要说出答案的数字即可。 让我们开始。 问题1 ...“
    • 用户:[正确回应]
    • Alexa:“这是正确的! 你的分数是1.这是问题2 ...“
    • 用户:[反应不正确]
    • Alexa:“糟糕,这是错误的答案。正确答案是[正确答案]。 你的分数是1.这是问题3 ...“
    • ...
    • Alexa(在五个问题的末尾):“这是正确的! 五个问题中有四个是正确的。 谢谢你来玩!”
  • 描述备用词组

    人们并不总是用相同的词汇来表达同样的东西,因此语音应用需要被教导。短语映射是训练语音应用程序以适应用户短语请求方式的变化的练习。

    对于上一步中详述的每个对话路径,请考虑用户可以用不同方式发起这些请求。然后分解每个请求的措词,并识别可能使用的单词变体和同义词,并考虑到不同地区的差异以及方言。如果您的语音应用程序涉及甜的碳酸饮料(苏打水,流行音乐,可乐,滋补品,软饮料,碳酸饮料),长三明治(分,磨床,华盖,英雄,穷小子,轰炸机,意大利三明治,面包)或运动鞋(运动鞋,鞋子,运动鞋,沙鞋,跳投,网球鞋,跑步鞋,跑步者,运动鞋)。

    让这个变体列表尽可能完整和详尽,以便您的语音应用程序可以理解用户请求。Alexa需要以“话语”的形式进行这些变化,并建议提供“......尽可能多的代表性短语”。根据语音应用程序的功能,语音的数量可以很容易地达到几百,但有一些方法可以简化话语的产生

    下面是我们用户体验设计测验功能的示例词组映射。Alexa的AI平台在根据模板转换用户的技能意图方面做得很好。但是,如果你做出了改变(比如我们把“益智游戏”改成了“测验”),那么这些短语就必须添加了。

    image
    image
  • 提炼

    设计过程的最后一步是验证和优化语音应用程序,然后花费时间和精力进行开发。在“细节”步骤中,大声阅读对话流程,有助于确保听起来自然和口语化。目前的步骤还涉及到了与用户测试语音界面。

    最简单的测试方法是使用“绿野仙踪”技术,一个人扮演声音驱动设备的角色,并根据语音接口脚本来响应用户。 另一个选择是使用SaySpring等原型软件来创建和测试交互式原型。

    如果您的语音应用程序是使用代码模板(如我们的应用程序)构建的,那么创建应用程序后使用AmazonGoogle提供的测试工具在Skill开发空间内测试(如下),或者使用真实设备的测试模式进行测试可能会更容易一些。

    image
    image

    这个测试会给你一个像现实世界中的语音体验一样的良好感觉,还包括错误处理,重复响应,以及不自然的,强迫的或机械似的回复。

开发

现在语音体验已经设计好了,是时候进入构建测试提交阶段了。每个平台都有详细的指南和教程,以帮助任何人建立和测试Skill,包括Alexa技能套件为Google开发的Actions,以及支持Alexa Skill代码重用的Cortana

考虑一下你的反馈机制,完善的分析将有助于了解语音应用的使用情况。在你的开发者帐户内,你可以获取到Skill的各项指标(用户,会话,发音,意图),并且不需任何额外的编码,你还可以通过使用如VoiceLabs(我没法让它运行起来,可能是由于我缺乏编码经验或缺少VoiceLabs for Dummies设置指南)这样的免费服务,获取到先进的分析方法。

在你的语音应用完成构建和测试后,最后一步是便捷的提交过程。由于Alexa Skill市场迅速增长,发现新的和有用的应用变得越来越困难。在亚马逊改进之前,使用语音应用列表中的可见元素来帮助用户找到并使用你的Skill,包括吸引人的Skill图标,相关的名称和说明。

本篇文章的示例Skill可以在亚马逊Alexa Skill商店:UX设计测验获取并试用。

指导原则

以下是设计语音体验的一些指导原则。 亚马逊谷歌提供了更多的原则来详细的指出哪些该做哪些不该做。

  • 引导并帮助用户开始使用

    介绍应用程序以及用户可以使用的方式。

    欢迎来到UX设计测验。 我会问你关于用户体验设计的五个问题,看你有多少正确的。 如果您需要,您可以要求我重复提问或暂停。 你想开始一个新的测验吗?

  • 保持对话交流简洁,以减少认知负荷。

    在通过语音用户界面与语音应用交互时,人们使用的都是他们的短期记忆。所以,让对话保持简洁而亲切。

  • 例子比说明更有效

    • 说明:“请以年/月/日的格式说出您的出生日期。
    • 例子:“请说出您的出生日期,如1990年4月15日。”
  • 不干扰当前任务

    这是一种取舍。 如果出现太多的干扰,很快就会让人厌烦。例如有些操作不需要每次都让用户二次确认。

  • 对于重要的操作要加入显式的确认操作,这可以降低隐性风险。

    如果您要求Alexa关闭灯光,您可以发现这不需要口头确认,然而有些时候她却需要通过简短的“OK”指令来确认您的要求。

  • 考虑出错情况下的设计

    事情是会出错的:对这些场景进行设计。 这包括难以理解的问题或信息、不完整的信息、沉默或无法处理的请求等情况,承认它,并给予用户选项以恢复任务。

  • 尊重用户的隐私安全

    Amazon Skill 的安全条款

结语

无论何时你正试图与人交往,你都必须将人视为非常先进的操作系统。 你的最高目标是试图模仿他们。
--K.K Barrett,电影《她》的艺术指导,写于2014

如果你还没有看过她的电影,花几个小时看这部关于一个孤独的作家谁发展与操作系统的关系的未来派电影。 虽然是科幻小说,但在当今世界,随着采用独立的语音驱动设备(如Amazon Echo家族和Google Home),语音体验正在不断增加。 开发一个语音应用程序是一个相对简单的,模板驱动的过程,由亚马逊和谷歌提供的类似于IKEA的说明,试图建立他们的平台。 虽然跳入开发可能是诱人的,但良好的语音用户体验不会发生, 必须按照本文所述的步骤进行设计。

欢迎在评论区与大家分享您的想法、观点和资源。

引用

AI工具平台

语音语调

短语和方言

原型和测试

报告、书以及电影