您的位置:首页 > 女性

语音交互设计探究——以车载场景为例

时间:2019-08-21

本文以车辆场景为例,分析了语音交互设计过程,原理和设计演练。

8a8160be4ebbf5911da0e9b687df4fe6.jpeg

从Siri,亚马逊回应Alexa,谷歌回家,小冰,国内叮咚,天猫精灵,小爱同学和你听过的各种事情,我从未听说过。但是,随着技术的进步,语音交互将应用于越来越多的场景:

2017年5月10日,Microsoft Build Conference发布了智能扬声器Invoke。 2017年6月6日,Apple WWDC发布了HomePod。 2017年7月5日上午10点,百度AI开发者大会当天发布了DureOS开放平台。下午2点,阿里人工智能实验室发布了天猫精灵。 2018年1月,百度DuerOS在2018年国际消费电子展上亮相.

驾驶汽车是一项复杂的行为,良好的驾驶体验需要驾驶场景中的各种因素。全自动驾驶的时代即将来临。当汽车能够实现全自动驾驶时,汽车驾驶场景的概念将被完全颠覆 - 也许我们应该关注如何在驾驶过程中设计娱乐服务,或者将驾驶室设计为驾驶员的工作台。必须说到目前为止车辆中央控制系统的经验还不是很好。在完全自动驾驶时代到来之前,车辆中央控制系统的体验设计仍有很大的空间。

一,基本概念

车辆场景中的语音交互(以下称为VUI)追求驾驶员的体验,减轻甚至消除驾驶过程引起的焦虑。汽车VUI设计的基本思路如下:

安全性:驾驶过程几乎是一种多任务操作,其中眼睛,耳朵和手是平行的。 VUI应该帮助驾驶员和汽车产品更好地互动,而不会分散驾驶员的注意力。方便性:每个VUI交互都方便快捷,打破了语音交互的心理障碍,快速响应,简单的过程,清晰的路径,以及每个任务最少的对话轮次。快乐:愉快的声音和表达,自然的对话和沟通,顺利完成每项任务,明智地避免对话错误,并实现“合理,意外”的领域。

二,设计过程

语音交互的设计需要模拟真实的对话场景,并根据场景编写对话并建立交互式逻辑流程。最后,通过研究,定义更全面的表达方式,以实现更自然,更合理的语音交互体验。

2.1使用?【胺治?

VUI应用场景包括移动助手(由Siri,Google智能助理代表),智能家居(由Amazon Echo和Google Home代表),汽车产品(由Carplay和Android Auto代表)和可穿戴设备(使用AirPods),Apple Watch是代表)和其他领域。

081f0dd6d8af2da7b1b03feaace7ebf3.jpeg

语音交互场景主要从三个方面进行分析:物理距离,行为特征和用户目标:

物理距离:交互过程中用户与语音产品之间的距离。根据近远关系可分为“近场”,“中场”和“远场”。

近场互动:如灵溪/Siri;手持设备,短距离输入语音,反馈接口;唤醒模式一般是屏幕点击或长按,也有语音唤醒的情况。中场互动:如车上;不需要手持设备,在可达到的距离,反馈接口;唤醒模式大多是语音,也可以使用手势;因为距离,你需要使用麦克风阵列来实现良好的无线电接收。远场互动:如Echo;没有手持设备,没有距离,没有反馈接口;唤醒模式是语音;由于距离较远,有必要通过麦克风阵列实现良好的无线电接收。

行为特征:当用户从事语音交互时,他们可能正在做家务,开车或不做任何事情;在这里,他们可以分为“专注于语音互动”和“专注于其他事物”。

专注于语音交互:通常发生在近场交互的情况下;用户手持设备,视线专注于界面,耳朵专注于语音反馈。专注于其他事情:一般发生在中场,远场交互场景;用户在处理其他任务时,如驾驶,烹饪等,手和视线可能被其他东西占用,如何让用户以最低的成本完成语音任务是设计的重点。

用户目标:每个用户的语音交互的目的可能只是随意聊天或有目的的任务指令。

聊天风格:像Siri一样,目的不强,对乐趣的需求也更高。任务风格:这种对话,用户需要尽快得到他们想要的反馈,快速完成任务,清晰简洁的反馈是最重要的。

车辆环境的语音交互属于“中场”,“关注其他事物”和“任务类型”的交互场景,在设计过程中应遵循这些场景特征。

2.2构建用户故事

通过在驾驶场景中使用车载产品的用户访谈和问卷调查,我们了解用户在驾驶过程中想要完成的任务;并结合他们的优势和劣势,以及外部市场的机遇和威胁,建立产品技能领域,如导航,音乐,广播,电话等。

围绕这些核心功能,主要场景设置为描述用户在使用现有汽车产品时遇到的行为习惯和问题,最后提取痛点,找到解决方案,并找到适合VUI的场景。解决这个问题。用户故事地图的框架如图2-5所示:

da1608688180ad6f78d005c20b321e6e.jpeg

适合VUI的场景通常更简单,更直观,并且不需要太复杂的交互。例如:你正在高速公路上开车。您需要拨打紧急电话,但手动操作电话并不方便.此时,用户希望从技能和操作中获得帮助。它将是VUI的基础和价值。创建类似用户故事有以下方法和原则:

确认目的和功能:构建一个或多个情境,让用户感觉您的技能是有用的并且有使用的冲动。通过分析以下问题可以确定确定技能的能力:

技能的目的是什么?为什么用户想要使用它?用户在互动之前,期间和之后做了什么?用户可以通过此功能获得哪些其他产品无法使用的功能?

创建用户故事:根据技能的目的和基本功能点识别每个交互节点

用户可以使用此技能做什么?什么都不能?用户想要获得哪些信息?用户如何使用此技能?

2.3设计听觉图像

角色肖像可以帮助您设计和编写UI对话,因此请确保尽早识别它们,以便您可以更轻松地制作正确的单词,语法和句子结构。人工智能使机器具有拟人声音输出的能力,带来声音设计材料。不同的声音给用户带来不同的感觉。低沉的声音给人一种“稳定,成熟”的感觉,结束语的声音给人一种“快乐,尊重”的感觉。需要为VUI产品提供听觉图像。以下是听觉图像设计的一些过程和方法。

设计流程:声音是看不见的。在声像的设计中,“语音基本图像”设计者必须首先基于语音基本图像执行特定的VUI设计。

定义图像:听觉图像实际上与真人相同。它具有名称,性别,年龄,职业和个性的特征。它还具有声音的感觉,如柔和友好,形式和磁性,以及其他主观感受,以及更客观的音调。声音强度,声音长度,音质几个属性。不同的声音将被赋予不同的图像特征,并且将根据内容/产品气质/品牌视觉来定义产品的“听觉图像”。选择:转到语音库并选择带有定义的听觉图像的语音片段。例如,如果要产生的听觉图像是“沧桑”,你可以选择山天芳老师的一些语音片段。培训:将大量语音片段移交给技术人员进行语音合成培训。微调:通过调整“音调,速度,节奏”使用户感觉更接近先前定义的“听觉图像”。

设计原则:

与“品牌情感”保持一致:设计师需要通过视觉设计中的“颜色,形状”等设计元素来支持品牌情感,并遵循大公司所需的每种产品的一致设计规范。在“音频图像”设计时代,当您的产品使用语音交互时,确保产品的“听觉形象”与品牌的情感一致,这将加强品牌对用户的印象。与“用户场景”保持一致:在机场召回“乘客飞往北京T343 .”的声音。该语音图像给予用户“服务和尊重”的感觉。机场的场景是一致的。在医院,至少在中国的医院,医疗资源和患者数量极不匹配。患者和医生更像是“帮助关系”,而不是“服务关系”。使用太“服务”的语音图像会给用户带来强烈的差异感。保持与“内容”的一致性:“内容”本身具有图像属性,如第二个元素的新闻,如果与粗糙的男孩一起阅读,那将是非常非法的。因此,在内容消费设计中,我们必须充分考虑语音内容以匹配“听觉图像”,以避免违规感。但是,在设计工具类产品时,请不要频繁更改语音图像,这会分散用户的注意力并降低效率。

2.4编写会话脚本

在确定技能范围和用户故事后,不要立即启动逻辑设计。对话应该是自然而多样的。使用刚性逻辑将语音设备与用户的场景线连接显然是不合理的。因此,您需要列举一些可能的场景,考虑意外情况,草稿对话草案,甚至找到真实的人来模拟场景对话,尽量覆盖每一种情况。下图是一些会话写作的例子:

f23bcc38e4a42aae09c8e167e15f2839.jpeg

对话脚本的编写可以帮助我们挖掘一些容易被忽视的细节。如何反馈和引导对话也是VUI设计的重点和难点。稍后将详细解释反馈设计的原理和方法。

2.5建立交互框架和流程

为了建立VUI的框架和逻辑,我们首先需要了解人的对话框,匹配人机交互的对话场景,建立反馈模式;然后,逻辑流程围绕用户的意图和系统的每个决策节点构建。建立。

交互式框架:想象一下,如果你想要有人放一些音乐,这个对话的交互节点是什么,它先叫他的名字,另一方听到你回答“什么?”,然后你可以继续说你的要求.我们将提取交互式节点,如下所示:

2d5afbd9299209d43166250211d50225.jpeg

图2-7对话框

(1)醒来

“唤醒”是技能的触发动作。目前,主要的唤醒方法有以下三种类型的C实体按钮,虚拟按钮和语音唤醒。如图2-8所示,每种唤醒方法都有自己的特点。在车辆环境中,通常使用按钮。 +语音的多种唤醒方法。同时,醒来后有很多形式的反馈。具有显示屏的设备可以具有诸如运动效果和文本之类的反馈。没有屏幕,可以有反馈,如灯光,声音效果和人声。不同反馈方法的舒适度和响应时间密切相关,如图2-9所示。

4ab5ab4f70451b54772137088b7e6a02.jpeg

图2-8唤醒方法

1a8692b784951a5d5073620968178156.jpeg

图2-9唤醒反馈模式和响应时间舒适度曲线

(2)输入

设备是否接收到用户输入的语音内容也是用户关注的问题,并且应该与反馈设计中的当前场景匹配并且不是令人反感的。具有显示屏的设备可以具有诸如动画和文本之类的反馈;如果没有屏幕,则可以有反馈,例如照明(输入用户时不会受到用户的干扰);没有反馈。

图2-10输入时的反馈

(3)理解

“理解”是机器识别,解析语音内容,解决答案然后生成语音的过程;它也是机器的认知过程。这个过程可能需要很长时间,重点是消除用户等待的焦虑和不确定性。具有显示屏的设备可以具有诸如运动和文本之类的反馈。如果没有屏幕,可以有反馈,如灯光,音效和人声,如图2-11所示。不同反馈方法的舒适度和响应时间密切相关,如图2-12所示。

e9528de362ef0e4b0376441866b0a202.jpeg

图2-10理解时的反馈

3a2ab08ff7c7a1aff89368ddfd952b5b.jpeg

图2-12了解反馈模式和响应时间舒适度曲线

(4)反馈

这里语音交互过程中最重要的部分,除了允许用户获得他们想要的反馈之外,还应该允许用户轻松,自然和有效地接收反馈。下表显示了基于不同置信度的反馈的类型和应用场景。

abf8c5db9b11099ef0673f83281274eb.jpeg

(5)端点检测

因为此端点检测是描述计算机何时开始和结束语音的一种方式。当用户在讲话时暂停时,语音引擎在检测到用户暂停多长时间后开始识别。暂停5秒是合适的经验值;如果它很短,用户将在结束讲话前被切断;如果它很长,用户将怀疑系统。你听到了吗在用户唤醒语音并且不说话之后,语音引擎在检测到用户不说话多长时间后直接退出语音识别。没有说话的10秒是合适的经验值。

指令,机器都需要判断并做出最佳响应,并允许指令的多样化表达;几乎所有机器操作都可以被允许用户“取消”,“纠正”,“催促”,“返回上一步”,“中断”,“请求重复”,“其他类型的指令”,无关信息或保持沉默。每当用户的语音指令跟随决策节点时,就围绕用户的意图和机器的决策节点开始建立交互逻辑,如图2-13所示。

47ffe1dd86dda453d225380b3f81ad86.jpeg

图2-13交互过程建立

2.6定义intent,expression和slot

这里的分析就是用户所说的。这些内容的语音结构可以概括为“觉醒词+意图表达+槽”,如图2-14所示。

图2-14语言结构

意图:代表你技能的能力;例如,导航技能可能包含五个意图:设置目的地,显示路线,解释道路,取消和退出。

表达:用户说出表达意图的词语,包括大量的单词,短语和句子。例如,在表达导航意图时,用户可以说“帮我导航”,“导航到Keda Xunfei”或“我想导航”等。这些表达式被分类到有意的表达式库中,如图2所示。 15.

7ad317b5421091fc9550f52f73fb2d20.jpeg

图2-15意向表达库示例

Slot:指定义某些意图的关键信息类别,如“导航到Keda Xunfei” - “Ke Da Xunfei”是一个地址名称。我们对不同属性的信息进行分类,如图2-16所示。每个类别类别的信息都有自己的库,例如城市名称库,日期库等。

8afd2ad3c3df28d5fceae431651ad680.jpeg

图2-16意图表达库示例

三,设计原则

语音设备需要在自然对话中感知,识别和输出自然语言。在VUI设计过程中必须遵循以下原则。

3.1保持简单

“简单”中文的定义意味着简洁明了,没有额外的内容。尊重用户的时间,提供简单的反馈语言,反馈界面(如果有屏幕)和完成任务的最短路径,不要妨碍用户。

简单的反馈:用户可以轻松了解机器的说法,同时感觉舒适。语言内容太长会使用户难以掌握关键点并且难以记住。以下是保持语言简单的一些方法:

一次呼气测试:对于没有逗号分隔的单个句子,如果句子可以以正常会话的速度读出,则长度是合适的。如果您需要通风,请考虑精简。避免重复:带屏幕的设备应避免在屏幕上显示信息并完全重复语音内容。图形界面应提供比语音更多的信息,并使用视觉反馈来帮助用户更快地完成任务。插槽号控制:对于包含多插槽信息的语句,用户可以很好地接受和理解插槽的数量。这可以招募一定数量的用户进行测试。通常,插槽的数量不超过三个。

愉快的路径:完成任务的路径是最短的,并且还准备了其他替代路径,因为用户可能不会立即提供所有必要的信息。

3.2保证清楚

“清除”意味着表达清晰明确,因此听众可以不加思索地理解它。为了确保表达清晰,有以下几种方法。

开放式问题可能会使用户感到困惑或导致用户以您不期望或不支持的方式回答问题。例如,问“你喜欢什么?”太开放了。即使像“香蕉或苹果”这样的问题也可能有“是”的回答。

提供明确的选择:不要提出你无法回答的问题,让用户纠结于如何回答,尤其是在汽车现场,一定要避免长期思考。以来电为例,机器可以询问“接听还是挂机?”。

一个明确的说法:不要说暧昧的话,让用户有疑虑。例如,“呼唤你”比“我可能正在呼唤”更明确。

3.3自然沟通

鼓励用户自然地表达自己,同时机器也提供自然反馈,以便通过以下方法进行对话更自然。

用户的自然表达:同一意图包含多个表达式,并且有必要支持在语音交互中识别更多表达式,以便用户可以自然地表达。

来自机器的自然反馈:不要告诉用户说什么,或者甚至一次教一个用户一个句子;尽量不要使用难以理解的技术术语;增加相同意义的表达丰富度,减少力学感。

3.4促进对话

在语音交互的过程中,机器需要促进对话以推进对话,通常采用以下方法。

用户指导:一般用于新手指导,告知用户功能范围。

明确提问可以指导用户下一步怎么说,同时也准备用户回答问题。

首先,回答:当用户回答的信息不完整时,有时可以主动地为用户做出选择以在允许用户改变的同时推进任务。

3.5上下文

VUI设计还应尽可能利用用户的上下文,了解对话的上下文(上下文),并具有用户上下文感知(例如用户的位置,用户是否第一次使用它)等)。

记忆上下文:多轮对话并记住上下文,例如“今天的天气怎么样?” - “明天?”,机器需要知道用户明天要问天气。这是使用一些省略的表达式和代词来支持用户。

情境意识:考虑用户所处的情况。例如,如果用户已经知道如何使用产品,则不再需要反复向用户提供一些帮助和指导,除非用户启动它。

3.6轮流说话

VUI设计也应该以用户为中心。当轮到用户说话时,不要急于打断。用户可以在机器通话时中断。

3.7有意识地引导用户注意

听觉输出是时间线性的并且难以记忆,但我们经常可以记住句子的结尾,这是听觉类别的“近似效应”,因此我们通常将关键信息放在最后。例如,“导航到天府广场,全程28.2公里,预计需要30分钟”,记得最清楚的基本上是“30分钟”。

3.8将“错误”转变为对话UI的自然部分

件。如果您只进行一些简单和机械处理,将导致用户对产品产生很大疑虑。以下是一些处理错误的方法。

分类处理错误:对错误类型进行分类并使用不同的反馈策略:

没有获得任何输入:也许用户没有说什么,也许系统根本没有检测到它,并且这种情况不需要任何反馈。获取信息但无法识别:这可能是由背景噪音或多个用户引起的。如果没有连续的背景,你可以采取一般提示“你说什么?”,“我没有听到它”或“再说一遍”;如果有一个连续的上下文,你可以根据具体内容提示,例如“你选择的前几个”,我没有听到它是前几个“等等。用户输入被识别,但没有处理能力:这种情况需要通知用户并给出一些提示。例如,“我不会,但我可以.”错误识别信息并具有处理能力:在这种情况下,我可以重复错误的识别结构并询问用户。例如,如果用户正在谈论听音乐,但是机器将其识别为电话,则可以询问用户“你在打电话吗?”

及时帮助:当用户感到困惑,不理解,不理解,或不知道该说些什么时,他可以提供帮助。例如,如果用户说“我不理解它”,那么机器可以重复它之前所说的内容;它也可能会说“帮助”或“我不知道”。

第四,设计散步

完成VUI设计后,您如何知道自己是否做得对?以下是一些简单的测试方法:

自己阅读:完成一系列对话后,您可以找到一个单独的空间来阅读它们,因为您可能会用书面语言编写对话,因此通过阅读每个对话,您可以找到不恰当的表达方式。本地。找人练习:找到团队外的人,按照设计的VUI与他们进行对话练习。多次测试该过程,您应该能够找到一些问题,例如难以完成的对话任务,或者听众在用户与语音交互的场景中的感受。之后,您还可以收集一些主观反馈,例如他们被卡住的地方以及他们感到不舒服的地方。使用模拟器检查:如“Google的在线模拟器”,输入对话文本,让系统运行读取。您还可以使用Xunfei的AIUI平台查看建筑技能后的效果。完成这项工作后,您将逐渐发现自己将越来越有能力掌握写作对话的技巧。

除了上述一些测试方法之外,以下清单还为您提供了一种快速检查方法,可帮助您确保产品在上线前准备就绪:

87da4c708221dedf17a27615460c1f31.jpeg

最后,VUI不再局限于手机。它已经扩展到智能家居,汽车,可穿戴设备甚至更多。不同的场景和设备有自己的属性和功能。 VUI体验设计还需要符合相应的场景和设备。然而,所有体验设计的核心目标是易用性和乐趣。

参考内容

[1] Google对话互动规范指南

[2]亚马逊Alexa语音交互设计

本文最初由

日期归档
  • 友情链接:
  • 胜博发339手机官网 | 诚博娱乐网站 | bt365官网亚洲版 | bbin平台大全 | 必发88手机客户端 | 金百利娱乐

    mg平台注册 版权所有© www.ianhalepoetry.com 技术支持:mg平台注册| 网站地图