上篇文章中我们分析了在APP内唤醒语音搜索的设计细节,包括入口、唤醒方式等,接下来我将继续分析在后续的输入、识别、执行阶段中,视觉界面与语音交互如何协同配合,完成搜索任务。
「第一步:唤醒」传送门:
第二步:输入
输入是语音搜索的核心交互阶段,在这个阶段中用户说出搜索内容、设备进行录入。为了让用户学习、适应语音交互的模式,用说话代替键盘打字,并在交互过程中有掌控感和信任感、避免操作误区,开关控制、提示引导、状态反馈的设计都十分重要。
1-开关控制
开关控制在上篇的唤醒方式中已经有所说明,由于大多数APP中,入口icon或按钮即为语音录入的开关,所以开关控制方式同唤醒方式一致,主要有点击、长按两种方式,如下图所示:
如上图的两个例子:
第一种是喜马拉雅APP采用的以点击为主的交互:点击开始、再次点击或长时间无语音输入时关闭的方式,控制感强,但操作步骤较多、用户难以感知多长时间无语音输入会关闭收录声音;
第二种是京东采用的长按开始、松手时关闭的输入方式,虽然用户有长按发送微信语音的习惯基础,但容易误操作、且操作过程中会对屏幕信息有所遮挡。
不少APP将两种方式进行了有机的结合。
2-提示引导
许多用户可能因为过往不太美好的语音交互经历,而对语音搜索有所戒备或怀疑。简单明了的提示引导可以消除用户的心理障碍,对语音搜索功能建立一定的信任。
提示引导主要包括对开关方式和表述方式的说明。
开关方式,即如何操作控制开始、结束。根据入口或按钮位置的不同,可以有不同的提示方式。如下图所示:
上图中,百度地图APP的入口在搜索框内,使用了气泡进行提示。类似的还有按钮在搜索框附近或者主导航中时,也可以采用气泡或者蒙层引导的形式进行提示。类似上图中京东APP中的按钮在键盘上、喜马拉雅APP的按钮在页面下方的情况,可在按钮上或按钮附近提示操作方式。
注意事项:长按开始录音时,按住屏幕的手部对屏幕会有一定的遮挡,提示的文字、图形的位置应适当远离点按区域。
对表述方式的引导提示主要是输入时可以说什么、怎么说的文字或符号。
目前大多数用户仍在语音搜索的学习探索阶段,怎么说、说什么的提示建议对用户会很受用。一方面可以让用户学习用怎样的语言描述可以简单直接地完成搜索任务、规避一些操作误区;另一方面也可以填充常用、热门搜索等运营内容,吸引用户尝试使用语音搜索。
语音搜索组件的形式不同时,语音输入提示的形式、数量也不完全相同,如下图所示:
语音搜索模块以气泡或弹窗形式承载时,如上图中的百度地图APP,页面空间有限,通常以一条文字的形式进行提示。
而像上图中的支付宝APP,在单独的页面进行语音搜索,有充足的页面空间,可以采用平铺标签、卡片,甚至详情页来说明如何用语音搜索。
3-状态反馈
对于语音录入这个看不见摸不着的过程,手机有没有在记录声音、音量大小是否合适等状态都需要视觉界面进行反馈。输入过程中一般有这几种形式的状态反馈:
· 最常见的是伴随音量大小变化而变化的麦克风、声波等。动效的节奏、速率变化的呼吸感,可以展现语音交互的可控感、智能感、趣味性等等。例如:
上图中随音量大小而膨胀或缩小的同心圆气泡、随声波而流动起伏的波浪声波线、横型或竖型的声波线,都是不错的尝试。
其中,搜狗搜索采用的竖线型声波波动起来的示意性最强,可以带来沉浸的感受,也最贴合人们对声波的心理模型,是较优的方案。
· 开关按钮的颜色等样式变换。
· 开关按钮附近的文字提示,如点击按钮开始录音后,提示文字变为“点击结束”,可以作为反馈表示目前正在进行录音。
· 在语音搜索模块中显示的反馈文字,如“请说,我在聆听…”等类似的文字,拟人化地表示手机正在收录声音。
· 机器人、产品卡通形象或其他象征的动画,如下图所示:
图例中,喜马拉雅APP使用了产品形象“小雅”,夸克APP中眨眼睛的“夸克宝宝”,百度地图的小度,都通过动画反馈录音中的状态,体现了语音交互的AI感,以及模拟真实对话的感觉。
· 音效反馈,语音输入开始、结束时设定特定的反馈音效,提示直接明了,而且可以维持语音、听觉通道交互的完整性。
· 震动反馈。
除了上述这些反馈方式,还可以探索趣味化、故事化的表现方式,有望提升语音交互的智能感、自然感、趣味性,从而彰显品牌风格、提升用户黏度。
除了在输入过程中的状态反馈,在操作出错、音量过小无法识别时,都要进行必要的状态反馈。如下图所示:
如上图的淘宝和搜狗搜索APP中输入识别失败情况下的页面设计,在未检测到或未识别出说话内容时,提示错误情况“未能识别”、“抱歉我没听清”,以及后续操作“请点击麦克风重试”、“请再说一遍”,并且给出语音搜索的内容提示“你可以试试这样说”、“我可以帮你做这些事”。
让用户在操作出错时可以清晰地明白错误原因、明确当前状态、学习如何操作。
第三步:识别
语音搜索的第三步是识别用户说的话,将其转化为文字,并在页面上展示给用户。过程中,可以根据算法进行一定的修正,调整无意义或有误文字内容。
通过设计 「识别」 过程中的上屏方式、修正方式,可以体现语音输入的快速、轻便、高效、容易把控等。
1-上屏方式
识别内容显示到屏幕上时,应尽量做到快、实时、流畅。逐字上屏通常是在输入语音内容的同时进行识别、逐个字上屏,逐句上屏通常是在语音内容输入完成后识别、识别修正出完整的一句话之后再显示到屏幕上。
· 逐字上屏
+ 优势:实时反馈、有可控感、体验快
– 劣势:会展示给用户原始的识别结果,如果结果文字是错误的也会先展示出来、再进行修正
· 建议:通过输入文字的透明度或颜色等样式变化,体现出正在识别或修正文字的动态过程,尽量引导用户着重关注成功输入的文字,忽视识别、修正中的错误文字。如下图所示:
如图中的搜狗搜索APP,将识别或修正中的内容用半透明的文字显示,以体现动态识别修正的过程。有错不要紧,只要能及时认识到错误并改正,还是好同志嘛。
技术水平足以保证处理时长和准确性的产品,可以选择逐词上屏的方案,并对上屏文字的颜色、透明度进行调整以表示输入、修正中的状态。
· 逐句上屏
+ 优势:可以一步到位,展示最终确定的结果
– 劣势:用户感知到的识别速度较慢,控制感差
· 建议:若识别时间较长,应加入“识别中”的动效,如下图所示:
京东和美团APP中,采用逐句识别的方式,识别时间较长,会出现识别中的动效,将系统状态反馈给用户,让用户有充足的掌控感。
因技术水平限制,处理速度较慢、识别修正耗时较长的产品,建议在输入的过程中同步在后台识别修正、最终只展示整段搜索关键词上屏,识别处理过程中前台页面可以展示识别中的动效。
2-修正方式
语音搜索时输入的内容长度较短,绝大多数APP中会对识别的内容进行自动修正,不可手动修正。修正的开始时机有边识别边修正、全部内容识别完开始修正两种方案。识别和修正的结束通常根据算法计算情况决定,计算结束后停止识别修正,用户无法、也不应手动结束。
例如用户长按按钮输入时,系统边录入边识别边修正;用户松开按钮停止讲话,此时不意味着系统要结束识别修正,系统应在识别修正完成后再执行下一步。(有的线上APP对结束识别修正的边界判断有误)
不同产品在修正阶段应根据自身产品内容策略,制定修正依据:
· 常规的专有名词
· 用户本机数据,如通讯录名称等
· APP自身的本地数据,如关注的公众号名称等
· 根据APP场景定义,如地名、商品名、APP的功能等
· 学习用户的输入习惯
第四步:执行
完成搜索词的识别修正后,就进入了执行阶段。针对不同的产品类型、搜索词类型,执行可分为执行搜索、跳转至功能专区、给出操作提示等不同解决方案。
· 针对社交类、内容类、电商类、工具类应用等,搜索词为聊天记录、地点、影视剧、商品等时,应直接用识别得到的关键词执行搜索操作,展示搜索结果页面;
· 针对功能模块或活动专区等搜索词,如在京东中搜索“5G”,可以在识别完成后直接进入对应的功能专区;
· 在有多轮对话能力的语音搜索模块中,针对任务操作指令,如在支付宝中发红包、飞猪中订机票,识别出关键词后,可以通过文字、语音、列表等确认用户意图或给出下一步的操作提示,如下图所示:
· 另外,对于语义识别后的无意义、与产品功能无关的话语,可以进行聊天式的回应、内容推荐等。
但一定要在成熟的语义识别算法的基础上进行多轮对话、聊天的尝试,否则很容易损失产品的可用性、丧失用户的信任感,这对语音交互的推广是极其不利的。
划重点
· 在入口、按钮周围增加明确的操作提示,尽可能地利用语音搜索组件的页面空间或气泡等引导形式说明语音交互的过程中可以怎么说、说什么,打消用户的心理障碍,让用户愿意学习使用;
· 在输入、识别的过程中实时反馈,对不同操作状态加以示意,通过动效、透明度等样式变化展示语音输入快速、准确的效果,以体现系统的智能、可控。其中竖型声波线展示有声音输入、识别内容逐字上屏都是比较不错的反馈方案;
· 执行过程中,要充分利用语义识别算法,对于明确的内容,直接执行搜索;对于未匹配的内容或仍需后续操作的内容,给用户提出明确的操作建议。
如果公司的技术能力与产品规划允许,可以为语音搜索模块设定一定的角色形象,气质风格等,相关的状态反馈动效、话术等都可与其紧密联系。
参考引文
《语音交互体验蓝皮书》http://1t.click/aGMJ
本文来自:海盐社 作者:海盐社
评论0