不就是「你说我做」吗！可要做好语音交互为什么这么难？

对于近些年上市的新车来说，车内语音交互已经是标配的功能了。据相关数据显示，截至 2021 年，中国乘用车智能语音交互功能的搭载率高达 86%。

可就是这样一项看似基础的能力，车厂想要把它的体验做好却也并不容易。

作为智能汽车的用户，在使用车机语音时，以下的尴尬场景大概率你是碰到过的，我们编了一组顺口溜：

跨域指令成难题，响应贼慢遭嫌弃；

下达指令要唤醒，一直加载等出病；

识别错误成常态，还没小音箱厉害；

多人说话就混乱，你说奇怪不奇怪。

……

正是由于以上种种不完善甚至是糟糕的体验，很多消费者把那些不好用的语音助手戏称为「人工智障」。作为当下座舱与人最直接的交流窗口，某种程度上车内智能语音的体验几乎已经成为 C 端评判智能汽车是否「智能」的重要标准之一。

因此，做好语音交互逐渐成为了主流车厂的必修课。

语音交互体验不佳的「症结」

语音交互，顾名思义就是通过人下达的语音指令，让机器作出对应的反馈，它可以是回答问题，也可以是执行动作。

比如：

「今天的天气怎么样？」

「导航去天安门」

「把空调打到 20 ℃」

……

它基本的技术逻辑链条并不难理解，无非是唤醒—语音识别—自然语音处理—语音合成。可是，只要其中的某一环做得不够好，那么体验打上折扣。

尤其是车内场景不同于居家，它首先不能过多地转移驾驶者的注意力、再者车内环境相对嘈杂，尤其是多乘员的情况下不被干扰、最后是执行的功能深度，这也考验车辆的底层打通能力。

如果把前文提到的糟糕体验转换成技术语言，那么大致可以分为以下几项痛点：

1、连续对话：用户需要一遍又一遍的唤醒语音，而且需要语音系统播报完成并且处理完上个指令后，用户才能下达下一个指令。

2、自由对话：用户指令需要刻意记住关键词才能识别，考验用户的记忆力；

3、音区锁定：一人开口，其他人都要「闭嘴」，如果车上有熊孩子在一旁捣乱，往往会导致语音无法正常识别用户指令；

4、并行多意图：一个指令成功执行之后，用户才能下发下一个指令，用户需要耐心等待。

也就是说，只有做好以上四点，才能确保语音交互系统的体验感。

长城 Coffee OS 2 给出的「解药」

带着上面提到的几个痛点，我们深度体验了长城最新推出的 Coffee OS 2，它的表现可以说是让人印象深刻。总结为几个关键词就是实用、高效、聪明。

文章篇幅有限，体验的过程我们暂时按下不表，我们重点来看一看长城究竟是如何从技术角度解决业内这些普遍存在的技术难题的。

对此， Coffee OS 2 给出了四项关键的功能指标：

瞬间响应：系统唤醒速度做到了 250 毫秒，已经远超行业第一梯队 300-350 毫秒的平均速度，毫秒级的响应速度也同样秒杀行业第一梯队 1-1.5 秒的平均速度；

多领域多意图指令精准识别执行：系统支持一句话包含多领域十意图复杂口令；

后排抑制：通过多音区声源定位，后排闲聊不影响前排语音交互，大大降低语音控制误报、漏报率；

语音车控：系统具备超强的上下文理解和泛化理解能力，极限逼近真实口语习惯。

那么，长城 Coffee OS 2 究竟是如何做到「又快又准」的呢？相关专家给我们进行了解惑。

一、唤醒速度

Coffee OS 2 采用了低帧率低延时的深度学习模型，搭配唤醒快出逻辑策略，在保障唤醒性能的情况下，尽可能的减少了计算量与本地解码网络延时。

1、唤醒模型采用 DNN 神经网络模型，减少特征提取对缓存音频的帧数，从而提升响应速度，唤醒模型响应时间 150ms；

2、采用 tts 离线固化音频，替换在线请求合成，并减少空帧时间，优化 audiotrack 音频播放逻辑，减少音频播放切换延时，整体上层音频链路优化至 100ms 响应时间；

二、响应速度

1、Coffee OS 2 实现了识别语义联合建模，流式语义解析引擎采用基于深度神经网络的机器学习模型和自动机规则解析引擎结合的方式，将「领域分类」的时机大幅提前，将「提取槽位」的动作提前，这样大大降低语义解析的时间在流式语音识别输出结果的同时，可以输出流式语义解析的命令结果，实现边说边执行，提升响应速度。

2、常用识别文本建立预测模型，做到话未说完，语义提前 ready，比如说「今天」，可预测「天气」、「股票」、「航班」等技能。

三、多意图并行

业内常用规则模型，只能实现一句一意图的理解能力，长城创新性地将大规模预训练语言模型和递归子句解析算法相结合，少量样本，训练复杂模型，实现了单意图到多意图的理解技术革新，极大提升了多意图理解的句准率，并结合模型解码深度递归子句算法，实现并行多意图，使得能够颠覆业界传统的一问一答式机器理解。

例如，「打开车窗，打开后视镜」可以将后视镜进行分词提取，在车控技能里面进行递归执行，实现多指令并行实现能力。

四、可见即可说

1、极速可见即可说采用本地热词的方案，声学模型共享，不同的场景热词可独立注册为一个识别解析解码网络，也可根据不同场景配置不同，动态插槽，解码快，响应快。

2、自动分词以及自动泛化技术，提升文本选中概率。

五、连续对话

在连续对话的能力上，Coffee OS 2 的设定是 30s 内识别常开，自主选择 15s、20s、30s 延时聆听。专家着重阐述了背后的拒识逻辑，所谓「拒识」指的就是用户在与车机进行连续对话时不被干扰。对此，Coffee OS 2 设置了三重「关卡」：

第一重识别拒识，拒识背景噪声；

第二重利用统计语义结合规则语义分类解析，拒识背景人声以及跟产品无关的说法。

第三重基于深度学习的多因子策略非交互语音拒识模型，拒识非人机交互说法或杂乱说法。

结语

针对车载语音交互上的种种体验问题，长城 Coffee OS 2 能够给出「解药」的背后并非偶然，这依赖从车端到云端一套完整的体系能力。

Coffee OS 2 的技术专家说:「长城技术产品架构布局自研能力，端云已完成自研架构，底层算法深度参与模型精细化定制，端到端实现语音每个模块性能，并采用敏捷开发方式，来快速解决用户核心痛点，结合产品体验用户分析调研，全面提升产品交互体验。」

语音交互的例子告诉我们，智能座舱从功能实现到极致体验还有很长一段路要走，这需要车企有贴近用户的思考、完整的技术布局以及细细打磨体验的耐心，能够兼顾这几点才是最难的。

不就是「你说我做」吗！可要做好语音交互为什么这么难？

语音交互体验不佳的「症结」

长城 Coffee OS 2 给出的「解药」

结语

One response to “不就是「你说我做」吗！可要做好语音交互为什么这么难？”

发表评论取消回复

语音交互体验不佳的「症结」

长城 Coffee OS 2 给出的「解药」

结语

One response to “不就是「你说我做」吗！可要做好语音交互为什么这么难？”

发表评论 取消回复

发表评论取消回复