是什么阻碍了你使用智能汽车的「语音交互」?

· Apr 12, 2023

↑ 点击视频,观看长城汽车 Cofee OS 2 智能语音公开课完整回顾(视频总时长 48 分 32 秒)。

为方便观看整理以下时间线:

活动开场环节(00 分 00 秒 – 03 分 40 秒);对比测试环节(03 分 40 秒 – 18 分 56 秒);专家对话环节(19 分 02 秒 – 31 分 44 秒);极客对话环节(31 分 46 秒 – 48 分 32 秒)。
在文章开始,我先抛出一个问题:在开车的时候你想发起导航,你会怎么做?我想现在肯定会有 2 种答案:「用手输入」或是「用嘴说话」。所以问题来了,在驾驶场景中,哪种方式更高效?哪种方式更安全?答案一定是「用嘴说话」。640 对于人工智能,可能很多人见识过不少「高科技」产品,比如:棋艺碾压世界冠军的机器人、能自主接送乘客的 Robotaxi、能帮你完成各种琐碎工作的 ChatGPT。
那在你的用车场景中,你有没有过一些疑问:为什么「别人家」的人工智能都那么厉害,你自己的车却「连你的话都听不明白」?所以,到底是什么阻碍了你使用智能汽车的语音交互?这些问题能解决吗?

为什么驾驶场景需要智能语音?

很早以前,汽车需要驾驶员调节的设置和功能无非就像:后视镜、灯光、空调、收音机、音量…… 而这些功能通过物理按键或是旋钮就可以轻松解决,既简单又高效。640 (1) 但是随着越来越多功能和应用的上车,如今汽车所承载的「新功能」已经不是物理按键就能轻松解决的了,毕竟汽车座舱总不能变得和飞机驾驶室一样吧?640 (2) 于是,屏幕和车载 OS 承担起了重任。但那时的输入方式却过于繁琐,比如:屏幕键盘、屏幕手写亦或是座舱内设计一块支持手写的触控板。640_副本 而如今,语音交互作为既物理按键、触控板、屏幕触控之后,应用在汽车座舱内的交互方式,它的出现既带来了高效和精准,也让隐藏在车机层层菜单之下的那些功能和设置变得「唾手可得」。根据百度开放平台的数据统计:语音输入相较于键盘输入、触控输入的效率提升了三倍以上。

当然,除了交互效率和交互精度之外,驾驶场景中的交互最需要的就是「交互安全」。语音交互可以大幅减少驾驶员手脱离方向盘的时间以及视线偏离道路的时间,让驾驶员的双手和实现可以更多的投入到对车辆行驶的掌控当中。

640 (3)

所以,语音交互成为了如今智能汽车的「标配」,根据相关数据统计:

截至 2021 年,中国乘用车智能语音交互功能的搭载率高达 86%;

2022 年全球汽车语音识别市场规模为 71.94 亿元, 其中国内汽车语音识别市场规模为 26.29 亿元。

所以,无论是用户用车时的真实经历,亦或是如今车载智能语音行业的发展现况,事实就摆在面前。但回归到文章开始:你的座舱语音交互,它好用吗?

长城汽车要与新势力掰手腕?

在 2022 年,我们评选出了一款语音交互表现最好的智能座舱产品:小鹏汽车 Xmart OS。但这次,有一款来自自主先锋品牌的产品想要与它在语音交互功能上掰一掰手腕,它就是来自长城汽车的 Coffee OS 2。

640 (4)

在用户的用车体验中,语音交互的痛点无非在于:

叫不醒、响应慢、总出错、听不懂、用不了……

而这些痛点,其实涉及了智能语音交互几大环节中的:语音唤醒、输入与识别、分析与理解。

如今越来越多的座舱语音交互产品在提升唤醒速度和响应速度,而表现较好的座舱产品能够满足 300-350ms 的语音唤醒速度。

这是什么概念?这几乎就是你眨一次眼睛的时间。

但 Coffee OS 2 的唤醒速度却能够达到超越行业主流的 250ms,也正因此在使用 Coffee OS 2 的语音交互时它能够做到更快地「随叫随到」。

而下达指令时的响应速度也是影响座舱语音交互体验至关重要的一项指标,如今行业普遍的响应速度一般在 1-1.5s,也就是你完成一次呼吸的时间。这样的响应速度其实并不算慢了,但还能不能做到更快?

其实是可以的,Coffee OS 2 目前的响应速度达到了毫秒级。在我们连续指令以及多意图指令的测试中,能够很明显地感受出 Coffee OS 2 在响应速度上的优势。

640 (5)

当然,语音交互上对输出结果影响最大的两个环节在于「输入与识别」以及「分析与理解」。同样,这也是智能语音行业共同的难题。

输入与识别环节所遇到的问题主要在于:

如何从嘈杂的声音环境中提取到正确的信息?

如何保证识别到的指令有着更高的准确性?

而这里,就需要智能座舱中的多音区识别以及噪音摘除处理功能了。

我们这次主要针对 Coffee OS 2 和 Xmart OS 的「后排抑制」功能进行了测试。无论是车内其他乘员闲聊的场景或是其他乘员「故意」下达有效指令进行干扰的场景下,两款产品在后排抑制上都有着不错的表现。

640 (6)

当然,语音交互中最难的还是分析与理解,毕竟想让机器真的读懂人的表达是一件难事。在我们的测试中,我们能够看到 Coffee OS 2 的表现会更好,比如:

能够从多意图指令中准确地识别和摘取出每一个指令;

有着更好的上下文理解能力,尤其是在模糊指代功能上的能力。

同时,在座舱语音交互中如今越来越重要的可见即可说、全局免唤醒上 Coffee OS 2 也都有着不错的表现。

640 (7)

所以,通过这次对比测试,我们发现 Coffee OS 2 有着更高的唤醒速度、响应速度以及分析理解能力,这些是一套好用的车内语音交互的基础,同时也应该是语音交互最核心的能力。

在这次语音交互功能对比测试中,无论是长城汽车 Coffee OS 2 还是小鹏汽车 Xmart OS,都展现出各自强大的实力,可以看出,Coffee OS 2 和 Xmart OS 在业内都是「数一数二」的存在。而 Coffee OS 2 也向我们展示了:一套好用的座舱语音交互,绝不是新势力专属。

写在最后

人们总喜欢将梦想和畅想通过科幻电影来「提前实现」,在科幻电影中:机器人有着像人一样的思维、有着与人一样的沟通能力,甚至反应速度还超越了人。

这些是人类梦寐以求的目标,同样也是语音交互的目标。如今语音交互的步伐正在向着这样的目标前进,但路毕竟要一步一步地走,技术也要一步步地发展与成熟。

所以,可能以往你使用语音交互时所遇到的那些痛点,让你不再信任智能语音、让你在驾驶场景中放弃了语音这个交互方式。但是,在 Coffee OS 2 上我们能够看到这些根本性的痛点都被一一根除。

或许,座舱语音交互诞生的初衷本就是这样的,为车内人员提供使用更高效、交互更安全、思维更聪明、覆盖更全面的交互方式。

0


Related Posts 相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注