下一代车载语音,为什么要实现音视觉融合?

· Feb 23, 2021

在过去的四十年内,几乎每十年人机交互方式就会有一次重大革新。

继鼠标键盘和触屏交互之后,下一代交互方式是什么?我们暂不得知。但汽车座舱作为未来物联网领域中的重要⻆色,它的应用场景会给下一代人机交互方式的变革带来一些启发。

智能时代下的车内交互方式需要围绕「语音」展开

传统的汽车座舱交互方式比较单一,除了按键、拨杆、旋钮之外,有的还沿用了触屏交互。

随着座舱越来越智能,更多车辆搭载拥有丰富功能的车机系统和不同级别的驾驶辅助,这也就造成座舱内信息大爆炸。面对海量的信息,按键或触屏只会让用户手忙脚乱,进退两难,座舱也无法反向深入了解用户的真实意图。

因此传统的交互方式显然不再适用,智能座舱的交互方式亟需变革。

以目前的产品水平来说,尽管 L2 驾驶辅助功能正以极快的速度铺开,但短期内用户在车内的主要任务还是驾驶,人的肢体和注意力是被占用的。虽然手能够触屏,但手必须要握住方向盘;虽然可以根据眼神实现视线追踪,但目光还是要聚焦在前方路况。

所以车厂开发者能利用的交互资源,是这些器官富裕出来的人的能力。在眼睛、手臂、嘴巴、大脑、腿脚等肢体当中,嘴能实现的语音交互是相对好的选择。

截屏2021-02-22下午5.20.33

语音+视觉相结合的「主动式多模态交互」是未来的大趋势

仅依靠车载语音肯定描绘不出下一代交互方式的样子,所以以语音为中心的「多模态交互」是更明确的未来方向,比如配合按键、触屏、手势识别、人脸识别、情绪识别等等。

截屏2021-02-22下午5.21.48

另外,用户的更多需求其实是在言语之外的,没有人会时刻把命令挂在嘴边,这不现实,也不够优雅,毕竟座舱是个半公共空间。所以大多数情况下,用户痛点仍然存在,可能是这个需求说不出来,也可能是还能忍。这种情况下,座舱需要有察言观色的能力,时刻思考用户需求,以便「主动」提供服务。如果这种细微的服务能做好,体验会有大幅提升,用户粘性会非常高。

截屏2021-02-22下午5.22.23

刚我们提到的手势识别、人脸识别、情绪识别,以及座舱察言观色的能力,都需要座舱内有眼睛,这是主动交互和所有视觉相关功能的大前提。

因此,以「语音」为中心的多模态交互,和以「视觉」为中心的主动式交互是未来的两个重要方向。前者的指令准确但被动;后者的指令模糊但主动。理论上涵盖了大部分服务需求。

截屏2021-02-22下午5.22.59

当前车载语音和车载视觉的落地案例体验如何?

目前来看,已经有不少座舱分别实现了车载语音和视觉的相关功能。

以语音为例,我粗略划分为五个阶段。

第一阶段可以完成语音的基础能力,能跑通前端降噪-语音触发-识别-理解-反馈的完整技术链;第二阶段语音可以结合车机系统和更多生态,比如与音乐、导航、操作系统、⻋窗、智能家居等相结合;第三阶段可以完成相对灵活的自然语言理解,实现免唤醒、自动纠错、多轮对话、上下文理解等能力;第四阶段可以理解更复杂的自然语言,实现声源定位、多路拾音的全⻋语音交互,并理解多条件叠加说法、间接意图说法、间接话术等复杂的自然语言;第五阶段是形成独特的沟通性格,用语言和服务向用户传递品牌理念。

截屏2021-02-22下午5.24.06

目前不同属性的车厂已经站在了不同的阶段。

截屏2021-02-22下午5.23.30

以蔚来汽车、理想汽车、小鹏汽车为代表的新势力品牌基本都达到了第三阶段,它们虽然仍然借力供应商,但自研的比例越来越高,有的已经建立了独立的语音框架,有的已经能够通过语音表达品牌个性和态度。

蔚来汽⻋目前已经将语音与驾驶辅助相结合,可以随时告知用户汽⻋的下一个决策,来降低用户对新鲜功能的不信任感,而且在 NOMI 的加持下,语音可以被抽象为情感表达,反向成就品牌本身。

小鹏汽⻋自己搭建了语音框架,可以更灵活的定制新功能,不受制于供应商的开放能力。另外 SR 自动驾驶环境模拟显示能通过语音+视觉的方式,让用户明确自己何时接管车辆。

WechatIMG723

理想汽车实现了⻋载多音区交互。它采用四麦克风分布式阵列,可以实现 4 路人声分离和 6 路音区检测,完成全⻋多路拾音、人声定位、降噪、回声消除和语音唤醒。简单来说,它可以准确判断⻋内多个说话人的空间位置,更突出了理想 ONE 家庭座舱的定位。

以长城汽车、吉利汽车、上汽为代表的我国自主品牌在体验上基本能达到第三阶段,但与新势力的实现路径不太一样,他们更多依靠国内领先的语音供应商,或投资成立为自己服务的数字化外部公司。

上汽荣威 RX5 PLUS 的车载语音由斑马网络提供,具体来说达摩院提供前端算法/唤醒;思必驰提供语音识别能力;科大讯⻜提供 TTS 音色。这款车拥有一套支持 90s 连续交互的全双工语音系统,体验并不输给新势力品牌车型。

以奥迪、奔驰、宝马、凯迪拉克为代表的传统豪华品牌仍然停留在第一二阶段,大多依靠合作已久的老牌供应商,同时加入一些国内语音供应商的相关能力。

2020 款奥迪 A4L 的语音系统由大众问问提供,同时搭载了纽昂斯和天猫精灵的相关能力。整体体验比其他豪华品牌要好,但远算不上第一梯队。纽昂斯和大众问问分别为这款车提供了一套 ASR 和 NLU 能力,两者算是并行关系,所以用户输入任何一个指令,这俩通道都要跑一遍,最后统一口径实行指令,所以整体体验比较慢。

WechatIMG721

说完车载语音,车内与视觉相关的功能其实落地的并不多。

小鹏 G3 曾在 Xmart OS 1.5 版本中推出疲劳监测并预警的功能,原理是通过⻋内摄像头实时检测驾驶员在行⻋过程中的疲劳特征(如打呵欠、⻓时间闭眼),并及时通过生效和抖动作出预警。

爱驰 U5 也有类似的功能,摄像头安装于 A 柱,当驾驶员打电话、打哈欠或者视线不在前方时,系统就会语音警示。

WechatIMG722

宝马的手势识别在 2015 年率先登陆宝马 7 系,可以通过摄像头识别完成音量调节、切歌等指令。识别率很高,但其实用性褒贬不一。

长安 UNI-T 的功能相对丰富,可以实现视线亮屏、分级疲劳检测、多模唇语识别、驾驶员行为识别、智能情绪识别等功能。这一系列细分场景下的主动式 AI 功能由地平线提供,同时它还提供了⻋规级 AI 芯片「征程 2」。

综上,不难看出确实已经有不少产品实现了车载语音和视觉的相关功能,但体验参差不齐,相差悬殊,最重要的是语音和视觉没有从根本上融合,仍然是两条没有交叉环绕的并行线,还是单打独斗的状态。

真正的音视觉融合能带来怎样的产品体验?

真正的音视觉融合可以通过多方位的感知,为用户提供形式更丰富的服务反馈。

具体来说,车辆可以通过语音、视觉和相关车辆数据,感知当前的驾驶员/乘客状态以及具体场景,形成可预知的需求,再通过汽车的相关能力,主动为用户提供有价值的服务和信息。

截屏2021-02-22下午5.24.43

比如当副驾驶接电话时,车载音乐主动降低音量;当用户不知道附近哪里可以买到苹果充电线时,车机主动呈现附近的直营店或便利店;当车内空气质量不佳时,主动通风并调整车内温度……

这些功能非常细碎,可能用户不会每次开⻋时都用到,但当⻋厂能够有针对性的把用户的时间、场景切分地足够细,它所提供的功能足够智能时,这些主动式的 AI 能力会给用户带来你确实懂我的感受。

下面再举几个畅想的案例,目前并没有被实际量产,仅供参考和娱乐。

车厂可以通过「语音+视觉」的能力,主动给用户更好的小憩环境。当用户开启小憩功能后,座舱主动播放舒缓的催眠音乐,调整座椅模式和空调温度,并为用户定上闹钟。通过「视觉」功能,时刻观察用户的入眠状态,当用户进入浅睡眠后,自动降低音乐音量,快到闹钟时间,播放轻音乐,温柔引导用户迎接清醒。

车厂也可以通过「语音+视觉」的能力,稳定宝宝情绪,缓解坐在后排安全座椅上的焦虑感。座舱可以通过语音和后排的小宝⻉聊天,调整宝宝的心情,播放合适的幼儿教育故事,引导宝宝思考。

当未来可以在风挡上实现 AR 导航,用户可以通过「语音交互+视线追踪+AR 导航」的形式,根据用户心情推荐周边信息。比如用户说:我想在附近停⻋;我想吃罗森家的冰皮蛋糕;哪儿的优衣库正在打折?这附近哪有快速洗⻋行?前⻛挡就会标注出哪栋大厦里有相应的店铺,还会语音反馈人均消费、是否有新款等信息。

WechatIMG724

而且座舱可以根据⻋主的情绪,推荐附近的场所。比如发现用户心情不好,主动推荐附近的极限运动馆;根据⻋主的⻆色,为用户提供可能需要的周边信息。如果⻋主是位奶爸,会显示 XX 超市的某品牌尿不湿在打折,XX 商场的进口奶粉补货了,家⻔口开了一家儿童编程教育机构……

结语

如今部分车载语音产品已经能实现还不错的交互体验,也有越来越多的用户接触并认可这种交互方式。

但这还远不是终点,围绕语音我们还能展开更多的想象,比如多模态交互、主动式服务等等。在理顺这一切之前,行业仍然要不断加快脚步。

0


Related Posts 相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注