橙皮书|座舱交互:ChatGPT 改变不了的智能座舱,多模可以

· Feb 16, 2023 333

人与车的关系,离不开「交互」两个字。无论是传统汽车时代的机械按键,还是智能汽车时代的触控屏幕、语音交互,寻找到更安全、高效、舒适的交互方式,一直是行业的共同追求;什么样的交互方式是更合适的,也是行业永恒探讨的命题。 在之前的橙皮书《语音交互:浮躁转向务实,死磕体验价值》中,我们探讨了语音交互在过去一年里的成长和未来的趋势。语音交互趋于务实的背后,是座舱系统逐渐去适应人、迎合人自然交互习惯的过程。不只是语音交互,以语音交互为基础的多模态交互能力,监测座舱内实时信息并给出应对的 DMS/OMS 功能,未来座舱与驾驶之间的融合联动,以及它们背后赋能的 AI 技术等等,这些能力各自提升的同时,也共同构成了座舱系统整体从被动交互向主动交互的转型。 在转向主动交互过程中,用户可以以更自然的方式与系统沟通,甚至更模糊的指令和意图能够被系统理解,系统也尝试根据用户和座舱内的状态提供更细致化的服务。 为了更好地印证我们的观察,这次我们与地平线智能交互团队聊了聊,来共同探讨一下座舱交互如何提供更细颗粒度的主动服务? DMS/OMS:「麻烦制造机」的进化之路 如果说座舱内总有一些智能化配置被视作「炫技」的话,那 DMS/OMS 功能绝对是实用性功能的代表。 利用座舱内的摄像头,通过利用座舱内的摄像头追踪驾驶员瞥向指定屏幕的视线,随即自动亮屏或唤醒车载助手;通过 Face ID 实现账号登陆,驾驶员进入座舱后自动调节座椅位置角度;通过对驾驶员面部微表情和眼动的监测,在驾驶员分心或出现疲劳时,适时发出预警与提醒;利用摄像头识别抽烟、睡觉等情况,实现智能调解车窗状态,空气内外循环、降低音量等场景化服务。 高效、安全、舒适, 人们对于座舱内的三大基本需求,DMS/OMS 功能可以说都涵盖了。 前不久,高工智能汽车监测数据显示,2022 年前 11 个月乘用车 DMS 标配搭载 99.95 万辆,同比增长 111.8%;在 DMS 感知方案供应商方面,地平线(芯片+感知)、商汤、虹软排名市场份额前三位。有机构预测,到 2026 年 DMS 的渗透率将达到 35%,DMS/OMS 上车的趋势不可挡。(图片来源:高工智能汽车)尽管如此,在一年前的《2021 年智能座舱橙皮书》中,我们对于当时的 DMS/OMS 功能给出了一个并不算积极的评价:「麻烦制造机」。 这是因为在此前的座舱评测中,由于 DMS/OMS 在疲劳监测、分心预警、烟雾预警等场景下的误触发、误提醒,的确带来麻烦,让彼时的我们实在无法给出更高的评价。去年年中,小眼睛被系统判定为「开车睡觉」的乌龙事件,也让更多人意识到 DMS/OMS 功能面临的问题:人物生理特征的差异、动作习惯的差异,甚至需求的差异,决定了 DMS/OMS 在实际应用层面需要解决的问题很多。 如何提供更精准、恰当的服务,避免误触发、误提醒造成困扰,是 DMS/OMS 这个「麻烦制造机」在自我救赎的道路上提升的关键。 一方面,需要梳理出常见功能场景,通过对场景的判断来过滤可能出现的误报。 另一方面,需要对技术标准设置合理、科学的指标。一个人是否处于疲劳状态?处于怎样的疲劳状态?这并不是简单的「Yes or No」的问题,因此,单一、机械化地设定触发阈值,难免出现误触发、误提醒的情况。如何将触发精细化、精准化,是提升 DMS/OMS 性能的关键。 过去一年里,不少新车型搭载了 DMS/OMS 功能。以奇瑞瑞虎 8 PRO 为例,搭载了 AI 情感超级交互系统,根据人脸识别、视线追踪第一时间察觉驾驶员的肢体语言,判断疲劳等级和分神状态,并智能推送聊天、音乐音量、空调温度等场景模式,帮助驾驶员缓解疲劳。 为了探究如何精准把控触发阈值,我们专门采访到了为奇瑞瑞虎 8 PRO 相关产品和研发人员,以及这套 DMS 系统供应商地平线的研发人员,为了让触发标准更精确、更合理,避免误触发,奇瑞瑞虎 8 PRO 以及地平线的 DMS 团队将驾驶员的状态监测进行了精细的划分: 以分心场景为例,为了将触发阈值更精确,分心提醒的视线落点被细化成了十四个区域;这十四个区域又根据对驾驶行为的影响被划分成了危险区、警告区等不同等级;视线停留在不同等级的区域内不同的时间,驾驶分心带来的危险性自然不同。同时,驾驶人的分心、疲劳情况又进一步被划分为轻度、中度、重度…… 不同等级下生理对于外界刺激的反应、不同时间间隔预警的效果等等,这些差异都能让 DMS/OMS 提供更精准、细致化的服务。 未来,随着座舱内传感器数量和性能的提升,以及座舱集成度的提升,座舱 DMS/OMS 功能需要的不止是摄像头、毫米波雷达等单一传感器提供的指标,更是多维度的感知信息,通过多维度信息融合来提供更可靠的决策输入;而 DMS/OMS 本身也成为座舱内多模态交互的一部分。 对于下一阶段的 DMS/OMS 供应商来说,需要提供的也不止是单一的软件算法能力,更是软硬件整合能力,以及背后芯片、AI 感知能力。 当然,DMS/OMS 本身存在的意义,是为用户带来安全、高效、便捷的服务,在能力提升的同时,区分出哪些是用户真正需要的服务,哪些是不必要的打扰;以及避免座舱内摄像头给用户造成的隐私恐惧,依然是这项功能进化之路上需要解决的问题。 多模态交互:多维度信息的融合,让交互更类人 看着窗户时说「大一点」,车窗能自动打开;眼睛盯着空调时说同样的话,指令就变成了空调开大一点;视线锁定窗外环境,然后说「我想知道这栋楼的用途」,智能助手会自动帮你查询并告知你结果….. 这是以往我们在概念车中看到的场景,利用座舱内语音、视觉、手势识别等多种交互方式融合而成的多模态交互技术,满足了大家对于未来科技感的想象。 在过去几年的智能座舱中,我们已经能看到除了物理按键、旋钮、触控等传统交互形式外,语音交互、手势交互、面部识别等多种交互方式并存的情况,并且已经成为行业主流。 不过相比于以往多种交互方式「单打独斗」、各自为战的情况,多模态交互的本质,在于将不同交互形式间联动起来,通过不同交互形式下多维度信息对于感知能力的互补,让系统能够以更接近自然人的状态去理解、执行人的意图,甚至能够猜测出人未说出口的意图。 在过去一年中,我们已经能看到这种多模态交互尝试的初级形态。 比如在理想 L9 中,采用了 3D Tof + 语音交互融合的方式,手指向遮阳帘,同时说「打开这个」,遮阳帘可以自动打开。对于一个按键就能打开遮阳帘的操作,这种场景似乎并没有太多的吸引力,但这背后是语音与手势交互融合的能力,这种能力为座舱交互创造了更多的可能性,比如在提升交互准确率方面。 在极狐阿尔法 S HI 版的座舱内,语音识别与唇动识别结合到一起,通过视觉+语音的多模态融合,能够在嘈杂、密集的座舱环境下提升语音识别的准确率;采用类似的视觉+语音融合方案来提升识别准确率的,还有基于地平线征程 2、征程 3 打造的座舱方案 Horizon Halo,通过视觉、语音等多种传感器数据融合,来实现主动交互。 以 2022 年在座舱中出现的全时免唤醒功能为例,这个功能下语音助手会持续收音,任何时候都不需要通过唤醒词作为对话的起点,让语音交互更接近人与人之间的自然对话。 为了达到这个效果,对于语音交互技术架构和语音基础能力的优化是必不可少的;而为了进一步降低误唤醒率,提高识别率,引入视觉感知,将语音与视觉感知、手势识别融合,能为系统提供更多的信息冗余。 采用了 Halo 3.0 方案的奇瑞瑞虎 8 PRO 作为首款全场景多模交互方案的车型,在全时免唤醒功能上就采用了多模态交互技术。 根据这套方案的供应商地平线智能交互研发人员向 GeekCar 透露,为了实现多模态语音交互的全时免唤醒能力,采用了传统语音识别链路优化+视觉处理技术前融合的方式,将座舱内视频数据和语音数据进行前融合,以视觉作为重要的依赖项来重构语音技术。要实现这个效果,需要将语音数据与视觉数据在时间序列同步,处理 10 … 继续阅读