在座舱里,我们到底在「chat」什么?
盘点一下今年上半年的「当红炸子鸡」,非 ChatGPT 模式莫属。OpenAI 和它的 GPT 不仅凭一己之力将 AI 再度推上风口,也带起了大模型之战。如今还没摩拳擦掌打造自家大模型的科技公司,在这轮 AI 大战里已经可以宣告出局了;还没有计划将大模型引入汽车的车企,动作似乎也有点慢了。如果说去年大火的「元宇宙」离汽车多少有点远,那 AI 大模型跟汽车的距离就近多了。毕竟「ChatGPT」的「chat」就与如今座舱里离不开的语音交互密切相关。语音交互也因此成了大模型上车的第一站,比如,之前 GeekCar 抢先体验的文心大模型上车 ,理想宣布自研的 MindGPT,商汤在上海车展期间展示的 SenseChat 中文语言模型,而奔驰更是直接在北美开启了 ChatGPT 上车测试。各家在探索的同时,更好奇大模型、生成式 AI 究竟能给语音交互和智能座舱带来什么改变? 前不久,GeekCar 有幸采访到全球车载语音巨头 赛轮思首席执行官 Stefan Ortmanns 博士 。赛轮思技术应用在全球汽车占比约 53% ,这意味着每两辆新生产的汽车中就有一辆是使用它的技术。值得一提的是,在北美开启 ChatGPT 测试的奔驰 MBUX 系统,早已采用了 Cerence JustTalk 车载助理功能。在 Stefan Ortmanns 博士看来,目前的车载语音正处在「从典型的出行助理解决方案到沉浸式伴侣体验」的过程中,其中离不开 AI 的驱动。 赛轮思首席执行官 Stefan Ortmanns 博士 目前语音交互究竟是怎样向着「沉浸式伴侣体验」发展的?在这个过程中大模型究竟能带来哪些想象力?我们一起来看看。 车载语音 1.0 时代 :任务型助手的升级 对于很多人来说,目前语音交互最常见的两个场景,一个是在车里,另一个可能就是智能音箱了。眼看着座舱智能语音的在新车中的渗透率高达 70%以上,在车里用语音交互被越来越多人接受,相比之下,智能音箱的处境就没那么乐观了,更多地沦为了家里哄孩子的工具,或者是控制智能家居的中台。其中关键一因素就是:边界。 如果把智能语音划分成任务型和闲聊型,目前智能座舱里的语音交互就是「任务型助手」的代表。相对封闭的环境,容易把控的使用场景,让车载语音助手可以针对高频需求优化训练,主打一个「有求必应」:无论是打开车窗、空调,还是设置导航播、放视频,都建立在明确的指令下。给出指令——解决问题,一来一回,正好满足驾驶场景的需求。 因此,现阶段车载语音交互更多关注的是如何给任务型助手的升级:一方面是提高识别和响应速度;另一方面就是优化体验,比如类似的 oneshot、多轮对话能力,前面提到的 Cerence JustTalk 全时免唤醒对话功能,都建立在 AI 对全栈式技术的优化基础上,提高语音交互的准确率的同时,也提高了交互的效率。 作为用户来说,这种优化更直接的感受就是车载语音更加务实了:识别准确率提升,能摆脱冗余的唤醒词,不必再记住特定的指令,模糊指令也能识别…… 从「出行助理解决方案」这个工具属性来看,体验提升了不少。不过对于智能语音来说,目标显然不止于此。 车载语音 2.0 时代:AI 驱动更主动 、更像自然人的交互 尽管很多时候大家会说「谁开车时会需要闲聊啊?这不是耽误开车么?」但是更具有主动感知能力和自然交互能力的交互体验,一直是不可阻挡的趋势。 在以往的概念车上看到的语音+眼神指令的察言观色、语音+手势的 3DTof 功能,甚至不少车企打出的「情感交互」牌。 如果说情感交互、主动式交互听起来太抽象,那用 Stefan Ortmanns 博士的话来说就是:「 从出行助理解决方案向沉浸式伴侣体验的过程 ,中间阶段就是虚拟副驾驶 (Co-Pilot)阶段 ,这种趋势意味着能带来大量的信息。」也就是从任务型助手向沉浸式交互发展,意味着更多信息的交互: 系统获取更多的信息 ,处理更多信息 ,以及向用户传递更多信息 。 现阶段是怎么做的呢?最常见的就是多模态融合。通过将语音和摄像头等实时信息融合,或者与以往的数据库融合,给出主动式的服务。 比如,赛轮思推出的 Cerence Co-Pilot 功能,就是将语音系统与视线、手势和触摸输入及汽车传感器信息融合。当你看着车窗说热的时候,系统能自动打开车窗;当监测到马上要到家时,提前询问是否打开家里的空调;当汽车电量不足时,主动提示附近充电桩导航;甚至引入生物识别引擎 Voice Biometrics,在座舱里实现声纹识别等多模态生物识别功能。 说起来容易,但实际应用中并不容易。以往,座舱内摄像头+语音交互融合的 DMS 系统,就曾在不少车型上因为误判、误提醒成为麻烦制造机;为了解决 DMS 误提醒问题,语音数据与视觉数据融合需要处理 10 亿级别的图片数量。 因此,要让主动式交互更主动、更自然,既需要多模态融合能力,也要庞大的数据处理能力,以及对于自然语言和场景举一反三的泛化能力,避免遇到新状况时「当机」。「庞大的数据训练」、「高效的自然语言处理能力」、「低样本、零样本的泛化能力」、「多模态模型」,如果你最近关注 ChatGPT 的进展,对上边这几个词肯定不陌生。可以说正是因为这些特点,GPT 成为了颠覆行业的存在。而这些特点,与语音交互未来发展需要的能力契合。 也就是说有了 GPT 这样的生成式 AI 的助力,未来座舱内多模态交互不会是各司其职,能融合得更丝滑,语音交互的闲聊也不再只是尬聊,那些智能语音给我们画过的「饼」,终于找到了造饼的工具。 大模型上车,没那么容易 尽管越来越多的车企宣布大模型上车计划,甚至已经有车企开始测试,不过大模型上车并不容易。 ChatGPT 可以给我们提供很多信息,但并非无所不能。比如当我问 ChatGPT 怎样开雨刮器,它可能只会给你提供一个通用的结果;如果我的车型比较创新,取消了传统的物理按键,ChatGPT 大概束手无策。 针对这种情况,赛轮思利用生成式 AI 和大语言模型,针对车载场景做出了成果。 比如, Car Knowledge 利用自研的生成式 AI,将主机厂提供的车辆信息、用户手册、传感器信息直接导入大型语言模型。这样驾驶员只需要简单描述自己的需求,甚至只是输入几个字就能找到专门针对这款车型的信息。 对于一个曾经经历过「由于车内没有物理按键,也无法用语音打开油箱盖,不得不在加油站翻用户手册」的人来说,在座舱里创新开关越来越多的今天,深感这个功能的实用。 当然,这只是生成式 AI 和大语言模型上车的小试牛刀而已。另一个 Cerence Browse 更符合我们对智能语音无所不知的闲聊属性的印象,赛轮思将互联网搜索引擎与车载助理集成,通过语音 AI 来解答的各类提问,主打一个陪伴。 前不久,奇绩创坛创始人、微软前全球执行副总裁陆奇在演讲中说,「未来世界有各种模型组成,每个人都将有多有不同领域的副驾驶(CoPilot),等 CoPilot 能力越来越强,就会变成一个正驾驶员(AutoPilot),再往下将拥有一个一个 Pilot team。」目前,赛轮思基于生成式 AI 和大语言模型上车的产品,未尝不是在打造一个个不同领域的 CoPilot,并通过应用培养它们逐渐变强大,最终营造一个沉浸式的座舱交互体验。「要创造一个真正的沉浸式车载体验,意味着我们需要超越对话式人工智能。」对于未来沉浸式车载体验的畅想,Stefan Ortmanns 博士这样回答。 最后 很多人说生成式 AI 的突破,让人工智能进入了 iPhone … 继续阅读