不就是「你说我做」吗!可要做好语音交互为什么这么难?

· Apr 21, 2023

对于近些年上市的新车来说,车内语音交互已经是标配的功能了。据相关数据显示,截至 2021 年,中国乘用车智能语音交互功能的搭载率高达 86%。 可就是这样一项看似基础的能力,车厂想要把它的体验做好却也并不容易。 作为智能汽车的用户,在使用车机语音时,以下的尴尬场景大概率你是碰到过的,我们编了一组顺口溜: 跨域指令成难题,响应贼慢遭嫌弃; 下达指令要唤醒,一直加载等出病; 识别错误成常态,还没小音箱厉害; 多人说话就混乱,你说奇怪不奇怪。 …… 正是由于以上种种不完善甚至是糟糕的体验,很多消费者把那些不好用的语音助手戏称为「人工智障」。作为当下座舱与人最直接的交流窗口,某种程度上车内智能语音的体验几乎已经成为 C 端评判智能汽车是否「智能」的重要标准之一。 因此,做好语音交互逐渐成为了主流车厂的必修课。 语音交互体验不佳的「症结」语音交互,顾名思义就是通过人下达的语音指令,让机器作出对应的反馈,它可以是回答问题,也可以是执行动作。 比如:「今天的天气怎么样?」「导航去天安门」「把空调打到 20 ℃」…… 它基本的技术逻辑链条并不难理解,无非是唤醒—语音识别—自然语音处理—语音合成。可是,只要其中的某一环做得不够好,那么体验打上折扣。 尤其是车内场景不同于居家,它首先不能过多地转移驾驶者的注意力、再者车内环境相对嘈杂,尤其是多乘员的情况下不被干扰、最后是执行的功能深度,这也考验车辆的底层打通能力。 如果把前文提到的糟糕体验转换成技术语言,那么大致可以分为以下几项痛点: 1、连续对话:用户需要一遍又一遍的唤醒语音,而且需要语音系统播报完成并且处理完上个指令后,用户才能下达下一个指令。 2、自由对话: 用户指令需要刻意记住关键词才能识别,考验用户的记忆力; 3、音区锁定:一人开口,其他人都要「闭嘴」,如果车上有熊孩子在一旁捣乱,往往会导致语音无法正常识别用户指令; 4、并行多意图: 一个指令成功执行之后,用户才能下发下一个指令,用户需要耐心等待。 也就是说,只有做好以上四点,才能确保语音交互系统的体验感。 长城 Coffee OS 2 给出的「解药」带着上面提到的几个痛点,我们深度体验了长城最新推出的 Coffee OS 2,它的表现可以说是让人印象深刻。总结为几个关键词就是实用、高效、聪明。 文章篇幅有限,体验的过程我们暂时按下不表,我们重点来看一看长城究竟是如何从技术角度解决业内这些普遍存在的技术难题的。 对此, Coffee OS 2 给出了四项关键的功能指标: 瞬间响应:系统唤醒速度做到了 250 毫秒,已经远超行业第一梯队 300-350 毫秒的平均速度,毫秒级的响应速度也同样秒杀行业第一梯队 1-1.5 秒的平均速度; 多领域多意图指令精准识别执行:系统支持一句话包含多领域十意图复杂口令; 后排抑制:通过多音区声源定位,后排闲聊不影响前排语音交互,大大降低语音控制误报、漏报率; 语音车控:系统具备超强的上下文理解和泛化理解能力,极限逼近真实口语习惯。 那么,长城 Coffee OS 2 究竟是如何做到「又快又准」的呢?相关专家给我们进行了解惑。 一、唤醒速度 Coffee OS 2 采用了低帧率低延时的深度学习模型,搭配唤醒快出逻辑策略,在保障唤醒性能的情况下,尽可能的减少了计算量与本地解码网络延时。 1、唤醒模型采用 DNN 神经网络模型,减少特征提取对缓存音频的帧数,从而提升响应速度,唤醒模型响应时间 150ms; 2、采用 tts 离线固化音频,替换在线请求合成,并减少空帧时间,优化 audiotrack 音频播放逻辑,减少音频播放切换延时,整体上层音频链路优化至 100ms 响应时间; 二、响应速度 1、Coffee OS 2 实现了识别语义联合建模,流式语义解析引擎采用基于深度神经网络的机器学习模型和自动机规则解析引擎结合的方式,将「领域分类」的时机大幅提前,将「提取槽位」的动作提前,这样大大降低语义解析的时间在流式语音识别输出结果的同时,可以输出流式语义解析的命令结果,实现边说边执行,提升响应速度。 2、常用识别文本建立预测模型,做到话未说完,语义提前 ready,比如说「今天」,可预测「天气」、「股票」、「航班」等技能。 三、多意图并行 业内常用规则模型,只能实现一句一意图的理解能力,长城创新性地将大规模预训练语言模型和递归子句解析算法相结合,少量样本,训练复杂模型,实现了单意图到多意图的理解技术革新,极大提升了多意图理解的句准率,并结合模型解码深度递归子句算法,实现并行多意图,使得能够颠覆业界传统的一问一答式机器理解。 例如,「打开车窗,打开后视镜」可以将后视镜进行分词提取,在车控技能里面进行递归执行,实现多指令并行实现能力。 四、可见即可说 1、极速可见即可说采用本地热词的方案,声学模型共享,不同的场景热词可独立注册为一个识别解析解码网络,也可根据不同场景配置不同,动态插槽,解码快,响应快。 2、自动分词以及自动泛化技术,提升文本选中概率。 五、连续对话 在连续对话的能力上,Coffee OS 2 的设定是 30s 内识别常开,自主选择 15s、20s、30s 延时聆听。专家着重阐述了背后的拒识逻辑,所谓「拒识」指的就是用户在与车机进行连续对话时不被干扰。对此,Coffee OS 2 设置了三重「关卡」: 第一重识别拒识,拒识背景噪声; 第二重利用统计语义结合规则语义分类解析,拒识背景人声以及跟产品无关的说法。 第三重基于深度学习的多因子策略非交互语音拒识模型,拒识非人机交互说法或杂乱说法。 结语 针对车载语音交互上的种种体验问题,长城 Coffee OS 2 能够给出「解药」的背后并非偶然,这依赖从车端到云端一套完整的体系能力。 Coffee OS 2 的技术专家说:「长城技术产品架构布局自研能力,端云已完成自研架构,底层算法深度参与模型精细化定制,端到端实现语音每个模块性能,并采用敏捷开发方式,来快速解决用户核心痛点,结合产品体验用户分析调研,全面提升产品交互体验。」语音交互的例子告诉我们,智能座舱从功能实现到极致体验还有很长一段路要走,这需要车企有贴近用户的思考、完整的技术布局以及细细打磨体验的耐心,能够兼顾这几点才是最难的。

首搭 1080°女性安全架构,欧拉芭蕾猫将女性赛道坚持到底

· Apr 21, 2023 333

4 月 18 日,2023 款欧拉芭蕾猫正式上市,成为欧拉旗下首款全面落地「 暖科技」1080°女性安全架构的车型。新车官方指导价 14.98 万元-17.98 万元;新增乘风破浪模式 2.0、热泵空调、V2L 对外放电系统等 22 项暖科技配置,水墨灰配色、温柔奶咖撞色内饰全新登场;用户权益全面升级,满足女性用户的多元需求。 率先启用「 暖科技」1080°女性安全架构,搭载多项安全功能 作为「 更爱女人的新能源汽车品牌」,欧拉成立了专门的女性研究团队,基于长城 144 万女性用户、96 亿公里驾驶大数据开展深度研发,在此基础上构建起集 360°基础安全、360° 智能安全、360°健康安全于一体的 1080°女性安全架构——「 暖科技」 体系。2023 款欧拉芭蕾猫率先搭载这一新架构,以更高安全标准为女性提供更加美好的纯电出行解决方案。 升级后的 2023 款欧拉芭蕾猫,搭载双拉带式主气囊与超大侧气帘,当碰撞发生时,主气囊在 25ms 内即可完全展开,双凹坑的设计能够更加稳定地接住女性驾驶员;侧气帘 Z 向高度超国标 150mm,将保压能力延长到 10s,远高于行业标准要求。 新车搭载乘风破浪模式 2.0,该模式在备受好评的原有版本基础上,进一步升级智能算法,当突遇雨天时,能够有效控制、低附路面车辆侧滑,并一键关联后视镜加热及后风挡除雾,带给驾驶者更多安心。 2023 款欧拉芭蕾猫原生搭载守护模式,并向全球公开专利。在紧急情况下,驾驶者只需轻按座椅侧面的猫头按钮,便可同时开启车内录音录像,并将车辆定位、车内画面等信息发送到预设的 5 位紧急联系人手机里,为女性出行安全增添一重保障。 新增 2 2 项暖科技配置,全方位超越用户期待 根据前期的调研反馈,2023 款欧拉芭蕾猫新增 22 项暖科技配置,全方位提升用户出行体验,让纯电出行成为一种享受。 新车增加 14 项用户迫切需求的暖科技配置:联合 KEEP 打造冥想模式、新增洞穴时间等体验增值功能,让座舱成为每个女性用户触手可及的「VIP 休息室」。新增短时驻留模式,当养宠人士携带宠物出门时,可以安心将爱宠暂时安置在车内。新增电子儿童锁、哨兵模式、卡通智能钥匙等,带来更加愉悦便利的用车生活。 兼顾更加广泛的使用场景,2023 款欧拉芭蕾猫新增 V2L 对外放电系统,方便露营及户外用电需求;新增热泵空调,改善低温环境下的续航能力;新增 50W 手机无线充电模块;新增主驾 6 向、副驾 4 向电动调节,主副驾腰部 4 向支撑,带来更加舒适的驾乘体验。  同时,新增 8 项超实用配置,新增电动尾门,方便女性用户轻松开关后备箱;新增主驾座椅通风、加热功能,让每段旅程都是享受;新增主驾驶座椅记忆、迎宾功能,让移动出行充满仪式感。 新配色优雅登场,颜值进阶,专属设计更好看 追求极致的意蕴美,芭蕾猫从千年宋瓷中汲取灵感,以淡雅纯粹的东方色彩,赋予车辆穿越千年的浪漫优雅。延续中国美学巅峰的宋代审美,2023 款欧拉芭蕾猫特别推出了水墨灰全新车色,以清雅端庄的意蕴诠释东方雅韵。内饰新增极具质感的奶咖撞色,温柔复古,氛围感拉满。   新政策惊喜发布,用户权益全面升级 伴随 2023 款欧拉芭蕾猫上市,用户权益进一步升级:「 挚爱礼」 提供整车 4 年或 15 万公里质保及三电终身质保,5000 元贴息,并有 0 首付、0 利息、0 月供等多种金融产品可选;「 热爱礼」 提供免费充电桩及安装服务,并赠送新车首次保养;「 宠爱礼」 提供基础流量终身免费、娱乐流量 2 年免费,整车质保期内免费道路救援;「 惊喜礼」 每周抽取 3 名下订用户,加享价值 10000 元的上海迪士尼 3 天 2 夜家庭旅行基金,让「 宠粉」 爱及家人。欧拉官方 APP、线上小程序现已全面接受预定,也可前往欧拉经销商门店试驾体验。 坚守女性赛道,欧拉品牌始终以更高的标准,践行「 将爱进行到底」 的品牌宣言。以 2023 款欧拉芭蕾猫为全新起点,欧拉将建立起更高标准的女性安全出行解决方案,为更多女性用户带来更加安全、更加理想的纯电生活。未来,欧拉芭蕾猫将以不断进阶的产品力,将宠爱进行到底,陪伴更多女性用户驶入更美好、更安全、更健康的纯电用车时代。

怎么做好语音控制?长城汽车 Coffee OS 2 交卷了

· Apr 21, 2023

在智能座舱中,语音控制功能已经司空见惯,是人们使用频率最高的智能座舱中的功能之一。因此,语音控制功能成为人们衡量智能座舱整体表现并且会影响人们驾乘体验的一个重要指标。但市场上智能座舱或者语音控制产品虽然种类繁多,但是使用体验却天差地别。有没有语音控制功能和语音控制功能是不是好用,还是存在比较明显的差距。 语音控制行业现状——痛点不少 当前上市的新车虽然几乎都搭载了语音控制功能,但是通过实际体验和功能分析,我们总结出了语音控制功能主要存在如下痛点: 1. 无法实现连续对话。有些语音控制功能需要用户一遍又一遍地唤醒语音控制功能,且需要在语音系统播报完成并且处理完上个指令后,用户才能下达下一个指令。 2. 无法进行自由对话。在某些车机系统中,用户需要刻意记住关键词才能够让系统实现对语音功能的识别,不支持用户的口语化指令。 3. 音区锁定困难。当某一个用户在使用语音控制功能时,周边的其他声音会让干扰系统对语音的识别。在举家出游,尤其是车上有「 熊孩子」 时,语音控制功能体验较差。 4. 并行多意图难以识别。车机系统难以识别用户一句话中的多个指令。用户需要耐心等待一个指令完成后,才能再下达一个新的指令。当用户上车之后,往往需要对包括车窗、天窗、导航、多媒体、座椅位置、空调等多个系统进行调整。无法并行多意图实现的语音控制系统,往往需要花费用户比较长的时间来逐步调整。 从用户痛点出发,长城 Coffee OS 2 构建自己的产品亮点 通过着力对上述提到的四个痛点进行解决,长城 Coffee OS 2 的语音功能具备了四大行业领先的优势: 1. 相应速度快。瞬间响应 Coffee OS 2 仅需 250 毫秒的唤醒速度,而汽车行业第一梯队的唤醒时间普遍需要 300-350 毫秒。同时毫秒级的响应速度也同样秒杀行业第一梯队 1-1.5 秒的平均速度。 2. 多域多意图的精准识别。当我们用一句涉足多个领域且包含多个意图的复杂指令时,Coffee OS 2 能够精准识别我们的指令意图,并且逐一高效执行,没有发生任何错漏的情况。 3. 后排抑制。Coffee OS 2 通过多音区声源定位,能够有效规避后排闲聊对前排语音交互的干扰,即便后排聊天的内容和车辆控制有关,Coffee OS 2 也能通过精准识别,精准捕捉到前排驾驶员的目的,大幅降低误报率和漏报率的同时,也让后排乘客在行车过程中能够更加自如随意地进行聊天。 4. 得益于人工智能技术的赋能,Coffee OS 2 具备比较强地上下文理解和泛化理解能力,其能够极限逼近真实口语习惯,在和竞争对手的对比中,优势比较明显。 此外,可见即可说、免唤醒、全双工多轮对话、车机闲聊、跨域知识上下文等功能,都在 Coffee OS 2 上得到了实现,使得其语音控制功能非常强大。如果再结合触控交互、手势交互、头姿交互等各种自然交互模式,搭载 Coffee OS 2 的整车能够为用户提供更便捷、更好玩但却也是更加安全的智能交互体验。 Coffee OS 2 背后的核心技术 整体来看,能够实现这些市场领先的功能,得益于长城汽车在新一代座舱系统——Coffee OS 2 中,以「1 个自研中间件」,立足 App 和 HAL2 个自研统一接口,来实现「N 种硬件配置+应用服务生态「。「1+2=N」 的底层架构,让 Coffee OS 2 的算力、迭代效率更快,语音交互功能更强。 具体来看,在硬件层面,Coffee OS 2 不仅搭载了满足不同用户视听需求的显示屏,同时也具备了超级 AI 算力、16G 大内存以及可集成适配不同 AI 算法的千兆级以太网接口并采用了实现高速读写速度的 UFS 2.1 储存协议。 在软件层面,Coffee OS 2 也做了大量的工作: 1. 唤醒相应速度。为了能够实现 250ms 的唤醒响应速度,Coffee OS 2 在算法层面做了大量的工作:采用了低帧率低延时的深度学习模型,搭配唤醒快出逻辑策略,在保障唤醒性能的情况下,尽可能的减少了计算量与本地解码网络延时;唤醒模型采用 DNN 神经网络模型,减少特征提取对缓存音频的帧数,从而提升响应速度;采用 tts 离线固化音频,替换在线请求合成,并减少空帧时间,优化 audiotrack 音频播放逻辑,减少音频播放切换延时。 2. 命令响应速度。Coffee OS 2 的流式语义解析引擎采用基于深度神经网络的机器学习模型和自动机规则解析引擎结合的方式,将「 领域分类」 的时机大幅提前,将「 提取槽位」 的动作提前,这样大大降低语义解析的时间在流式语音识别输出结果的同时,可以输出流式语义解析的命令结果,实现边说边执行,提升响应速度。此外,Coffee OS 2 还建立了常用识别文本的预测模型,做到话未说完,语义提前 ready。 3. 多意图识别。Coffee OS 2 创新性地将大规模预训练语言模型和递归子句解析算法相结合,少量样本,训练复杂模型,实现了从单意图到多意图的理解技术革新,极大提升了多意图理解的句准率。结合模型解码深度递归子句算法,让 Coffee OS 2 颠覆业界传统的一问一答式机器理解。 4. 可见即可说:Coffee OS 2 采用本地热词的方案,声学模型共享,不同的场景热词可独立注册为一个识别解析解码网络,也可根据不同场景配置不同,动态插槽,解码快,响应快。此外,其还可以通过自动分词以及自动泛化技术,提升文本选中概率。 深刻洞察用户的需求,从用户的需求出发,是长城 Coffee OS 2 能够取得细分市场领先的最主要原因之一。而这个初衷的实现,也离不开长城对于 Coffee OS 2 车机系统的全部自研。由于自己掌握了多项底层核心技术,因此长城可以根据用户的反馈和自身的不断积累,对系统持续进行优化升级,带给用户不断更新的语音控制体验,让整个智能座舱具备更大的想象空间。