【活动总结】我们把一群做「语音」的人凑到了一起,然后聊了聊车

· Aug 08, 2014

如果说把竞争对手放在一起办活动是一种 zuo 死的节奏,那么 GeekCar 未来汽车「碰撞」实验室这次就这么做了。第二次的「碰撞」实验室没有上次的炫酷漂移车,没有未来感十足的超级电机,只有「智能语音」这个在大多数人看来相对「技术宅」的话题,但是来参与「碰撞」的朋友们却超出了我们的预想,从这一点来看,大家对车内智能语音或者智能语音人机交互的未来是充满期待和想象的。 这次我们略过所有的环节,直接进入主题:为什么我们的汽车不「听」话?!

出门问问

讨论这个话题,我们需要先来了解一下智能语音的基础知识和梳理一下「语音」这个领域的历史。雷欣,华盛顿大学博士、世界知名语音识别专家、前 Google 研究科学家、Google Voice Search 主要开发者之一,这位拥有豪华简历的「出门问问」公司 CTO 给我们讲述了「智能语音」在美国的发展史及基础技术普及。 K5__9636 1999 年清华大学毕业的雷欣选择到美国读书,在美国的 15 年算是见证了智能语音识别领域的兴起。在 80 年代末期,雷欣口中的「三剑客」三个台湾人在贝尔实验室做关于语音方面突破性工作,但那时的语音识别是基于不同的框架,而且当时计算机技术和网络环境也非常差,深度神经网络也没有很好的发展,所以即使理论上做出来但实际上不成功。当时一切语音的进步都是基于 DARPA(美国国防部先进项目研究局)的评测开发出来的技术,而 DARPA 考虑到市面上的 Nuance 已经很成熟,觉得语音识别已经是个「黑盒子」,不需要再投资给其他的研究所进行研究,所以之后一段时间语音识别并没有很好地发展。04—08 年因为美国国防部对于反恐或国家安全的考虑不想让语音识别研究中断,所以那个时候语音识别在机器翻译领域发展有了更深入的发展。 雷欣认为智能语音在用户端应用的复兴很大一部分要归功于苹果公司 Siri 的营销成功,目前在硅谷除了苹果,其实谷歌在苹果之前就有了 Google Voice Research,另外还有微软、亚马逊、Facebook 甚至很多小公司都正在语音这个领域深耕。 K5__9634

碰撞观点:

1. 虽然目前语音识别已经达到「可用」级别,但车内环境复杂,而智能语音搜索不是「黑盒子」,要考虑垂直场景下的应用。 2. 语音识别的准确率在很小的一个范围内高低浮动用户体验不到太多差别,更多应该强调”End to end users satisfaction”,即使语音识别不够准确,但也可以根据语义理解的优化和纠错给用户呈现一个满意的结果。

车音网

中国车载语音通信的领先者车音网的副总裁陆凌涛一上台,就把人生下来的第一声啼哭描述成语音识别的第一个应用场景。没错,语音识别是最直接、最简单的人机交互方式,但目前无法达到 100%的识别准确率,所以有很多做「语音助手」类应用的用户粘度都不是很高,用户习惯也没有养成。车音网认为「车内应用场景」正是实现智能语音最理想也是最需要的垂直场景。陆凌涛表示根据车音网的后台数据显示,目前 80%左右的用户在车内的语音需求是根据说电话薄拨打电话,10%左右是查询 POI 兴趣点以及导航,另外的是查询预定酒店、机票等。 对于车音网而言,他们正在做的是帮很多主机厂去优化呼叫服务中心,利用他们的语音识别技术让呼叫中心更加智能化、降低人工成本、提高单位人工的效益。从另一个角度来看,这也对于车载语音车载智能语音的「曲线救国」吧。而且通过和车厂的合作,得到车厂的信任和语音相关合作的入场券,也是车音网看重的一点。 同样,陆凌涛也提到了影响车内语音识别率有几个大的问题,这也是目前所有做语音识别车内应用公司的最大问题。1. 车内噪音;2. 行车速度快,网络基站的频繁切换导致语音传输「丢包」几率大;3. 垂直场景下的语义理解问题。 K5__9595

碰撞观点:

1. 由于车内噪音高,所以在语音采集方面需要有更新的技术去突破。虽然有人计算过在车内安装个位数的麦克风可以实现对信噪比的改善和提升语音采集准确度,但这么做有两个方式,一是和车厂深度合作,但这需要的时间周期很长,二是走后装市场,但麦克风的嵌入对于拆装车又很麻烦,从成本和产品设计角度都有一定难度。 2. 要想真正把语音放到车里面,需要和车厂建立相互信任的关系,从呼叫中心切入会是比较理想的点,这也是为什么车音网现在可以和马自达、雪佛兰等车厂合作的重要原因之一。

虫洞

作为年轻一代语音和人工智能领域创业公司,虫洞自称「草根」、「屌丝」创业者,但在我看来,这支「技术型理想主义创业团队」充满了新奇的想法和对未来语音人机交互方面独特的看法。今天来到未来汽车碰撞实验室的是虫洞联合创始人之一韦克礼(本来和他一起来的还有虫洞的 NAO 机器人,结果机器人出差了… 所以只好下次再来吧)。一上台他就表达了自己对于车内语音未来的看法:语音会是个过渡技术。他认为未来的人机交互模式会是以脑电波传输的方式进行交互。 K5__9639

碰撞观点:

1. 未来最终的汽车应该是「懂你」的汽车,未来车内可能会有一个「可养成的端」,可以根据每个人的个性和习惯、爱好以及出行方式不同,对驾驶者进行深度学习,从一个「工具」到「改变你的生活」,再到「懂你」。汽车会从一个功能性的机器,逐渐转变为有判断力和决策方式的「智能机器人」。 2. 虫洞强调「缺省式」上下文理解能力,这个能力也就未来能和汽车「对话」起来不可缺少的能力。

灵云

第一次参加未来汽车「碰撞」实验室的灵云(北京捷通华声语音技术有限公司)显然不太适应这种犀利的「碰撞」问答形式,销售副总监李胜利上台时稍显紧张,但这并不阻碍大家认识这家声称要「造人」的「技术宅」公司。从语音合成(TTS)、语音识别(ASR)、声纹识别(VPR),到自然语言理解(NLU)、光学字符识别(OCR)、手写识别(HWR),灵云似乎涉及到了所有和智能人机交互相关的技术,这取决于他们和清华大学已经其他研究机构的合作关系。同时他们也开放自己的感知云平台,希望开发者们加入。但捷通灵云不做车,是给第三方合作伙伴,由第三方和车厂进行沟通。 K5__9572

碰撞观点:

语音并不只是未来车内人机交互的唯一方式,未来应该是多方位的感知,例如利用语音合成「听」懂汽车对你说的话、利用光学字符识别技术在出现交通事故需要走保险的时候扫描上传证件信息、利用声纹识别技术对车辆进行加密等等。

到最后,持续了两个半小时的未来汽车「碰撞」实验室智能语音专场终于接近尾声,来参加活动的朋友们成功地喝光了我们准备的所有啤酒,但对于车内智能语音应用及未来人机交互这个话题的讨论并没有结束。略显拥挤的小院让来参加活动的「竞争对手」们真正地「碰撞」到了一起,在今后的一段时间内,我们身边一定会出现今天活动上某个公司的产品,至于我们什么时候才能真正地和我们的汽车畅通「对话」?你的车什么时候才能真正地「懂你」?我想这不仅仅是技术上的问题,还有更多行业思维以及用户习惯方面的问题。 K5__9652

我们不喜欢玩儿虚的,如果你不以产品说话,如果你对自己和产品不够自信,如果你不敢面对听众的质疑和犀利提问,那请你再继续修炼,因为敢来参与并顺利通过 GeekCar 碰撞试验的都是最强悍的 Geek,他们值得被尊重。他们中的某些人有可能在未来改变汽车产业、机械制造业、甚至人工智能行业。如果你觉得你是这样的人,那么请你联系 GeekCar,我们愿意和你一起创造历史。

 

0


Related Posts 相关文章

One response to “【活动总结】我们把一群做「语音」的人凑到了一起,然后聊了聊车

发表评论

电子邮件地址不会被公开。 必填项已用*标注