被嫌弃的 AI 语音(二)——时髦、炫技和卷到飞起

· Sep 21, 2022 333

图片来源:Unsplash   大家好,我是最近对智能语音意见很大的 Mr.Yu。 不久之前,我们在这个专题的第一期《被嫌弃的 AI 语音(一)——不只是因为它像个傻子》里,对语音的现状、槽点、伪需求和背后的成因进行了一番探讨。 总地来说,智能语音是个被打包得很好的产品概念,同时也存在太多需要祛魅的地方。 正因为一开始就认识到了这一点,所以我们也没有将讨论的空间局限在车内。 这次我们依然会就 「 既然都说智能语音好,为什么还是有这么多人不喜欢它?」 的问题,以及更多的背后故事进行讨论。 为了更多维地了解问题的全貌和本质,我约了来自汽车行业不同链条的朋友们,抛开偏见和刻板印象,一起聊聊。 为了尽量保持内容的全面和易读,这个系列将会采用还原对谈内容的方式进行呈现。不是正式的专访,交流中也会有一些我个人的观察和思考。 文章涉及很多人的从业经历和个人观点,所以被强烈要求匿名,这次依然称他为 Mr.K。 这次的主角第二位 Mr.K,是一位在汽车语音领域深耕的人士。根据他的自述,在进入汽车行业之前,在语音行业头部大厂做过许多年的车载语音运营。 借用一下梁文道先生《八分》节目的 slogan—— 不保证成功,不一定有用。对于从业者来说,不停止思考才更重要。 以下是对谈的实录,Mr.Yu@GeekCar 是我,另一位是 Mr.K。 图片来源:Unsplash   Mr.K: 我看了你们写的一期讨论智能语音为什么智障的文章,还挺有意思的。 上一位 Mr.K 是位资深的座舱产品经理是吧?那这次我就以一个在语音大厂的车载业务运营岗位上工作过的人,来跟你讨论这些问题,我可能跟上一位 Mr.K 在很多观点上会不太一样。   Mr.Yu@GeekCar: 你肯输出不一样的观点就太好了。 其实上一位 Mr.K 也私下跟我说过,希望看到这个系列做下去,看看来自行业不同链条的大伙儿会有什么样的真知灼见。   Mr.K: 你们是从讨论什么是智能语音开始话题的,那我更直接一点: 我认为倚重语音的车,不算智能汽车。 也就是说,智能语音不会是智能汽车的一个必备条件。 讨论汽车智能的大前提是什么?是自动驾驶吧。 你想想,L4 甚至 L5 级别的自动驾驶都上来了,服务于驾驶的交互都没了,我要语音干什么?   Mr.Yu@GeekCar: 你的意思是,眼下我们之所以倚重语音,甚至将语音好当作卖点,是因为用户无法脱离驾驶行为,才衍生出来的。 之前我在写 Robotaxi 报道的时候提到过,商用自动驾驶的座舱里面空无一物,甚至设备高度定制化,也是一种可能性。本质上是以「 我爱干什么就干什么」 为核心,而不是别人决定我在座舱里面干什么。 图片来源:Unsplash   Mr.K: 对。顺着你的话说,到时候连那块屏幕都没有了,我在车里坐着就可以拿手机来做事情,所有的交互和需求都可以通过手机来完成,我还要语音干什么? 在上一个十年,我们会把车上放个支架、夹上手机当作很平常的事情。到现在语音已经成了新车标配,我们或许可以一定程度上放下手机了。 所以说,语音到底是一个阶段性产物,还是趋势? 你要让我说的话,语音是趋势,而且很明确。但现在语音的性质变了,被人们当作了一个时髦的东西。这里面要区分清楚,时髦跟趋势是两个完全不同的概念。   Mr.Yu@GeekCar: 时髦和趋势,我觉得这个话题可以展开说说。 大家能明显感觉到,有的内饰设计师倾向于把无线充电板「 藏」 到不显眼的地方,大概就是想让你开车的时候少碰手机,多用车机。   Mr.K: 咱们后面总结的时候再讨论,聊下来你就明白了。 回到文章想讨论的核心议题,语音为什么看起来像个傻子? 很多车厂和语音供应商在规划产品的时候, 他们开发的核心其实是依赖场景的,就是基于场景来开发功能。 语音如果没有场景化,对用户来说是很难区分的。 你们上次提到了能力边际的问题,这就很准确。很多普通用户对车上的语音,尤其新车的语音是没办法掌握能力边际的。所以大家对车的期待,浅层心理上就变成了对活人的期待,觉得语音能听得懂我所有的话,并且落实。 一个特别典型的例子,我可能上一秒还在让语音助手给我导航,下一秒我就问它「 你爸爸是谁」。也就当前的行业水平上来了,对这类交流还能应付。 其实这种不确定性,就是人类之间交流最自然的状态之一。你有什么办法呢? 一旦不好用的话,中国有句话怎么说来着?好事不出门,坏事传千里。一旦有一点不能满足我的诉求,我就会觉得你不好,我就会觉得语音不聪明,像个傻子。 所以咱们认真地说,语音的好与坏,它有量化标准吗? 图片来源:Unsplash   Mr.Yu@GeekCar: 也许没有标准,但是大家都在追求,或者说追逐。 就像咱们人类的日常交流里很自然的东西,车厂会将之特意标签化,而且会一定要说出来。   Mr.K: 对。宏观上来看,其实人们自然而然地把终极目的变成评断语音好用不好用的标准,就是能不能达成使用者的目的。《一代宗师》里叶问怎么说的来着?「 功夫,两个字,一横一竖。对的,站着。错的,倒下。只有站着的才有资格说话」。 语音作为工具来说,不可能在最开始就开发出所有的场景。所以厂商智能针对高频的场景和应用去打磨,导航、听歌算吧?打电话、问天气算吧?尽可能地在他们觉得高频的场景上面去做、去打磨。 但是我们需要正视一点,做了相应的工作,并不意味着开发的东西上了车就一定好用。   Mr.Yu@GeekCar: 这是为什么?   Mr.K: 咱们把买车的人统统叫做「 用户」,但用户也是十分细分的。 比如说有开卡车的,有开皮卡的。有开豪车甚至坐豪车的,也有自己一个人开迷你小车短距离通勤的。不同的群体对语音的诉求不一样,关注的点也不一样。 所以我想表达的第二个观点就是,其实好的语音产品是需要运营的。 举一个很简单的例子,科大讯飞以前有个类似智能音箱的东西叫阿尔法蛋,你有印象吗?   Mr.Yu@GeekCar: 我记得像是个早教机那样的智能音箱。 科大讯飞 阿尔法蛋 S   Mr.K: 对,这个东西现在卖得还很好,只不过不是卖给成年人的。对象是谁?从小小孩儿到义务教育阶段的孩子都是目标用户。 它有个核心功能,就是小孩子会每天问它问题,那它肯定会有答不上来的时候对不对? 所有这些答不上来的问题,都会返回平台。平台里面就会有人针对这个问题去编辑,告诉 AI 以后怎么回答。 比如有人问 GeekCar 的 Mr.Yu 是谁,它今天没有回答上来。然后过两天有人去编辑了一下,之后所有问这个问题的人都会得到答案。   Mr.Yu@GeekCar: 我想到了上一篇我们说的那句话, 有多少智能就有多少人工。   Mr.K: 对,我要说的就是这个。 我当然知道大家都是当笑话或者自嘲来说的,但要是当真的话,我会觉得并不是特别恰当。 因为要是这样的说法被当真了,就相当于抹杀了做算法的科技工作者们的价值和辛苦。 其实语音运营的本质,就是和用户一起,在调教好一个像小孩子一样的语音。你告诉它什么是正确的,它会记住,然后在再次碰到的时候告诉所有人。实际上,这个效率是不低的,而且并不是说特别深层次的人工介入才能完成。所以,我要反驳下上一位 Mr.K 的观点。 语音就像个小孩子,你越教它,它就越聪明,越好用。 … 继续阅读