2022/09/21 - GeekCar

被嫌弃的 AI 语音（二）——时髦、炫技和卷到飞起

Mr.Yu · Sep 21, 2022 333

图片来源：Unsplash 大家好，我是最近对智能语音意见很大的 Mr.Yu。不久之前，我们在这个专题的第一期《被嫌弃的 AI 语音（一）——不只是因为它像个傻子》里，对语音的现状、槽点、伪需求和背后的成因进行了一番探讨。总地来说，智能语音是个被打包得很好的产品概念，同时也存在太多需要祛魅的地方。正因为一开始就认识到了这一点，所以我们也没有将讨论的空间局限在车内。这次我们依然会就「既然都说智能语音好，为什么还是有这么多人不喜欢它？」的问题，以及更多的背后故事进行讨论。为了更多维地了解问题的全貌和本质，我约了来自汽车行业不同链条的朋友们，抛开偏见和刻板印象，一起聊聊。为了尽量保持内容的全面和易读，这个系列将会采用还原对谈内容的方式进行呈现。不是正式的专访，交流中也会有一些我个人的观察和思考。文章涉及很多人的从业经历和个人观点，所以被强烈要求匿名，这次依然称他为 Mr.K。这次的主角第二位 Mr.K，是一位在汽车语音领域深耕的人士。根据他的自述，在进入汽车行业之前，在语音行业头部大厂做过许多年的车载语音运营。借用一下梁文道先生《八分》节目的 slogan—— 不保证成功，不一定有用。对于从业者来说，不停止思考才更重要。以下是对谈的实录，Mr.Yu@GeekCar 是我，另一位是 Mr.K。图片来源：Unsplash Mr.K：我看了你们写的一期讨论智能语音为什么智障的文章，还挺有意思的。上一位 Mr.K 是位资深的座舱产品经理是吧？那这次我就以一个在语音大厂的车载业务运营岗位上工作过的人，来跟你讨论这些问题，我可能跟上一位 Mr.K 在很多观点上会不太一样。 Mr.Yu@GeekCar：你肯输出不一样的观点就太好了。其实上一位 Mr.K 也私下跟我说过，希望看到这个系列做下去，看看来自行业不同链条的大伙儿会有什么样的真知灼见。 Mr.K：你们是从讨论什么是智能语音开始话题的，那我更直接一点：我认为倚重语音的车，不算智能汽车。也就是说，智能语音不会是智能汽车的一个必备条件。讨论汽车智能的大前提是什么？是自动驾驶吧。你想想，L4 甚至 L5 级别的自动驾驶都上来了，服务于驾驶的交互都没了，我要语音干什么？ Mr.Yu@GeekCar：你的意思是，眼下我们之所以倚重语音，甚至将语音好当作卖点，是因为用户无法脱离驾驶行为，才衍生出来的。之前我在写 Robotaxi 报道的时候提到过，商用自动驾驶的座舱里面空无一物，甚至设备高度定制化，也是一种可能性。本质上是以「我爱干什么就干什么」为核心，而不是别人决定我在座舱里面干什么。图片来源：Unsplash Mr.K：对。顺着你的话说，到时候连那块屏幕都没有了，我在车里坐着就可以拿手机来做事情，所有的交互和需求都可以通过手机来完成，我还要语音干什么？在上一个十年，我们会把车上放个支架、夹上手机当作很平常的事情。到现在语音已经成了新车标配，我们或许可以一定程度上放下手机了。所以说，语音到底是一个阶段性产物，还是趋势？你要让我说的话，语音是趋势，而且很明确。但现在语音的性质变了，被人们当作了一个时髦的东西。这里面要区分清楚，时髦跟趋势是两个完全不同的概念。 Mr.Yu@GeekCar：时髦和趋势，我觉得这个话题可以展开说说。大家能明显感觉到，有的内饰设计师倾向于把无线充电板「藏」到不显眼的地方，大概就是想让你开车的时候少碰手机，多用车机。 Mr.K：咱们后面总结的时候再讨论，聊下来你就明白了。回到文章想讨论的核心议题，语音为什么看起来像个傻子？很多车厂和语音供应商在规划产品的时候，他们开发的核心其实是依赖场景的，就是基于场景来开发功能。语音如果没有场景化，对用户来说是很难区分的。你们上次提到了能力边际的问题，这就很准确。很多普通用户对车上的语音，尤其新车的语音是没办法掌握能力边际的。所以大家对车的期待，浅层心理上就变成了对活人的期待，觉得语音能听得懂我所有的话，并且落实。一个特别典型的例子，我可能上一秒还在让语音助手给我导航，下一秒我就问它「你爸爸是谁」。也就当前的行业水平上来了，对这类交流还能应付。其实这种不确定性，就是人类之间交流最自然的状态之一。你有什么办法呢？一旦不好用的话，中国有句话怎么说来着？好事不出门，坏事传千里。一旦有一点不能满足我的诉求，我就会觉得你不好，我就会觉得语音不聪明，像个傻子。所以咱们认真地说，语音的好与坏，它有量化标准吗？图片来源：Unsplash Mr.Yu@GeekCar：也许没有标准，但是大家都在追求，或者说追逐。就像咱们人类的日常交流里很自然的东西，车厂会将之特意标签化，而且会一定要说出来。 Mr.K：对。宏观上来看，其实人们自然而然地把终极目的变成评断语音好用不好用的标准，就是能不能达成使用者的目的。《一代宗师》里叶问怎么说的来着？「功夫，两个字，一横一竖。对的，站着。错的，倒下。只有站着的才有资格说话」。语音作为工具来说，不可能在最开始就开发出所有的场景。所以厂商智能针对高频的场景和应用去打磨，导航、听歌算吧？打电话、问天气算吧？尽可能地在他们觉得高频的场景上面去做、去打磨。但是我们需要正视一点，做了相应的工作，并不意味着开发的东西上了车就一定好用。 Mr.Yu@GeekCar：这是为什么？ Mr.K：咱们把买车的人统统叫做「用户」，但用户也是十分细分的。比如说有开卡车的，有开皮卡的。有开豪车甚至坐豪车的，也有自己一个人开迷你小车短距离通勤的。不同的群体对语音的诉求不一样，关注的点也不一样。所以我想表达的第二个观点就是，其实好的语音产品是需要运营的。举一个很简单的例子，科大讯飞以前有个类似智能音箱的东西叫阿尔法蛋，你有印象吗？ Mr.Yu@GeekCar：我记得像是个早教机那样的智能音箱。科大讯飞阿尔法蛋 S Mr.K：对，这个东西现在卖得还很好，只不过不是卖给成年人的。对象是谁？从小小孩儿到义务教育阶段的孩子都是目标用户。它有个核心功能，就是小孩子会每天问它问题，那它肯定会有答不上来的时候对不对？所有这些答不上来的问题，都会返回平台。平台里面就会有人针对这个问题去编辑，告诉 AI 以后怎么回答。比如有人问 GeekCar 的 Mr.Yu 是谁，它今天没有回答上来。然后过两天有人去编辑了一下，之后所有问这个问题的人都会得到答案。 Mr.Yu@GeekCar：我想到了上一篇我们说的那句话，有多少智能就有多少人工。 Mr.K：对，我要说的就是这个。我当然知道大家都是当笑话或者自嘲来说的，但要是当真的话，我会觉得并不是特别恰当。因为要是这样的说法被当真了，就相当于抹杀了做算法的科技工作者们的价值和辛苦。其实语音运营的本质，就是和用户一起，在调教好一个像小孩子一样的语音。你告诉它什么是正确的，它会记住，然后在再次碰到的时候告诉所有人。实际上，这个效率是不低的，而且并不是说特别深层次的人工介入才能完成。所以，我要反驳下上一位 Mr.K 的观点。语音就像个小孩子，你越教它，它就越聪明，越好用。 … 继续阅读