刘俊峰:汽车都应配语音交互系统 无屏化仍有不少障碍

发布:汽车 时间:2018-01-10 16:22

北京时间1月10日上午,以“机器之光—2018 CES,腾讯汽车的朋友圈”为主题的特别沙龙活动在美国拉斯维加斯举办。

科大讯飞智能汽车事业部总裁刘俊峰介绍说,在2010年之前,几乎在车上主流的交互模式或者是逻辑,都是由国外的一些车厂设计中心和供应商联合制订的。再加上那时缺少互联网、缺少链接、缺少数据迭代,也没有更智能的计算平台,这就造成尽管花了很多钱去做语音交互和设计,但是用户体验却很糟。

据他透露,科大讯飞已经在做基于场景的语义唤醒,由其配合国内一些自主品牌厂商的设计中心,以及一些合资和外资品牌在中国的技术研发中心共同在做,开始重新制订标准。

刘俊峰认为,不管什么档次的车,都需要在车上有非常好用的以安全为主、层级比较短的扁平化为主的语音交互系统。

刘俊峰指出,科大讯飞一直在尝试做无屏化,但过程有很多的障碍。首先是人的习惯,人不愿意面对冷冰冰的机器讲话,大多数人认为应该有互动。但如果互动是无屏化的,用户又难以感受到互动的存在。

刘俊峰:汽车都应配语音交互系统 无屏化仍有不少障碍

以下为发言实录:

刘俊峰:在2010年之前,几乎在车上主流的交互模式或者是逻辑,都是由国外的一些车厂设计中心和供应商联合制订的。这个过程会造成从国外引入到国内的时候,只通过一个简单的汉化,造成很多界面操作的反人性。这也使得尽管花了很多的钱去做语音交互,去做所谓的设计,但是从用户在车上使用的体验来讲是非常糟糕的。

因为那个时候缺少了移动互联网,缺少连接,缺少数据的迭代,缺少更智能的计算平台,也没有办法把非常好的一套算法优化在嵌入式里面跑起来,这就使得想去突破变得异常难。

在2010年之后,至少我们可以勇敢地讲出来,从语音交互的这个点上,就是从交互的这一点上,我们现在已经是领先全球的。而且从2010年之后,我们几乎把每一项技术创新全都做到了世界第一。

比方说在车上可以支持离线版本的语音搜索,然后云端加嵌入式的语音逻辑,再到车内真正解决车开到120公里/时以上、高速关窗条件还能够支持85%以上的识别率,然后再到现在不用语音唤醒词了,当然唤醒词我们也是世界第一。

现在在做基于场景的语义唤醒,这样一些规则现在已经全部是由我们配合国内的一些自主品牌厂商的设计中心,以及一些合资和外资品牌在中国的技术研发中心共同在做,开始重新制订标准。

因为我们认为应该是这样的逻辑产生过程。我们遵循以用户体验为中心,以安全为第一等级的要求来制订。大概在2016年有一个报告,称基本上在车内很难用语音交互做完整的事情。但是现在我们输出的AI UI的1.0、2.0,已经基本可以做到用户不看屏幕,不做一个触屏动作,不按一个按键就可以完成整个流程,包括常用的功能在内。

我认为这个事情已经倒过来了,跟手机厂商的生产过程是一样的。我们现在有了移动互联网,有了更强大的运算平台,有了大家习以为常的移动互联网的使用经验之后,用过好东西就不想在车上用到差东西,这一步走下来就没有问题。

另外我认为不管什么档次的车,都需要在车上有非常好用的以安全为主、层级比较短的扁平化为主的语音交互系统。这套东西我们现在应该也是跑在前面。

我们一直在尝试做无屏化,这个过程有很多的障碍。一方面是人的习惯,不愿意去对着一个冷冰冰的机器讲话,它应该有互动。但这个互动如果是无屏化,怎么样让用户感受到这个互动的存在呢?

第二个,整个对话的场景打开之后,其实空间是立体网状的,而不单是一条场景走到头的,中间可能会跳来跳去。这个时候对语音识别的准确度和语义理解的准确度、搜索的准确度,以及对于用户属性标签的准确程度要越来越高。

另外一点,在车上现在也很难做到百分之百联网,我们看三五年到2020年有50%的车辆联网,还有50%的车联不联网,如果做到无屏化的交互,这个时候就有可能要求本地的处理能力非常强。用户不管你到底联网不联网,只是希望他随意地讲,你只要响应我一个准确的,我就觉得你是好用的。

再有就是像厂商对于一些新技术的追求,这些地方的追求是需要有节奏,这种控制的节奏也是我们一直配合厂商在把握的。

在AI未来发展中必须经历的五大应用场景中,我认为智能是我们最擅长的领域。

一方面,去年,科大讯飞在人工智能领域已经拿到了全球顶尖的实力和好的成绩。第二个是科大讯飞在汽车领域投入了15年,一直在做从语音到语音的事情,怎么听清,怎么讲明白。现在开始做图像的理解和图像识别,我们并不是才做,是在研究怎么往车上引入。所以现在,科大讯飞已经逐步形成从语音到语音、从图像到图像整个交互的链条。

另外形容一个人的聪明先是从表达上能做到能说会道、耳聪目明。我们在这一点上应该是可以帮助每一个主机厂,把他们整个交互的逻辑重新按照人性化的方式实现,并且形成自己核心化的东西。

网站地图