云知声AI Labs刘升平：如何在人机对话系统中提升用户体验

2017年5月21日，由中国人工智能学会、中文信息学会主办，亿欧承办的2017全球人工智能技术大会在北京国家会议中心拉开帷幕。

5月22日上午是自然语言理解分论坛，分论坛主要围绕深度学习在自然语言处理领域、自然语言处理方法、人机对话系统以及智能交互等方面展开演讲。

演讲嘉宾主要有微软亚洲研究院常务副院长、首席研究员、ACL候任总裁周明，香港中文大学创新科技中心主任、香港中文大学工程学院副院长、香港广州创新科技协会会长黄锦辉，云知声AI Labs资深技术专家刘升平，小i机器人研究院常务副院长陈成才。

云知声AI Labs资深技术专家刘升平在这里做了“人机对话系统体验提升之道”的演讲，以下是其演讲速记整理和主持人问答环节。

刘升平观点整理：

1、完整的人机对话的系统和架构：第三方的内容和服务整合在一起；

2、设备更像专家；

3、语音识别和语音唤醒都不是百分百可靠地的；

4、从语义到语用，在人与设备交流上，知识是目前最大的挑战；

人物，刘升平,人工智能,人机对话,自然语言技术

【刘升平现场演讲实录】

刚才周老师介绍了深度学习在NLP应用的方法和挑战，刘教授介绍了终身学习，黄教授讲的内容，让我想起一句话是“谣言止于智者”，我想谈一下在自然语言处理的应用中碰到的一些挑战，特别是人机对话中怎么提升用户的体验。

我先简单介绍下什么是人机对话系统，再给大家介绍一下我们通过四、五年的实践之后总结出来的对于体验至关重要的三点，一个是全双工的交互，而且是要把语音和自然语言技术融合在一起。第二是从语义到语用，不能仅仅看一句话的字面含义，要结合上下文去理解真实的会话含义。第三是闲聊到知性，不能只是闲聊，我们聊天时除了打发时间之外还希望获取知识，获取收益。

我们现在处在一个很变革的时代，人工智能技术这两年飞速发展，在物联网时代，最主要的交互形式是什么？现在很多认为人和机器的对话系统，可能会成为未来主要的交互方式。人机对话系统吸引了大众的注意，是在2000年左右，SIRI还只是在iPhone手机上的一个APP，通过手机，通过语音去找电影票或者订餐。

2014年完全地硬件化了，Amazon提出了智能音箱的概念，从交互上差别非常大，在手机上我们的语音这块都是近讲的方式，语音识别准确率比较高，也不容易受噪音和环境的影响。但是对智能音箱，说话的距离可能离音箱有3到5米，对语音识别，自然语言处理，会提出新的挑战。我们在一些科幻电影里还能看到更拟人的人机交互的场景，比如3D全息投影，目前还是在智能硬件主导的时代。

我们有一个简单的视频，大家可以感受一下什么是人机交互，这是一个例子。（VCR）

这就是一个简单的对话系统的例子，这个设备会装在车内的后视镜，让司机可以通过语音去打电话，或者导航，可以找餐厅，可以听歌。

从技术上来讲，它是经典的人机对话系统，这个对话系统由几部分组成，第一就是语音识别，要听清用户的话，然后是口语理解，就是要听懂用户的话，再通过对话管理策略生成应答，用自然语言的方式表达出来，最后再通过语音合成技术把它播报出来。

有距离的情况下由于不能直接去摸这个设备，需要语音唤醒。在唤醒之前还要对远讲的做一些回声消除等技术。再通过语音和声纹识别，我们知道这个话的内容，说话人的性别，年龄，甚至是心情。

我们拿到文字以后，去做口语理解，不能仅仅是看文字，要通过语境，结合用户的属性和一些知识，把这些整合在一起以后，再生成一个应答，这个应答以语音合成的方式给表达出来。生成应答的过程中，通过推荐，我们需要把第三方的内容和服务整合在一起，这是比较完整的人机对话的系统和架构。

在人机对话系统里面，比如通过语音控制空调，最开始是摇控器的替代版本。但我们希望设备更像是一个专家，专家跟助手的区别，助手是用户说什么就做什么，而专家应该是有知识的，可以回答问题，用户只需要表达浅层的需求，具体怎么做由专家帮着去执行。比如用户说睡觉，空调可以根据用户的习惯来进行设置。

如果我们去做对话系统，如儿童教育的机器人，或者在车里通过语音去做控制，去做交互，或者家里面通过语音来控制电视，控制空调等等，怎么提高用户体验呢，从公司成立到现在一直在做这方面，而且致力于做产业化。

我们提炼出三个要点：

第一是全双工交互，基于语音和自然语言的理解，紧密耦合。不能让语音识别只是输出一串文字，然后在文字基础上去做理解。因为文字有可能出错，要识别这个话是谁说的，这个话里面有没有停顿，停顿多长时间，重音在什么地方。

语音唤醒是非常重要的技术，如果有很多设备，通过语音唤醒去区分，我们很多设备说指令之前先说唤醒，其实会屏蔽一些无关的对语音的影响，比如旁边放着电视，这个时候通过语音唤醒就可以进行屏蔽。

语音识别不是百分之百可靠的，语音唤醒也不是百分之百可靠的，这个时候一些误唤醒，误识别，对用户体验的影响非常大。我们在空调这块，可以做到48小时播放电视，或者新闻联播的情况下，只会误唤醒一次。市面上有一些智能音箱，8小时误唤醒7次，那边放着，会莫名其妙的说“您好，有什么可以帮助您的？”，晚上会觉得挺吓人的。

语音打断。比如在播放TTS的时候，可能很长，不想听了，想换一首歌，这个时候就要打断。这个时候麦克风接收两个信号，一个是设备发出的声音，另一个是人的指令，此刻要把设备发出的信号引到收音口，去做信号层的减法，这个是需要硬件去做支持的。

我们目前是两种方式，一种是说唤醒词，还有一种是用语音指令打断，直接说我的指令，这就是我们说的全双工的交互，设备接受指令，人也可以同时去打断它。

最重要的困难在什么地方？比如用户说“导航到。。。东单。。。公园。。。嗯啊。。。”，说话过程中中间会有一些停顿，还要识别出来噪音，客户端不需要做任何处理。我们希望把前端的语音信号信息传递到后端，再综合自然语言理解结果，去做最终的判断。

语言的信息包括停顿时长、声音的能量值、上下文的信息，如果电视放一些声音，或者旁边人说话的声音，不可避免的被设备采集到，然后转成文字。通过这些特征，我们可以做全双工的，最接近人跟人对话的体验。

第二是从语义到语用。语义往往是字面上的含义，而语用主要是研究人和人对话过程中话语的含义，你说一句话，你的意思绝对不是文字表面上的意思，就像今天的天气，如果女生说好冷，你会怎么理解这个话？你会说是挺冷的，还是说她希望你握着她的手？

比如我们开会的时候，领导说一个字“灯”，到底是开灯的意思还是关灯的意思？从文字上理解不出来，要结合语境，看这个灯现在是开着还是关着，还要看房间的亮度。

语用是存在在人和人的对话过程中。当我们做到人和设备对话的时候，我们最终目的是想让这个设备像一个人一样可以对话，这个时候语用也是非常关键。目前语用在学术界，特别是在计算语言学上，研究得不是很多，而做纯语言学的研究得比较多一点。

如果我们把语用放到人和设备交互的环境下，到底有那些语境？说话的时间，地点还有场所，场所可能是在车上，家里，甚至是户外，比如对于空调来说，室内的温度，室外的温度，这也是非常关键的物理语境信息。

空调控制里面制冷模式，或者制热模式，如果口音不是太准，很有可能会识别错误，识别错了对于用户体验是非常不好的。如果我们结合一些语境信息，说这句话的时候看天气是什么样的，是高温还是低温，设备是在南方还是在北方，这个时候就很容易判断用户的意图是想制热还是制冷。

还有设备上的显示，因为我们设备带屏幕，屏幕也是很重要的语境，比如我们跟电视交互的时候，你说“要看《甄嬛传》”，会显示出来各种版本的。如果下了指令，设备执行不了，错误信息也是一个上下文，最难的上下文是知识，这是目前最大的挑战。

用户画像也是种知识，用户的性别，年龄。还有机器画像，把设备当成一个人，肯定会有属性，有虚拟化的属性，有性别，年龄，喜好，有各种信息，甚至大学的时候有没有谈过恋爱，都是设备属性。另外，如果我们做中控，最重要的语境是中控关联的设备，每个设备的状态，每个设备的能力，如果对中控说“我要睡觉”，中控要决定是不是关窗帘，是不是要关灯，是不是要把空调设成睡眠模式，不需要你一个一个去说，只要表达出你的意图就可以。

第三，我们一再强调知识，强调知识的重要性，我们通过知识去聊天，去做问答，去做推荐。具有知识性的聊天，有两个非常重要的技术，一个是微软亚洲研究院做的DocChat可以从文档里面去抽取聊天应答，第二是华为李航老师团队做的GenQA，可以在通过深度学习模型生成聊天应答时，去访问知识库中的知识。此外，基于知识库，还可以做自动问答以及个性化推荐。

最后，介绍下我们对人机对话系统做产业化的尝试。从产品形态来讲，我们提供云端芯的形式，我们在端这一块会提供完整的解决方案，最后在芯片这一级提供语音识别能力，因为语音识别是依赖信号这一层的，通过完整的云端芯的方案可以有非常好的体验。

我们还提供语义云服务，支持的领域非常多。基本上覆盖了各种设备上的语义需求。支持在各个设备上的解决方案，包括在电视，车机，音箱，家居等方面做了很多优化，客户也很多。

重点讲一下智能家居，在语音空调这块，我们是世面上唯一量产出货的供应商，格力，美的，长虹，海尔都在用。在车联网这块，除了车的车内后视镜之外，还有在大屏中控，也可以通过语音去交互。我们跟合作伙伴已经有将近一千万的后装市场出货量，占了70%左右的市场份额。

提问A：刘老师您好！我现在做的是人机对话的系统，我们在开发过程中遇到一些问题，比如你说话的时候无法进行错误的纠正。第二就是意图识别，多轮对话，能不能在这方面说一下吗？

刘升平：这个问题太大了。

提问A：我们在学校里面做不好这些方面。

刘升平：人机对话系统要做好真的很难。每一个步骤都有可能出错的情况下，要顺利完成用户的任务，技术细节我们可以会后再讨论。

提问B：你们的语音理解，比如说这个文字的概率是多少，我后面可以选，如果只是一句话，如果错了就是错了，想纠正也没有办法纠正，这个做得到吗？

刘升平：目前大部分语音识别，只会提供一个最好的结果，我们会提供N个结果，目前还没有公开，只是我们内部使用。