小i机器人研究院陈成才:努力做智能交互,向未来进军

2017年5月21日,由中国人工智能学会、中文信息学会主办,亿欧承办的2017全球人工智能技术大会在北京国家会议中心拉开帷幕。

5月22日上午是自然语言理解分论坛,分论坛主要围绕深度学习在自然语言处理领域、自然语言处理方法、人机对话系统以及智能交互等方面展开演讲。

演讲嘉宾主要有微软亚洲研究院常务副院长、首席研究员、ACL候任总裁周明,香港中文大学创新科技中心主任、香港中文大学工程学院副院长、香港广州创新科技协会会长黄锦辉,云知声AI Labs资深技术专家刘升平,小i机器人研究院常务副院长陈成才。

小i机器人研究院常务副院长陈成才在大会中作了“智能交互开启未来”的演讲,以下是对其速记整理。

陈成才观点总结:

1、计算能力的发展、大数据和算法的进步是本次人工智能起来的因素。

2、智能目前包括计算智能、感知智能和认知智能。

3、智能交互包括基础交互和深度交互。

4、智能交互运用到:聊天机器人;语音助手,即智能个人助理;智能客服机器人。

人物,陈成才,语音识别,人工智能,智能交互

【陈博士现场演讲实录】

大家好!我讲的内容可能跟刘博士有一部分是重复的,因为之前我们一直做语义理解这一块,语音识别厂商一直在做语音这块,后来大家发现这个东西分不开,所以一直在融合,我们现在在往语音方面找一些合作伙伴,语音厂商也往语义方面去做。

人工智能,对于普通的群众来说,觉得人工智能就是变形金刚,就是终结者。可是在产业界,我们就会想到自动驾驶,机器识别,类似的智能交互,还有AlphaGO。人工智能其实不是全能的,只是在某一个方向,某一个方面去解决一定的问题。

我们怎么去定义人工智能?现在人工智能没有一个非常明确的定义,没有非常明确官方的定义,因为人工智能的范围实在是太广了,我们选了两个比较有代表性的,比如斯坦福大学教授的是人工智能是关于知识的学科,还有MIT的说人工智能就是研究如何使电脑去做过去只有人才能做的智能工作。

人工智能从1956年诞生,1957年达到第一次高峰,当时就已经提出了“神经网络”这些概念,1970年,据说人们对人工智能希望太高,如果说想要的东西实现不了,失望就越大,1970年人工智能进入第一次低谷。

到了1986年,我们认为人工智能进入第二次高峰,一直到2000年还是到了一个低谷。最新的一轮,是从2014年开始,但实际应该是从2006年左右在深度学习方面就有一些进展,因为深度学习相关的突破,特别是在语音识别方面。

为什么这轮人工智能能够起来?我们认为有三个因素。第一是计算能力的发展,比如CPU,GPU,FPGA等等,然后是大数据,再有是算法的进步。关于量子这块,我们有一个参考的数字。现在的量子计算已经在20几种算法上能够证明可以达到指数级,或者平方级的加速。比如一个300倍整数的分解,万亿次经典计算机可能需要15万年,但是万亿次量子计算机可能需要一秒钟。

我们前面提到,除了计算能力和大数据之外,算法是一个很重要的原因。机器学习有五个学派,这边列了一下。最近新出了一本书《大演算》,我们前面看到的五个机器学习的流派,每一个流派都有自己的核心思想,都可以解决一类的问题。《大演算》提出能不能把五个流派的思想融合起来,能够解决所有的问题。

这到目前为止还是一个设想,现在的机器学习有一个问题,针对每一个任务,必须要有相应的数据,才能训练出来解决这个任务的一个模型。在实际应用中,如果想适应所有可能的情况,这是做不到的。就像刘教授讲的一样,终身学习可能也是一个类似的概念,希望让机器自己去学习,自己去成长,可以去累计学习更多的知识,形成自己的知识体系,甚至有可能形成自己的思想。

算法是所有的一切吗?我们认为这个事情是不对的。深度学习的算法被证明在很多方面可以起到非常大的作用,但是并不能解决所有问题,至少必须依赖数据才能解决一定的应用。我们认为算法、数据、系统,是密不可分的关系,最终才能够形成一个产业应用。

智能现在主要从三个方面来说,第一是计算智能,通过相关的统计分析可以实现。第二是感知智能,包括语音,还有传感器,各种各样的模式识别的方向。第三是认知智能,这是最困难的,必须语言知识,常识,还有推理相关的问题。

知识从哪里来?我们认为知识主要从几个方向获取,第一是进化,如果说一辈子不给他任何教导,学会的东西就有限,科学证明很多知识跟遗传是有关系的。所以通过进化,从生物的角度,很多知识是可以继承下来的。

第二是经验,你去尝试做很多事情,做了之后可以获取经验,这个经验就有可能形成你的知识,形成到知识结构里面去。

第三是文化,通过看书学习、受教育,或各种各样的方法,得到你想要的知识,形成自己的知识体系。

最后,如果说源算法能够实现的话,可能计算机能够实现知识的自动学习归纳过程,现在可以做一些辅助或者要求不是非常高的自动学习的方法。

各个科技巨头都投入AI的研究,国内的巨头也在进行投入,各个IM平台都在引入Bots开发的平台。

这是几个IT的咨询机构,他们对人工智能市场价值的评价,比如埃森哲认为2035年人工智能会让生产率提高40%,麦肯锡认为2055年50%的工作会实现自动化,Gartner认为2020年85%的客户服务都由人工智能来做。现在国家把人工智能作为一个国家的战略。

人工智能可以做什么事情?现阶段从基础资源方面,计算能力还有数据,是人工智能发展必不可少的基础。在上面会有自然语言的处理,还有问答,语音,各种各样的技术,可以形成各种各样的产业运用。

我们主题是“智能交互”,我们从2004年一直在做聊天的机器人,一直到2010年,我们尝试在商业领域用智能问答解决一些问题,比如在智能客服领域做了比较多的工作。这两年因为有很多竞争对手出来,在做类似的事情,所以在思考智能交互的方式未来会怎么发展?

我们可以把智能交互划成三个层次,第一,基础的交互可以解决一些简单、明确和重复的问题,比如普通的聊天问答,或者是简单的问题。第二,上面一个层次就是领域交互,因为会有非常多领域的逻辑和专用的词,需要在领域里面去解决交互的问题。第三,会有更深入的特定场景下复杂问题的处理。

基础交互主要需要包含这几个方面。

比如多种问法识别,比较成功的问答系统,不管用户怎么问,都要能够准确的识别他的意图,需要识别各种不同的问法。现在有几种不同的方式,有的通过搜索引擎的方式,有的通过关键字的方式去做,不管怎么样,都要想办法去解决用户不同问法识别的问题。

第二是模糊问题的引导,有时用户意图并不是非常明确,需要做出一定的引导。

第三是通用聊天的知识,日常对话的方式,通用聊天用深度学习的模型,用一些训练数据,就可以实现比较通用的聊天的支持,不管怎么说,都能够给你组织出一个答案出来。然后是自动纠错,实际应用中,比如写了错别字,或者用了拼音,会有自动纠错的功能。

最后是敏感词过滤,生产系统的应用,特别是在中国,如果没有敏感词过滤的功能是不行的,因为正式应用的话一定会有强烈的要求。

基础交互这块,问法的区别,自动纠错,敏感词过滤,通用聊天。领域交互,需要行业的经验,还有行业专用术语,专用的服务流程。

深度交互,将来在智能交互上需要解决的,第一是多轮对话的问题,第二是动态场景的问题,第三是多句组合意图,第四是深度推理,第五是有序问法,第六是知识图谱,第七是多意图理解,第八是意图推荐,第九是自动上下文,第十是动态载入

多轮对话,有一个例子,你去完成某一个事情,需要给你反复的交互多轮,才能得到所有的信息,最终帮你去办理业务,这是多轮对话的事例。

动态场景,跟机器人交互的时候,比如进入了一个天气的场景,会实现自动的上下文,自动的跟天气相关的信息处理,比如订票,识别到你进入到订票的场景,订票需要的出发地,目的地,时间,预定票的类型等等信息,都必须要通过主动的跟你交互收集到,才能完成后续的处理。

多句组合意图,刚开始并没有时间实际的需求,之后根据交互内容可以识别出实际的需求。

需要实现一定的推理,比如他问你贵阳的气温是多少,接着又问比上海低多少,除了上下文处理之外,还需要取出上海的温度,然后跟贵阳的温度做一个对比。后面又问比遵义高多少?但实际上遵义是比它低的,回答就会说“比遵义低2度”。

基于知识图谱的推理,现在的知识图谱可能准确率不是非常高,但是可以解决一定的问题,在实际应用中,你去做一个非常通用的知识图谱是不现实的,但是如果在一个限定领域里,通过一些知识图谱的方法,以人工辅助的方法去建立知识图谱,利用相关信息可以实现很多的推理,就像人物关系的推理。

这个也是一个事立,比如问华为P9生产商的总裁是谁,会找到是任正非,通过知识图谱可以实现一定程度上复杂关系的推理。

还有多意图的理解。他说“把空调打开,并且调到28度,把电视关了”,这里面有三个意图,怎么准确识别三个意图,并且把每一个意图都处理掉呢,需要一些方法去处理。有的时候一句话里有多个意图,但是需要有一个主要意图,可能说的两个意图是废话,只有一个是主要的,这个需要其他的方法处理。

这是意图推荐,基于历史交互记录,或者是用户画像,主动推荐一些感兴趣的内容。

自动上下文的关联,我们用了一种比较取巧的办法,我们把知识用一个文体的形式去组织,在一个领域之内,可能会有一个比较通用的文体,把相关的属性全部继承过来,去做后续处理的时候,会把文体相关属性的关系都会带进来,就可以形成自动的上下文处理的机制。

这是我们在做一个医疗项目时候遇到的问题,在医院里面治疗某一个病都有不同的治疗方法,不同的病症,不同的治疗方法,有不同的参考价格。如果问治疗肝癌最经济的方式是什么,可以通过这个表格自动的找出来是哪一个。如果医院在某些信息有更新的话,只要更新这张表格,我的交互系统不需要做任何变动,就可以实时更新这些信息。

我前面讲的是自然语言处理,或者是语义相关的方面,智能人机交互将来要实现的是全渠道、多模态的人机交互,综合文本,还有视觉和语音相关的信息,还有体感等等,形成综合的人机交互,在最终的结果中才能实现跟人一样的交互体验。

智能交互可以用在哪里呢?

第一个方向用在聊天机器人上,比如2004年做的聊天机器人,还有小冰。

第二个方向是语音助手,智能个人助理。

第三个方向是智能客服机器人,不单做简单的问答,我们在很多方向都在扩展,可以用在员工的培训,员工坐席内部的管理,员工服务,还有推荐营销,电话导航,电子渠道的智能客服等等。还有智能机器人产业应用,现在还是初始阶段。

智能车载,智能家居,还有智能终端,智能礼品。现在小朋友用的玩具,或者是早教的设备,也可以加入这种内容。智能办公可以跟内部系统去做集成。智能法务上也会做一些探索的应用。

在医疗方面,用自动的方法去做诊断,在中国是很难推行的,因为国家除了医生之外不允许提诊断这个事情,用智能方法只能做一些预诊,或者是给医生做一些辅助。

小i机器人一直在做一些语义理解,或者智能交互方面的事情,我们从2010年做商业化应用的探索。我们是做语义理解的引擎,实现自然语言的分析,深度的语义理解,还有知识推理,结合上下文和场景的信息,去做一些动态的答案生成,我们所有的一切都依赖于知识。

现在我们的系统在正式商用的时候,很多时候还是需要人去参与,让知识库有比较高的质量。在用户的实际生产系统中,他们会要求不能出任何错误,特别是像建设银行,民生银行,如果交互的时候机器人回答了骂人的话,或者是语气不太对的话,这就是一个生产事故,这在生产中是不允许发生的。目前的机器学习做一些辅助的手段,减轻工作量,人最终确认之后才用到生产系统中去。

我们主要以知识为核心,用相关的自然语言处理,或其他的方式,拓展到具体的应用里面。

相关领域
商业