中科院院士张钹：人工智能将走上知识驱动与数据驱动的结合

中科院院士张钹：人工智能将走上知识驱动与数据驱动的结合 | 区块链数学科学会议

近两年，区块链概念成为全社会的热点话题，但大部分人更多关注的是比特币、以太坊等加密数字货币，忽视了区块链技术本身。而区块链技术，离不开数学。 12月17日-18日，区块链数学科学会议在北京召开。本次会议为数学家、密码学家、计算机学家、经济学家等各领域专家提供一个学术交流平台，希望在初期阶段，专注于探索拆解现有的区块链数学的范式，组合区块链技术的数学工具，并且通过类比、分析、归纳等方式，提出“区块链数学猜想”。计算科学家、中科院院士张钹在题为“走向可解释与鲁棒的人工智能”的演讲中表示： “当前人工智能方法存在局限性，只能在具有充分知识或数据、稳定性、完全信息、静态、特定领域与单任务的场景下适用。数据驱动的本质缺陷在于只能学习重复出现的片段，不能学习具有语义的特征。因此，后深度学习时代将知识驱动与数据驱动结合，走向真正的人工智能。” 以下为现场速记，由巴比特整理发布：大家好，我今天演讲的主题是“走向可解释与鲁棒的人工智能”。我非常的赞成需要不同学科的碰撞，才能产生新的成果。1956年，人工智能（Artificial Intelligence）诞生于美国，被定义为“研究与设计智能体（Intelligent Agents）”。这个定义中，用了研究和设计两个词来形容这个领域，就说明这个领域既是科学也是工程。所以，人工智能不仅要关注科学的部分，也要关注技术和应用的部分。另外就是智能体，或被称为“智能机器”，智能机器指的是能够感知环境，经思考后采取行动使成功机会最大化的系统。但是人工智能很难说是一个机器，也很难说它是一个系统，所以特别发明了一个词叫Agent，我这里的翻译是叫做智能体。人工智能就做三件事：感知、思考决策和动作。第一件事儿就是要模拟人类的理性行为，就是中间那部分，内容理性行为，我们要用计算机来模拟它。另外就是感性、感知，听觉、视觉等等，最后是动作。人工智能的现状和符号模型我们可以把人工智能分成两个阶段：1956年至2000年，传统AI的阶段；2000年至2015年，深度学习的阶段。首先在人工智能建立初始，就对人类的智能行为提出一个模型，这个模型叫做基于知识和经验的物理符号推理模型。也就是说，当时认为人类的说话认知包括了感性和理性都可以用这个模型来模拟，目前看来事实证明，这种模拟只能模拟理性行为，理性行为就利用基于知识和经验的推理模型来构造。人的理性行为基础是两个：知识、经验和推理能力。如果能够把人类的知识和经验放在计算机的知识库里面，我们能把推理能力表现在它的推理机制里面，我们就可以做出来模仿人类理性行为的系统或者是人工智能系统。大家看起来很简单，如果我们能够把医生看病的知识和临床经验放在知识库里面，把诊断的过程变成一个推理过程，放在机制里面，这个系统就能看病，确实在70、80年代的时候，美国、中国都做过类似的医疗诊断系统，用的就是它。但是，这里要说一点，这些知识和经验都是通过人工编制，输入到计算机里面去，这是它严重的问题。另外也是当时提出来的另外一个模型，所谓大家现在讲的人工神经网络、机器学习也好，就是这个模型。这个模型是用来模仿人的感知的。大家想想，感性的知识来自何处？不是来自于知识，不是人家教你的，来自于观察。所以，把人类通过观察学习的这种过程用一个神经网络的机器学习来模仿，现在所有的图象识别、语音识别都是用的这个模型。传统模型的优缺点这里的问题在于，特征的输入是人工输入的，人工选择的特征输入，这个是传统人工智能的一个最大的缺陷，所以后来为什么会出现人工智能的冬天。就是因为用人工的方法来输入特征来讲这是很困难的，有的时候还做不到。比如说人类的知识和经验你无法描述，所以这就使得人工智能很难做出来一个实用的系统，后来就变成大家对它不寄予很大的希望，只能在玩具世界或者是在实验室里做一点儿系统，做出来的实用系统是很难的。当时美国为了做一个医疗诊断系统，结果花了六年的时间才把专家的知识放到计算机里面去，而且这个系统后来还没有用上。这个系统的优点就是说它跟人类的系统是一样的，所以可理解、可解释，而且鲁棒性也比较强。缺点就是刚才说的手边知识，需要来自专家的知识，是昂贵的、难以推广的。深度学习时代这个事情有重要的变化，就是深度学习。这个深度学习大家知道，实际上只是把神经网络这个层次增加了，原来只有1层，变成2层以上，把机器学习起了一个根本性的改变，这个是大家没想到的、出乎大家意料的。这个根本性的改变在于输入不需要人工选择特征，而是原始数据。这是什么意思呢？你用这个工具的时候，不需要专业知识，过去要搞人脸识别，你必须要搞清楚人脸识别是根据什么特征来识别的。因此，做过十年人脸识别的人跟刚刚进入做人脸识别的人，他的经验要多得多，你没有这方面的经验，你要从头做起。但是现在不一样了，你做了十年的人脸识别跟刚刚进去的人脸识别，大家是一个起跑线上的，因为只要你有数据，我就不知道他是什么特征，机器自动学习。所以，这个问题就变成了深度学习完全改变原来模型的性质，变成了一个通用的工具，它通用，就等于说人脸识别学人脸识别，你做大数据的学金融，只要把原始数据输进去就可以了，不需要太多金融的知识。所以，人工神经网络的性质发生了变化，从单纯的函数映射到表示学习，就自动学习表示方法。这就是我们现在深度学习广泛传播大量应用的一个重要原因，谁拿去都可以用。但是这个问题大概三、四年前大家也发现了，大家以为是很完美的工具，其实现在发现这是一个非常不完美的工具。自然语音识别模型深度学习的影响有大？我们原来搞语音识别的时候，必须人工选择特征，这个特征一经过处理以后非常复杂，用的模型是这个模型，用的特征是倒拼图推进，一会儿要把语音变成拼图，拼图又返回去积分，后来都不知道变成什么样子了。现在不一样了，有了深度学习，原始的拼图、原始的波形，输进去就可以了。这个改变是非常本质的，就是说2001年用这种模型，以前用这种模型，基本上只能达到80%，几乎不能用，现在已经变成了商品，所有的商品都是用的深度模型，识别率是一般的95%或者是更高，有的还可以新增，比人类的还好一点儿。这个问题就是一步的变化，从原来的模型变成一个深度模型，把层数增加。当前人工智能方法的局限性当前人工智能方法的局限性在于只适用于以下场景： ·具有充分知识（能清楚表述的问题）或数据 ·确定性 ·完全信息 ·静态（按确定规则演化） ·特定领域（领域边界清晰）与单任务这些不用解释了，大家一看就明白，我只解释一个完全信息。大家看一下，现在AlphaGo，过去的深蓝，为什么做得这么成功？就是因为这个棋是完全信息博弈，如果是完全信息的话，对于计算机来讲是极为容易的，绝对是会超过人类的。所以，围棋、象棋最终机器是会超过人类的，只是时间问题。但是如果你这个变成不完全信息，比如说像牌类，现在不管是四人桥牌也好，四人麻将也好，计算机根本不是人类的对手，原因就在于不完全信息。对决策也是一样，如果你的决策是完全信息决策，是完全信息决策，机器绝对会超过人。但是如果你是不完全信息决策，那计算机跟人类相比还差得远。但是很不幸，所有的决策场景都是不完全信息，实际的决策场景都是人的。这里还有确定性、静态演化、特定领域、限定领域，如果领域不限定，那这个是不行的。基于深度学习的识别系统与人类感知还应该看到应用深度学习或者是大数据建立系统，有非常大的缺点，跟人类的认知完全不是一码事。这里面的例子很多，就是我题目里面讲的两个缺点：不可解释性（最大的缺点）和鲁棒性很差，非常脆弱。犯大错与不可解释性我举一个很简单的例子。物体识别系统，你可以做得识别率甚至超过人，计算机目前来讲在给定的图像架构下，它的识别率是可以超过人的。就是这样的系统，你给它一个噪声，可以识别成为知更鸟。你再随便给它一个噪声，你可以制造一个噪声，让它识别为猎豹。换句话说，这个系统我们所谓的模式识别系统，不是人类的感知，只是一个机械的分类器，它能够把知更鸟和猎豹区分开来，但是它绝对不认识什么是猎豹，什么是知更鸟。也就是说它只达到了低等动物的水平，而不是人类的水平。鲁棒性差这个是我们的博士生做的，这个是阿尔卑斯山，计算机看起来是阿尔卑斯山，人看起来也是阿尔卑斯山。我们只要给它一点点噪声，这张图的阿尔卑斯山和这张图的唯一区别，就是噪声多一点儿，人类看起来当然是阿尔卑斯山，计算机看起来是一条狗，而且我们可以让它的自信度达到99.99%，它99.99%的把握认为它是一条狗。数据驱动的本质缺陷是只能学习重复出现的片段，不能学习具有语义的特征。这就是今天大家在大量讨论的人工智能的安全性问题，联合国也要讨论这个问题，这个是由这个引起的，不是说要做出来人工智能超过人，这是有危险的。不是，这个危险在于系统极端的脆弱性。 [...]