中科视拓创始人山世光：AI产业需要赋能平台，让天下没有难开发的AI

2017年12月15日 8:00 ～ 17日 18:00，由钛媒体主办的2017钛媒体T-EDGE年度国际盛典在北京·朝阳举行。

12月16日的盛典上，山世光发表了精彩的演讲分享，提到2012年之后，因为互联网和物联网的发展，我们有更多机会收集大量数据，再加上GPU等高性能计算设备的普及，我们有机会完成大规模的机器训练。特别的，上面ABC三点中的A，即算法，最主要的就是指深度学习（Deep Learning）。

深度学习在计算机视觉领域，解决了或者推动了一大类非线性的映射函数学习的问题。这样的方式，使AI开发的方法论产生了极大变化。

但与此同时，从落地角度来看，依赖于有标注大数据的深度学习也还存在非常多问题。

首先，个性化需求非常多，可批量复制的“标品”比较少。以巡逻机器人为例，可能需要开发塑料瓶子检测系统，也可能是塑料袋识别，甚至是烂白菜的识别，这么多不同的物体的识别是非常重的开发任务。

其次，从计算角度讲，深度学习的计算成本比较高，端侧的计算能力需求较大。而且AI技术的生产效率现在还比较低。如何加快生产效率，需要大量懂深度学习的专业算法人才，而现在并没有这么多的人才储备。

现阶段，AI人才奇缺。行业的硕士毕业生大概30-50万年薪，博士是50-80万年薪。对比人才数量的稀缺，开发任务却十分繁重，如果每个任务都做要3-5个月才能完成，这是"灾难性"的事情。

【山世光现场演讲实录】

非常荣幸有机会来到钛媒体今年的年度盛典给大家做一次分享。

如果说创业，我是一个新兵。我在中科院系统工作了20年，从事基础研究和应用技术研发工作。我今天的分享有很多内容跟技术相关。我演讲的题目叫《计算机视觉技术现状展望和产业化》。

首先，我们说计算机视觉是什么样的学科，要做什么的事情？

很多人不了解这件事为什么那么难？如果看一下我们需要处理的对象，就会发现它确实是非常难的任务。

我们所谓的图像是用摄像头来捕捉物体表面反射的不同颜色的光，进行采样，每个点即像素都用红绿蓝三个不同的分量数值表示不同的颜色。所以，到了计算机里面，每幅图像就是很多很多0-255之间的整数值。大家看这些数。相信没有一个人在非常短的时间内，能够通过观察这些数告诉我图像里的内容是什么。计算机视觉要完成的就是这样的任务，通过对这些数的分析完成对图像内容的理解。

这次人工智能的浪潮，首先在语音识别和图像识别领域取得了显著的进步，并进一步引发了AI在更多领域的应用。

从图像识别或计算机视觉角度讲，在2012年，深度学习首次在Imagnet评测数据集上应用，一下子将分类错误率降低了10个百分点。从图像分类的角度来讲，在2011年，图像分类错误率是26%，到了2012年，利用深度学习之后，下降到16%。到了2016年，随着深度学习模型深度不断加深，错误率进一步下降到了2.3%。也就是说，大概在5年时间里，图像识别率的错误率降低了10倍。

下面是其他五个深度学习带来重要进步的典型例子。

在物体检测领域。所谓物体检测就是提供给一张照片，把照片里不同的物体，如车、人等物体框出来。2013年，在Imagnet测试集上检测正确率只有23%，到了2017年，正确率达到了73%，在视频里寻找30类物体也达到80%的精度。

在视频监控领域，我们希望能够对人、车、物进行检测识别，利用深度学习，现在很多系统包括中科视拓的技术都可以实现对人、车、骑行的准确检测、跟踪以及对性别、车型等属性的大致分类。

在图像分割领域，例如为了实现自动驾驶，给一幅图像之后，我们希望算法能够知道哪块是道路、哪块是树木、哪块是建筑，这是一个分割问题。从2013年到2017年，分割的准确率也从50%提高到了86.9%。

还有一个任务从2015年左右才开始逐渐得到重视，即所谓的“看图作文”，就是在提供一幅图像之后，希望计算机能够生成一句或一段文本描述图像里的内容。在过去两三年里，这一技术得到了非常大的进步，有些系统产生的文本描述已经可以和人对这个图像的描述媲美，甚至有些普通人已经不能够判断到底是机器自动生成的一段话，还是真人写出来的一段话。实现这一任务采用的方法也是以深度学习为基础的。

还有一些类似艺术创作的技术进展，比如我们可以通过计算给一幅图像转化风格，把一个人的头发颜色改掉，加上一个刘海，或者加上眼镜，所产生的图像可以以假乱真；我们也可以把一副普通的图像变成莫奈风格的油画，把马变成斑马，把冬天的照片变成夏天的照片。

上个月，iPhone X的发布使我们进一步对人脸识别应用有了更加深刻的认识。其实在人脸识别领域，过去两到三年，也出现了2-4个数量级的错误率下降。苹果声称iPhone X所采用的FaceID错误率大概在百万分之一，意味着如果有一百万个人捡到你的手机，只有一个人可以冒充你解锁成功。因为它采用的传感器是RGBD相机，里面不仅有彩色照片，还有深度信息、近红外信息，同时在注册阶段也会捕捉你的多幅照片，以及在识别阶段也是近距离进场的识别等等，这些方式都使得iPhone X的FaceID识别任务成为人脸识别领域一个相对比较容易的任务。其实三星Note3几年前就已经可以用人脸识别解锁，华为也在去年与我们合作将人脸识别应用到了其荣耀Magic手机上去实现对手机的半解锁。

其实人脸识别有非常多不同的应用场景，手机的应用只是其中之一，即使是一比一验证你是不是你的任务，也有不同的应用场景。比如，在机场、车站等应用场景，用身份证中的卡内人脸照片和持卡人人脸比对，在过去3-4年里错误率大概下降了2-4个数量级，达到了万分之一甚至更低的错误率，即有一万个人试图冒充你，只有一个人可能成功，在这种情况下，本人持自己身份证可以有95%以上的正确识别率。企业员工刷卡后进行人脸验证的正确率则可以高达99%。

对于这些技术背后的AI，如果我们用一个简单的公式来表达，那就是“A+B+C”。A是Algorithm即算法，B是Bigdata大数据，C是算力Computing。我想这样的公式或这样的说法，最近一段时间大家都越来越熟悉了。这三者中，A即算法，最主要的就是指深度学习算法了。

所谓深度学习其实并不是新的技术，在上世纪八十年代中后期的时候，理论、方法就基本成熟，但因为当时没有大量数据，没有足够强的计算能力，这就使在当时我们不可能发挥它的作用。

2012年之后，因为互联网和物联网的发展，使我们有更多机会收集大量数据，再加上有GPU等平民化高性能计算设备的出现，使我们有机会完成大规模的深度学习算法的训练。

深度学习在计算机视觉领域，解决了或者至少推动了一大类非线性的映射函数学习的问题。换句话说，给我们一张照片，这些照片就是一些数值，形成输入x，我们通过深度模型学习一个F函数，用F作用于x，即F(x)得到我们想要得到的Y，这个Y可能是一个标签（比如猫，狗），也可能是我们想要分割的结果。

这样的方式，使我们做AI的方法论产生了极大变化。从过去，我们大量依赖人类专家知识来设计算法，到现在，变成有大监督大数据驱动的方法为主。

以一个具体的应用需求为例（从客户那挖掘出来的案例）。

我们一个客户做了小区巡逻机器人，物业希望这个机器人可以帮助解决小区管理中的一个痛点问题。小区里经常有小狗乱拉屎，所以物业需要一个狗屎检测系统。这样的话，巡逻机器人可以及时发现这样的垃圾，然后“报警”，由保洁及时来清除掉。

在没有深度学习的时候，我们需要做的是：

■ 第一步，收集一定量的包含狗屎的图像数据。

■ 第二步，人工设计或选择一些特征。

■ 第三步，选择某种分类器在收集的数据集合上测试它，看它效果好不好。如果不够好就回到第二步，不断进行反馈和调整。

这是一个人工设计特征的过程，这样的方式非常耗时，非常不高效。我们做人脸检测花了20年，做行人车辆检测大概花了10年，即使狗屎检测相对容易，可能也需要至少一年。深度学习来了之后，整个过程变得很不一样。如果我们采用众包等方式，可能在一个月时间里就可以收集上万张标注了狗屎的照片，然后算法工程师可以根据经验选择一个深度学习算法，并设定一些超参数，然后只需要让机器在收集的数据集上进行训练和学习就可以了，这个过程可以非常快速的完成，大概只需要三个月。从过去的数年到现在的数月，显然大大提高了我们研发一项AI技术的效率。

这样的方法论极大的提高了视觉技术的水平和落地效率。

我认为很多场景下能看的AI才有真的智能。所以，视觉智能会有大量场景化需求，如果我们去细看每一个领域，从公共安全、机器人、自动驾驶、无人机到医疗，每个领域我们都可以非常轻易的发现视觉的用武之地。如果AI有一双眼睛（也就是有摄像头），我们背后有合适的算法，机器就可以更多的替换或者辅助人更好、更高效的做我们想要它做的事情。

但从落地角度来讲，也存在非常多问题。

■ 问题一：个性化需求非常多，可批量复制的“标品”比较少。

以“狗屎”识别机器人为例，可能明天还需要一个塑料瓶子检测，后天是塑料袋识别，再后天是白菜识别，这么多不同的物体，如果我们都采用前面说的那种开发方式，每种东西需要至少三个月，那么我们就会面临非常重的开发任务，关键是现在并没有这么多人才可以去做这么多事。

从落地角度来看，谁来做、谁去买单、谁去开发算法，采用什么样的商业模式和合作模式都是问题。

■ 问题二：从计算力角度讲，深度学习的计算成本相对比较高。最近很多的AI专用芯片市场就是在解决这类问题。

AI技术的生产效率现在是比较低的，我们要加快生产效率，就需要人力，需要高水平的AI算法人才。可是AI的人才奇缺。现在深度学习专业硕士毕业生可以拿到30-50万年薪，博士则可以高达50-80万年薪。在座的女孩们，如果没有男朋友的话，到我们这个领域看一看。

相比可用的人才数量，这么多的视觉处理任务，如果每个任务都要2个硕士博士做3-5个月才能完成，这将是灾难性的事情。

所以，未来我们需要新的方法论，从现在有监督大数据驱动的方法论，变成知识和数据联合驱动的方法论，为了完成这些事情，我们需要更强大的机器学习方法。使得我们在不同数据条件下也可以获得稳定、可靠的识别能力，这就体现在我们可能需要利用小数据、脏数据进行机器学习。

此外，用来学习的数据还可能是半监督的数据、弱监督的数据，比如给你一张照片告诉你其中有狗屎，但并没有明确告诉你这个狗屎在什么位置，如果我们能有可以充分利用这些数据的更好的机器学习方法，我们才可能更加快速的开发AI技术。

这还不够，我们还希望有更快捷的AI开发方法。比如我们希望开发一个安全帽检测的引擎，这是实际需求。我们一旦把这个任务交给机器之后，希望AI生产平台可以全自动完成全部的开发过程。机器完成这个任务的可能流程是：首先，它会理解这是一个检测任务，检测目标是安全帽，然后机器自动在百度上去搜索大量安全帽的图像，然后在百度上搜索一些关于安全帽的知识描述，例如安全帽多数是圆的，颜色各异，经常戴在人头上等等。然后，算法就通过对这样一些数据的自动处理和学习，以及知识的利用完成一个“安全帽检测”AI引擎的开发。

遗憾的是，从算法的角度来讲，以我对该领域学术前沿的了解，要达到这样的目标我们可能还需要5-10年，还不一定100%完全做到那种程度。

在此之前，工业界最靠谱的做法恐怕还是采用“数据暴力”来完成多数类似AI任务的研发。但我们如何解决缺少大量AI算法工程师的问题呢？我认为我们需要一个更强大、更便捷的AI算法生产基础设施。这样的基础设施，就像当年从专业相机到傻瓜相机的历史演变一样。

为了让我们有更多的人才可以开发AI，以满足大量的视觉智能开发任务，我们的AI生产工具要从Caffe，Mxnet和Tensorflow等只能昂贵的高端人才可以使用的开发工具发展到“傻瓜式”的AI开发平台。这样的平台应该使更多的中低端人才，即使不懂AI、不懂深度学习，也可以经过简单的培训，就可以利用自己的私有数据，在这样的软硬建基础设施平台上，方便快捷的开发出自己所需要的AI技术引擎，并便捷的嵌入自己的业务系统中。

我作为主要创始人成立的中科视拓，自去年8月成立以来，不仅做了大量人脸识别、无人机视觉等计算机视觉技术服务项目，开发了多款人脸识别产品和解决方案。与此同时，我们已经研发了一个称为SeeTaaS的深度学习算法开发平台，这个平台不但在我们公司内部逐步得到了应用，也已经开始提供给我们的B端客户，使他们也具备了用自己的私有数据训练自己所需的深度学习算法和引擎的能力。相信这个SeeTaaS平台会越来越好用，最终实现我们“让天下没有难开发的AI”这一梦想！

谢谢大家！

作者简介：

山世光，中科院计算所研究员、博导，基金委优青，CCF青年科学奖获得者，现任中科院智能信息处理重点实验室常务副主任，中科视拓创始人、董事长兼CTO。他的研究领域为计算机视觉和机器学习。已在国内外刊物和学术会议上发表论文200余篇，其中CCF A类论文60余篇，论文被谷歌学术引用10000余次。曾应邀担任过ICCV，ACCV，ICPR，FG，ICASSP等国际会议领域主席，现任IEEE TIP,CVIU,PRL,Neurocomputing,FCS等国际学术刊物的编委(AE)。研究成果获2005年度国家科技进步二等奖，2015年度国家自然科学二等奖，CVPR2008 Best Student Poster Award Runner-up奖。