斯坦福影像研究执行主任Joyce Farrell：推进图像系统多学科合作

2017年5月21日，由中国人工智能学会、中文信息学会主办，亿欧承办的2017·全球人工智能技术大会在北京·国家会议中心拉开帷幕，学术界、工业界、高校师生参与其中。

5月22日上午为智能驾驶分论坛，论坛将主要聚焦人工智能技术在汽车驾驶方面的应用，即智能驾驶，包括对行驶环境的感知和认知，决策与规划，控制等，而这些都是智能驾驶、乃至于未来自主式驾驶的关键技术。

主讲嘉宾包括斯坦福大学影像系统研究中心执行主任-Joyce Farrell、北京峰云视觉技术有限公司CEO-肖峰、东软睿驰汽车技术（沈阳）有限公司智能驾驶业务线高级研究员-刘伟、数据堂CTO-陈兰颖等。

斯坦福大学电气工程系高级研究员、斯坦福大学图像系统工程中心的执行主任Joyce Farrell博士做了主题为“图像系统模拟”的演讲，本文为其演讲速记及主持人问答整理。

Joyce Farrell观点提炼：

1、斯坦福图像系统工程中心重要的任务之一，就是要推进多学科的培训研究和合作；

2、传感器会对光伏进行捕获，对传感器每个像素进行描述；

3、自动驾驶方面深度学习中，应用非常重要；

4、下一步的应用是利用环境对于设备进行模拟；

5、提升图像的硬件要求我们去具体分析，去个性化我们的系统。

Joyce Farrell,图像处理,人工智能,传感器

【Joyce Farrell现场演讲实录】

我先跟大家介绍一下斯坦福的图像系统工程中心，我是这里的执行主任，这是斯坦福的工程技术学院和相应的公司一起建立的中心，我们希望能够推进人与人之间的交互，当然也是利用这个图像系统。我们其中一个重要的任务，就是要推进多学科的培训研究和合作，这对我们很关键，我们整个大学的所有教授在神经科学和计算机科学，工程心理学等方面都有他们自己的建树，而且我们也在实现跨学科的研究我在施乐工作了一段时间。

当时研究了图像的交汇界面，那会已经认识到了多学科，高素质人才之间合作的重要性，我们当时有不同专长的人才相互合作，建立了HP惠普的研究室，而且我们所有的不同学科的科学家不断地在提升我们的图像系统，我们当时还征询了一些心理学专家的意见。

我离开HP以后做了一段时间的咨询，我也在帮助企业做手机，我们很清楚一点，必须有多学科的团队一起合作，我记得当时去了一个企业，他们给我展示了一张图像，看了以后就问这个图像有什么问题，当时我看到一个团队正在就过程管理进行讨论，我又和光学相关的主任进行了讨论，也和感应器方面的主任进行了交流，还有显示器方面的相关领导进行了交流，我发现他们各自为战，没有太多的交流，我们需要有一个工具让他们一起合作。

因为不同的团队，他们有自己的小世界，比如说感应、视觉、光纤、显示器等等，它们应该都是一体的。因此，我们开发了一个图像系统工程工具箱，我们可以把它当做一个模型来推进图像的处理，而且可以让工程师在这个系统上进行沟通。

我们也把这个系统介绍给了很多做手机摄像器的公司，而且可以让他们不同团队相互交流，调整图像处理的系统，调整他们的摄像头，我们发现只要有硬件的源头，他们就可以做出一个模拟器。还有手机，包括苹果、华为等等涉及的摄像器，这些都可以模拟整个图像系统处理过程。

而且我们也可以从中研究怎么样改变其中的一个部分，就造成整个效果的改变。这里先指出下一代的图像处理系统，光域360度环绕式拍摄的摄像机，还有头戴摄像器。

我们先讲一下电子数码摄像机的图像系统，再讲讲新的图像系统和它们的原形，我先给大家讲工具箱，还有手机的摄像器，我们将利用这个系统开发一个基于机器学习的手机摄像器。很多企业也在用更新的项目实现这种平衡，就是像素、分辨率、动态、范围、滤镜等等，都在实现平衡，我希望能够表现出来图像系统模拟的强大力量。

当然，我们也希望把这个进程扩展到其他的图像系统，比如说视频，还有汽车的智能。之后我会跟大家讲更多的应用领域，大家就明白我们为什么要去开发这些工具了。

最开始，我们认为必须要去评估所有的图像系统的部件，我们就建了很多模型单元，进行了计算模拟。我们对光学元件，对感应器ISP和显示器，和人的视觉系统的属性都进行了一些模拟。这是另外一个实验，我们需要有一个非常有意义的单元，有一些单元是非常有意义的，有一些单元是没有意义的，我们要用非常有意义的单元进行描述。

光学元件方面，这也是连接到传感器，我们也有一个模型，在这个图形当中对光子进行描述，在这个场景当中光学元件展示出来，我们就可以对光学元素进行模拟，就可以将辐射源展示出来。

接下来我们看一下描述传感器方面的内容，也会对光伏进行捕获，会对传感器每个像素进行描述。我们会将这些传感器当中的光子进行描述，所有的这些内容都来进行计算，我们可以计算出传感器的像素和光伏等等。

另外，我们还会将噪音的源头纳入到计算当中，可以看到在这个场景当中，这些噪音是从哪里来的，所以这些所有的属性都会纳入到我们的建模当中。我们从这个传感器来到图像处理这部分，我们需要对图像的质量进行优化。

过去的传统图像处理系统也是从RGB开始的，我们再进行一些图像处理的过程，就会有一些校正，这是所有人都会做的。我们会对光影进行校正，然后就会进行个性化的处理，降噪，算法的计算等等。所有的算法都会进行优化，总结起来它一共包括两个简单的步骤，一个是我们要选择正确的像素，对图像进行处理，这也是当地的系统，可以根据这个算法进行图像的处理。

有了这个图像处理系统，就可以增加图像的光亮度，但是如果我们使用传统的模式，就不能增加图像的光亮度。我们是基于模拟进行这个系统的建立，也会在真实的场景当中应用这个系统，包括一些传感器和光学元件，我们也在其他的系统当中运用了这个原理，但是基本的观点，就是我们需要制造原形，这是非常重要的。如果没有模拟，这个系统就无法建立。

另外，我们需要一些深度的信息，还有一些生活化的场景，也需要它们进行图片的捕获，这是我们目前受到的局限性，我们在获取信息的时候遇到的问题，我们需要使用新的图像处理的系统。最终有这样一个检测的系统流程，从光学元件到传感器，到显示屏，再到人类的视觉系统等等。

大家可能注意到了，我们这里做的就是把光学系统当中的图景取出来，用3D的图像效果进行渲染，进行再追踪，或者用不同的图像作为我们常规的感应器模拟的基础。因此，我们也制作出了3D的网格，和表面质感和色彩方面的模型，还有景深地图等等。

这种混合器可以让我们实现3D的虚拟场景的模拟，我们可以控制光线，可以控制色彩光线的位置，还有摄像头的位置，可以发现光线的平谱分布，还可以利用模型调整镜头，我们建立了这个模型，用了混合器，用PBRT提升光学成像，这也是我们尝试做的。当然我们也可以改变场景的光照，也可以改变相继的镜头。

下一步的应用是怎么样的呢，就是利用环境因素。之前跟大家讲过，我们怎么样用环境对于设备进行模拟，产品是用于人类消费的，当然机器学习应用也更需要我们有更多的观察。

我们在这里可以让机器人进行深度学习，可以让它们辨认看到场景当中的人物和动物等等，当然也对这些场景进行刚学的处理，这是都是基于GRB图像的。

另一方面，自动驾驶方面深度学习的意义，应用非常重要，因此我们在这里装了很多的感应器，这里就有，如果在危险的驾驶条件下或者是环境比较差的环境下比较差，我们都可以进行模拟，现在越来越多的人开始用3D图像模型，建立这种模拟系统进行机器学习，特别是这种自动驾驶汽车，还有自动驾驶的智能。

我们认为这个特别好，可以制造这种虚拟的场景。还有图像上相关的标记，还有不同的地点，相关的信息都可以收集的更足，但是我们唯一的限制就是在于它是RGB格式的，还有帖头和光学。这是我们的挑战之一。

还有就是在计算硬件方面的条件，当然人力方面有调整，我们可以提升图像的硬件，但是这要求我们去具体分析，去个性化我们的系统，我们希望有专业人士在这方面努力。未来我们要建立大的，可靠的图书馆，可以叫数据库，当然我们也希望加快光线的跟踪，同时维持我们的计算的清晰度，也希望建立更加活跃的社区，非常感谢。

邓伟文（主持人）：刚才您提到了图像模拟过程，一方面是为了人的感知，另一方面是机器学习，但是否还有一个方面就是为图像处理算法，包括识别、检测等。这个从Volts到Bits的过程有什么区别吗？

Joyce Farrell：我们的目标是要输出不同的图像，当然可以保证不同场景之下输出的图像尽量一致。我们希望能够对场景当中的物品进行标记，用汽车智能去实现，这方面我们还不是专家，但是我们希望有更加细腻的数据极，帮助我们运行这个系统，当然也有一些同事现在希望能够实现全景视觉，他们也在推进成像感应器的开发，以及进一步的应用，但是我们必须要思考怎么样具体的去应用，而且要符合大家的需求。

邓伟文（主持人）：另外一个问题是，你讲到了人工标注的挑战。对于模拟图像和场景，因为我们有模型，是否我们可以完成自动标注？

Joyce Farrell：对，我们可以进行自动标注，这也是它的优势和价值所在，谢谢。