斯坦福影像研究执行主任Joyce Farrell:推进图像系统多学科合作

2017年5月21日,由中国人工智能学会、中文信息学会主办,亿欧承办的2017·全球人工智能技术大会在北京·国家会议中心拉开帷幕,学术界、工业界、高校师生参与其中。

5月22日上午为智能驾驶分论坛,论坛将主要聚焦人工智能技术在汽车驾驶方面的应用,即智能驾驶,包括对行驶环境的感知和认知,决策与规划,控制等,而这些都是智能驾驶、乃至于未来自主式驾驶的关键技术。

主讲嘉宾包括斯坦福大学影像系统研究中心执行主任-Joyce Farrell、北京峰云视觉技术有限公司CEO-肖峰、东软睿驰汽车技术(沈阳)有限公司智能驾驶业务线高级研究员-刘伟、数据堂CTO-陈兰颖等。

斯坦福大学电气工程系高级研究员、斯坦福大学图像系统工程中心的执行主任Joyce Farrell博士做了主题为“图像系统模拟”的演讲,本文为其演讲速记及主持人问答整理。

Joyce Farrell观点提炼:

1、斯坦福图像系统工程中心重要的任务之一,就是要推进多学科的培训研究和合作;

2、传感器会对光伏进行捕获,对传感器每个像素进行描述;

3、自动驾驶方面深度学习中,应用非常重要;

4、下一步的应用是利用环境对于设备进行模拟;

5、提升图像的硬件要求我们去具体分析,去个性化我们的系统。

Joyce Farrell,图像处理,人工智能,传感器

【Joyce Farrell现场演讲实录】

我先跟大家介绍一下斯坦福的图像系统工程中心,我是这里的执行主任,这是斯坦福的工程技术学院和相应的公司一起建立的中心,我们希望能够推进人与人之间的交互,当然也是利用这个图像系统。我们其中一个重要的任务,就是要推进多学科的培训研究和合作,这对我们很关键,我们整个大学的所有教授在神经科学和计算机科学,工程心理学等方面都有他们自己的建树,而且我们也在实现跨学科的研究我在施乐工作了一段时间。

当时研究了图像的交汇界面,那会已经认识到了多学科,高素质人才之间合作的重要性,我们当时有不同专长的人才相互合作,建立了HP惠普的研究室,而且我们所有的不同学科的科学家不断地在提升我们的图像系统,我们当时还征询了一些心理学专家的意见。

我离开HP以后做了一段时间的咨询,我也在帮助企业做手机,我们很清楚一点,必须有多学科的团队一起合作,我记得当时去了一个企业,他们给我展示了一张图像,看了以后就问这个图像有什么问题,当时我看到一个团队正在就过程管理进行讨论,我又和光学相关的主任进行了讨论,也和感应器方面的主任进行了交流,还有显示器方面的相关领导进行了交流,我发现他们各自为战,没有太多的交流,我们需要有一个工具让他们一起合作。

因为不同的团队,他们有自己的小世界,比如说感应、视觉、光纤、显示器等等,它们应该都是一体的。因此,我们开发了一个图像系统工程工具箱,我们可以把它当做一个模型来推进图像的处理,而且可以让工程师在这个系统上进行沟通。

我们也把这个系统介绍给了很多做手机摄像器的公司,而且可以让他们不同团队相互交流,调整图像处理的系统,调整他们的摄像头,我们发现只要有硬件的源头,他们就可以做出一个模拟器。还有手机,包括苹果、华为等等涉及的摄像器,这些都可以模拟整个图像系统处理过程。

而且我们也可以从中研究怎么样改变其中的一个部分,就造成整个效果的改变。这里先指出下一代的图像处理系统,光域360度环绕式拍摄的摄像机,还有头戴摄像器。

我们先讲一下电子数码摄像机的图像系统,再讲讲新的图像系统和它们的原形,我先给大家讲工具箱,还有手机的摄像器,我们将利用这个系统开发一个基于机器学习的手机摄像器。很多企业也在用更新的项目实现这种平衡,就是像素、分辨率、动态、范围、滤镜等等,都在实现平衡,我希望能够表现出来图像系统模拟的强大力量

当然,我们也希望把这个进程扩展到其他的图像系统,比如说视频,还有汽车的智能。之后我会跟大家讲更多的应用领域,大家就明白我们为什么要去开发这些工具了。

最开始,我们认为必须要去评估所有的图像系统的部件,我们就建了很多模型单元,进行了计算模拟。我们对光学元件,对感应器ISP和显示器,和人的视觉系统的属性都进行了一些模拟。这是另外一个实验,我们需要有一个非常有意义的单元,有一些单元是非常有意义的,有一些单元是没有意义的,我们要用非常有意义的单元进行描述。

光学元件方面,这也是连接到传感器,我们也有一个模型,在这个图形当中对光子进行描述,在这个场景当中光学元件展示出来,我们就可以对光学元素进行模拟,就可以将辐射源展示出来。

接下来我们看一下描述传感器方面的内容,也会对光伏进行捕获,会对传感器每个像素进行描述。我们会将这些传感器当中的光子进行描述,所有的这些内容都来进行计算,我们可以计算出传感器的像素和光伏等等。

另外,我们还会将噪音的源头纳入到计算当中,可以看到在这个场景当中,这些噪音是从哪里来的,所以这些所有的属性都会纳入到我们的建模当中。我们从这个传感器来到图像处理这部分,我们需要对图像的质量进行优化。

过去的传统图像处理系统也是从RGB开始的,我们再进行一些图像处理的过程,就会有一些校正,这是所有人都会做的。我们会对光影进行校正,然后就会进行个性化的处理,降噪,算法的计算等等。所有的算法都会进行优化,总结起来它一共包括两个简单的步骤,一个是我们要选择正确的像素,对图像进行处理,这也是当地的系统,可以根据这个算法进行图像的处理。

有了这个图像处理系统,就可以增加图像的光亮度,但是如果我们使用传统的模式,就不能增加图像的光亮度。我们是基于模拟进行这个系统的建立,也会在真实的场景当中应用这个系统,包括一些传感器和光学元件,我们也在其他的系统当中运用了这个原理,但是基本的观点,就是我们需要制造原形,这是非常重要的。如果没有模拟,这个系统就无法建立。

另外,我们需要一些深度的信息,还有一些生活化的场景,也需要它们进行图片的捕获,这是我们目前受到的局限性,我们在获取信息的时候遇到的问题,我们需要使用新的图像处理的系统。最终有这样一个检测的系统流程,从光学元件到传感器,到显示屏,再到人类的视觉系统等等。

大家可能注意到了,我们这里做的就是把光学系统当中的图景取出来,用3D的图像效果进行渲染,进行再追踪,或者用不同的图像作为我们常规的感应器模拟的基础。因此,我们也制作出了3D的网格,和表面质感和色彩方面的模型,还有景深地图等等。

这种混合器可以让我们实现3D的虚拟场景的模拟,我们可以控制光线,可以控制色彩光线的位置,还有摄像头的位置,可以发现光线的平谱分布,还可以利用模型调整镜头,我们建立了这个模型,用了混合器,用PBRT提升光学成像,这也是我们尝试做的。当然我们也可以改变场景的光照,也可以改变相继的镜头。

下一步的应用是怎么样的呢,就是利用环境因素。之前跟大家讲过,我们怎么样用环境对于设备进行模拟,产品是用于人类消费的,当然机器学习应用也更需要我们有更多的观察。

我们在这里可以让机器人进行深度学习,可以让它们辨认看到场景当中的人物和动物等等,当然也对这些场景进行刚学的处理,这是都是基于GRB图像的。

另一方面,自动驾驶方面深度学习的意义,应用非常重要,因此我们在这里装了很多的感应器,这里就有,如果在危险的驾驶条件下或者是环境比较差的环境下比较差,我们都可以进行模拟,现在越来越多的人开始用3D图像模型,建立这种模拟系统进行机器学习,特别是这种自动驾驶汽车,还有自动驾驶的智能。

我们认为这个特别好,可以制造这种虚拟的场景。还有图像上相关的标记,还有不同的地点,相关的信息都可以收集的更足,但是我们唯一的限制就是在于它是RGB格式的,还有帖头和光学。这是我们的挑战之一。

还有就是在计算硬件方面的条件,当然人力方面有调整,我们可以提升图像的硬件,但是这要求我们去具体分析,去个性化我们的系统,我们希望有专业人士在这方面努力。未来我们要建立大的,可靠的图书馆,可以叫数据库,当然我们也希望加快光线的跟踪,同时维持我们的计算的清晰度,也希望建立更加活跃的社区,非常感谢。

邓伟文(主持人):刚才您提到了图像模拟过程,一方面是为了人的感知,另一方面是机器学习,但是否还有一个方面就是为图像处理算法,包括识别、检测等。这个从Volts到Bits的过程有什么区别吗?

Joyce Farrell:我们的目标是要输出不同的图像,当然可以保证不同场景之下输出的图像尽量一致。我们希望能够对场景当中的物品进行标记,用汽车智能去实现,这方面我们还不是专家,但是我们希望有更加细腻的数据极,帮助我们运行这个系统,当然也有一些同事现在希望能够实现全景视觉,他们也在推进成像感应器的开发,以及进一步的应用,但是我们必须要思考怎么样具体的去应用,而且要符合大家的需求。

邓伟文(主持人):另外一个问题是,你讲到了人工标注的挑战。对于模拟图像和场景,因为我们有模型,是否我们可以完成自动标注?

Joyce Farrell:对,我们可以进行自动标注,这也是它的优势和价值所在,谢谢。

相关领域
商业