视觉表示

（理学 | 计算机科学技术）

视觉表示（vision representation），理学-计算机科学技术-计算机应用-多媒体计算-计算机视觉，外部世界投射到视网膜上的图象经过一系列处理后形成视觉表示，它是与所述问题有关的某种特殊的信息表达方式，也是最终形成某种知觉的基础，视觉表示使一些对后级处理有用的重要信息变得更加明确。马尔视觉理论建立了三阶段视觉表示结构：①基元图（Primal Sketch）。由于图像的密度变化可能与物体边界这类具体的物理性质相对应，因此它主要抽取图像中诸如角点、边缘、纹理、线条、边界等基本特征，描述图像的密度变化及其局部几何关系。②2.5维图（2.5D Sketch）。以观察者为中心，由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等，描述可见表面的方位、轮廓、深度及其他性质。③三维模型（3D Model）。以物体为中心，由输入图像、基元图、2.5维图来恢复、表示和识别物体的三维形状的过程。马尔的三维视觉表示开启了视觉计算研究的序幕，后来的工作继承并提出了很多新的视觉表示，获取有效视觉表示一般分为两阶段任务：特征提取与特征表达。