场景理解

（理学 | 计算机科学技术）

场景理解（scene understanding），理学-计算机科学技术-计算机应用-多媒体计算-计算机视觉-高层视觉，场景理解的主要目标是准确判断视觉影像中的场景类别并综合分析该场景中所包含的物体与布局信息，它在自动驾驶、虚拟现实、机器人导航等相关领域中发挥重要作用。具体而言，场景理解主要包含场景分类、场景解析两大任务。场景分类主要是识别给定图片中的场景类别（如办公室、操场、图书馆等）。早期方法主要基于手工特征编码技术。该类方法使用尺度不变特征变换（SIFT）、方向梯度直方图（HoG）等手工特征描述子抽取图像片段特征，而后利用视觉词袋模型（bag of visual word）及费希尔向量（Fisher vector）等特征编码方法将片段特征综合成全局图片特征，最后送入分类器进行识别。然而手工特征往往注重图像的细节描述，缺乏对场景的高层语义理解能力。