跨模态内容理解

（理学 | 计算机科学技术）

跨模态内容理解（cross-modal content understanding;multi-modal content understanding），理学-计算机科学技术-计算机应用-多媒体计算-多媒体技术-多媒体内容分析和理解-跨模态内容分析，利用数据所包含的多模态信息，对数据的高层语义进行解析。传统的图像内容理解往往只依赖于图像的视觉信息，来对其所包含的高层语义进行解析。但是，许多多媒体数据往往具有多个模态，如文本、图像和声音等。各个模态从不同方面对数据所包含的内容以不同形式进行描述或者表征。多模态内容理解将数据的不同模态所包含的信息进行融合，从而对数据所包含的高层语义进行更为准确的描述。在多模态信息融合方面，有的方法首先将不同模态的特征进行融合，然后在此基础上对其所包含的内容进行解析；有的方法则首先分别对不同模态所包含的高层语义信息进行解析，然后再对不同模态的高层语义信息进行融合，并得到数据最终的高层语义。