多模态融合

（理学 | 计算机科学技术）

多模态融合（multimodal fusion），理学-计算机科学技术-计算机应用-﹝人机交互﹞-人机交互技术-自然人机交互-多模态融合，计算机综合多个模态的信息进行问题分析处理的方式。人的感知是多元的，包括视觉、听觉、触觉、味觉和嗅觉等。任何感知能力的缺失都有可能造成能力的不完善。通过模拟人类学习的感知过程，让机器综合视觉、听觉和触觉等多个模态的信息，从而提升数据处理能力，提供更接近现实的决策，使人工智能可以更好地理解世界。在机器学习领域，多模态融合是指通过综合不同模态的信息进行决策。例如，情绪识别中，通过面部信息、音调和音色等声音信息、说话内容以及脑电波等生理信息的融合，预测人的情绪状态。多模态融合的优势在于：①通过利用关联相同现象的多种模态的信息达到更强大的预测能力；②通过融合多种模态获得各个模态的互补信息；③通过融合多模态可以在某些模态信息缺失的情况下仍可以进行分析处理。多模态融合的形式主要有以下三类：前期融合、后期融合和混合融合。