多模态文本挖掘

（理学 | 计算机科学技术）

多模态文本挖掘（multi-modal text mining），理学-计算机科学技术-人工智能-自然语言处理-文本挖掘，将文本数据与大量多媒体信息，如图像、视频和语音进行结合，继而进行文本挖掘的过程。在日常生活中，文本信息常常不是孤立存在，而是伴随着其他模态信息共同出现。比如：对话交流中时常伴有动作和面部表情，网页上的文字经常有匹配的图片信息和相应的背景音乐等。多模态文本挖掘是将文本数据与共生的多媒体信息，如图像、视频和语音进行结合，进而将单媒体信息处理方法作为基础，借助语言学、统计学和机器学习等方法，提取出文本中结构化信息的过程。主要包括多模态语义表示与分析、多模态情感分析、多模态信息检索、多模态文本摘要等部分的内容。