多模态文本挖掘(multi-modal text mining),理学-计算机科学技术-人工智能-自然语言处理-文本挖掘,将文本数据与大量多媒体信息,如图像、视频和语音进行结合,继而进行文本挖掘的过程。在日常生活中,文本信息常常不是孤立存在,而是伴随着其他模态信息共同出现。比如:对话交流中时常伴有动作和面部表情,网页上的文字经常有匹配的图片信息和相应的背景音乐等。多模态文本挖掘是将文本数据与共生的多媒体信息,如图像、视频和语音进行结合,进而将单媒体信息处理方法作为基础,借助语言学、统计学和机器学习等方法,提取出文本中结构化信息的过程。主要包括多模态语义表示与分析、多模态情感分析、多模态信息检索、多模态文本摘要等部分的内容。