多模态语料库

（理学 | 计算机科学技术）

多模态语料库（Multi-modal Corpus），理学-计算机科学技术-人工智能-自然语言处理-﹝语言知识资源﹞-语料库，囊括整个言语活动的语言、声音、图像和动作的多媒体语料库。利用现代影像技术采录的话语活动，建立在“言语理论”基础之上，以言语活动为研究对象，以从原始数据中抽取信息和知识为手段，以语境模型为驱动。相较于文本语料库的静态单一、文字线形的语言模型以及口语语料库的动态音频、时间线形的语言模型，多模态语料库语料模型是动态多样、时间线形的，具有可实现语境化、音频和视频内容存储丰富、语料可信度高、语料来源容易确认等优点。但上述特点也使得多模态语料库在语料采集、转写、标注、采样、呈现等方面存在诸多困难。为实现不同的研究目的，多模态语料库需要进行不同程度的语料深加工。例如：用于语言研究需要进行语音、文字、图像和动作以及环境的转写与标注；用于语言信息处理，，还需要制订统一的、标准的转写代码与标注规则，加工精细程度更要满足语境模型的自动提取。