口语语料库

（理学 | 计算机科学技术）

口语语料库（Speech Corpus），理学-计算机科学技术-人工智能-自然语言处理-﹝语言知识资源﹞-语料库，通常由语言的音频文件及其文字转写和语料标注部分构成的一种包含自然语言语音的数据库。口语语料库分为朗读和自然语音两种语料，提供了更为丰富鲜活的真实语料。文本语料库汇集的是人们经过思维策划、比较符合书面语法的文字语料，而口语语料库所包含的自然口语中除了字、词、句外，还包括韵律、语调、说话者边想边说的种种措辞的心理表征以及语法和语用的标记等。将口语语料库与通用文本语料库进行对比，可以有效地发现口语的特征。为了方便口语研究，研究者们常常对口语语料库中的语音、语调、停顿、重复、修正等口语特征进行标注。在对口语语料库进行标注之前，往往需要根据研究目的，对语料进行切分成词、强制对齐等语料处理和工作。在国际流通已有数百万词次的大型口语语料库包括英国口语语料库（LLC）、美国口语语料库（SALT）、英国广播语料库（SEU）、伦敦青少年口语语料库（COLT）、密歇根大学学术口语语料库（MICASE）以及英国国家语料库（BNC）和国际英语语料库（ICE）中的口语子语库等。