词例化

（理学 | 计算机科学技术）

词例化（tokenization），理学-计算机科学技术-人工智能-自然语言处理-自然语言分析-自然语言词法分析，一种对句子或文本所进行的切分操作。又称分词（word segmentation）。主要是将句子或文本切分为独立的词例（token）所组成的序列。在词例化的基础上，可以构建以词例为最小语义单位的词典，从而使计算机识别不同的文本输入。英语句子或文本的词例化相对简单，每一个单词都可以单独看作一个词例。汉语文本中，由于不存在空格作为自然的分隔符，如何获得理想的词例切分相对困难。英语文本的词例化可以分为三个级别：词级别、字级别和子词级别。词级别采用模拟人类的理解方式，其结果中包含大量的词组和短语，能够保留非常完整的语义信息，但其对错误拼写和英语简称的鲁棒性较低，且所构建的词典规模也极为庞大。字级别以单个的英语字母作为词例，将本文切分为字母的序列，其具备较高的鲁棒性和较小的词典规模，但语义信息完全丢失且文本输入长度将大大增加。子词级别融合了词级别和字级别的优点，它将每个单词切分为有意义的子词单元，这些子词单元就是单独的词例。汉语文本的词例化主要有两个级别：词级别和字级别。