词例化(tokenization),理学-计算机科学技术-人工智能-自然语言处理-自然语言分析-自然语言词法分析,一种对句子或文本所进行的切分操作。又称分词(word segmentation)。主要是将句子或文本切分为独立的词例(token)所组成的序列。在词例化的基础上,可以构建以词例为最小语义单位的词典,从而使计算机识别不同的文本输入。英语句子或文本的词例化相对简单,每一个单词都可以单独看作一个词例。汉语文本中,由于不存在空格作为自然的分隔符,如何获得理想的词例切分相对困难。英语文本的词例化可以分为三个级别:词级别、字级别和子词级别。词级别采用模拟人类的理解方式,其结果中包含大量的词组和短语,能够保留非常完整的语义信息,但其对错误拼写和英语简称的鲁棒性较低,且所构建的词典规模也极为庞大。字级别以单个的英语字母作为词例,将本文切分为字母的序列,其具备较高的鲁棒性和较小的词典规模,但语义信息完全丢失且文本输入长度将大大增加。子词级别融合了词级别和字级别的优点,它将每个单词切分为有意义的子词单元,这些子词单元就是单独的词例。汉语文本的词例化主要有两个级别:词级别和字级别。