词语计数(words counts),法学-社会学-社会学方法-数据分析,一定范围内的文本中各类词语的数量,如一篇文章或一段文字中词语的数目。在手写或者打字机的时代,对于词语计数的定义规则与现在的流行规则有着较大差异。以前人们通常会将英语文章中的冠词(“a”“an”“the”)、连词(“and”“or”“but”)及介词(“to”“of”)排除在词语计数之外。随着各种文字处理软件的出现,对词语进行计数的方法也在不断演进,并逐渐形成了对词语计数这一概念的统一界定。多数文字处理软件对文字分割形成了统一的规则(包括如何决定单词边界)。文字处理软件中一般将空格(任何各种空白字符,如“常规字符空间”或制表符)作为英文单词分词的首要特征。不同的单词计数程序根据各自的文本划分规则(例如脚注、尾注或者隐藏文本是否计算在内)可能会得出不同的词语计数结果,但是基本的文字计数过程是相似的。至于文档的哪些部分参与词语计数(例如脚注、尾注、摘要、参见、图表、隐藏文本)则一般都是由用户按照工作要求进行简单挑选,并观察自动更新后的词语计数。现代字处理软件和网页浏览器都可通过应用程序进行词语计数。