文档表示(document representation),理学-计算机科学技术-计算机应用-信息系统-信息检索-文档表示,常见的文档表示方法有向量空间模型、文档主题模型、分布式表示等。为了更方便地处理文档,例如计算文档之间的相似度、计算文档与查询的相关程度,通常会把文档表示为固定长度的向量。该固定长度的向量,是对文档内容的刻画。常见的文档表示方法有向量空间模型、文档主题模型、分布式表示等。向量空间模型,俗称“词袋模型”,将文档表示为V维向量,V是字典大小(即所有单词的个数)。向量每一维代表一个单词,其值表示该文档是否出现过该词、或者出现的次数。因为真实数据中的单词个数往往非常巨大,导致向量空间模型的表示非常稀疏,而且无法反应出单词间的语义关系。为了解决这个问题,文档主题模型会把文档表示为K为向量,K为主题的个数。每个主题可以看作是算法生成的一个潜在话题。K远小于V,所以文档主题模型可以看作是对向量空间模型的一种降维。分布式表示主要指利用神经网络等方法,将文档嵌入在一个低维空间中,使得语义相近的文档尽量在空间中距离相近。