潜在狄利克雷分配(Latent Dirichlet Allocation),理学-计算机科学技术-人工智能-自然语言处理-文本挖掘-主题模型,可以将文档集中每篇文档的主题按照概率分布的形式给出的主题模型。又称隐含狄利克雷分布。简称LDA。基本内容潜在狄利克雷分配是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由D.M.布莱(Blei, David M.)、吴恩达和M.I.乔丹(Jordan, Michael I)于2002年提出。在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。