关键词提取

（理学 | 计算机科学技术）

关键词提取（keyword extraction），理学-计算机科学技术-人工智能-自然语言处理-文本挖掘，识别文本中最能反映出文本主题的相关词语或片段的技术。早在1958年，美国IBM公司的H.P.卢恩（Hams Peter Luhn; 1896-07-01～1964-08-19）就对自动提取摘要进行了研究。例如卢恩就是通过统计文章中词语的词频和词语的位置作为统计特征值，通过为不同的特征设定不同的权值计算出总得分，然后比较得分和阈值的大小，将得分大于阈值的词语保存下来，从而得到文章的关键词。一些较常用的机器学习方法，包括遗传算法，支持向量机，最大熵模型，条件随机场等也逐渐应用到关键词提取领域中。关键词提取被广泛应用于自动文摘、信息检索、文本分类、文本聚类、在线广告等任务。早在1958年，卢恩就对自动提取摘要进行了研究。在关键词提取任务中，用到的主要方法可以分为三类：①基于统计的方法；②基于机器学习方法；③基于语言学的方法。针对关键词提取任务衍生了许多算法，但这些新生方法都基于以上三类方法。