话题跟踪(topic tracking; TT),理学-计算机科学技术-人工智能-自然语言处理-文本挖掘-话题检测与跟踪,跟踪已知话题的后续报道。TT是美国国防高级研究计划局(ARPA)所发起的话题检测与跟踪(TDT)评测的一个子任务。对于已知话题,通常没有明确的描述,而是通过若干篇预先给定的相关报道隐含地给出。在话题跟踪过程中,把这些相关报道中的话题作为训练语料,用来训练跟踪系统和更新话题模型。在此基础上,话题跟踪任务按照时序逐一判断后续文本流中每一篇报道与话题的相关性,并收集相关的报道,从而实现跟踪功能。传统话题跟踪主要包括基于知识和基于统计的两种研究趋势。前者的核心问题是分析报道内容之间的关联与继承关系,通过特定的领域知识将相关报道串联成一体。后者则根据特征的概率分布,采用统计策略裁决报道与话题模型的相关性。基于知识的话题跟踪研究中,比较有代表性的方法是渡边面向日本语新闻广播开发的话题跟踪系统,通过形如“正如我所提到的⋯⋯”“正如我所报道的⋯⋯”和“正如近期发生的⋯⋯”等领域知识,检测论述同一话题的相关报道。该方法能够显著提高特定知识领域的话题跟踪性能。