实体消歧(entity disambiguation),理学-计算机科学技术-计算机应用-信息系统-信息系统设计与开发-信息集成,通过识别文本中实体具有的特定意义,解决文本中广泛存在的一个命名实体可能包含多种形式表达的问题。实体消歧的方法主要分为基于语料库方法和基于知识库方法。基于语料库方法是通过对语料库进行有监督或无监督学习实现实体消歧。基于知识库方法是通过将文本中的实体与知识库中的实体建立链接从而识别出实体语义。实体消歧是语义化搜索、问答系统、机器翻译、知识库构建、知识融合等应用领域的重要技术,其执行结果直接影响应用的效果。一种与实体消歧紧密相关的技术是命名实体识别(named entity recognition)。命名实体识别的任务就是识别出待处理文本中3个大类(实体类、时间类和数字类)、7个小类(人名、机构名、地名、时间、日期、货币和百分比)来命名实体。而实体消歧则是要对识别出的实体确定其语义,明确其正确的实体指向。相对于命名实体识别任务,实体消歧并不识别命名实体的具体实体指向,仅区分不同实体。