记录连接(record linkage),工学-信息与通信工程-大数据处理-大数据集成-实体识别-记录连接,发现不同数据源中同一记录的映射关系的过程。记录连接的任务是在数据集中查找记录,该数据集会涉及跨不同数据源(如数据文件、书籍、网站和数据库)的相同实体。当可能共享或可能不共享公共标识符(如数据库密钥、统一资源标识符、国家标识号)的实体加入数据集时,记录连接就显得十分必要,因为记录的形式、存储位置、管理方式或偏好会存在很大差别。记录连接对链接数据的质量高度敏感,因此所有正在考虑的数据集(特别是其关键标识符字段)理想情况下应在记录连接之前进行数据质量评估。在数据集之间,甚至数据集内部,相同实体的许多关键标识符存在差异,这可能使记录连接极大地复杂化,除非对其提前理解。而实体解析则将不同的数据源连接起来,然后用概率评分或其他机器学习的方法来确定实体的有关信息存在何种联系。记录连接的主要应用领域包括主数据管理、数据仓库及商业智能、历史研究、医学实践与研究等。其评价指标主要有项目成本、清洗数据的时间、数据安全、连接的稳定性和准确率等。