数据源描述(data source description),工学-信息与通信工程-大数据处理-大数据集成-数据源描述,对数据流的来源的描述。用于集成系统选择出与查询最相关的资源列表,描述数据源特征的一组元数据信息。又称数据源摘要、数据源样本、资源描述或资源表示。数据源描述有多种形式,但没有统一标准,通常包括该资源中的关键词列表、词频分布、样本数据、估计的文档数量等统计信息。数据源描述在深层网络(deep web)集成检索系统中具有重要作用,其数据质量直接影响集成系统的检索效率和效果。由于深层网络数据源的异构、非合作特性,数据源描述方法实质上是数据源的离线取样方法。国内外对数据源分类和数据源选择方法研究较多,但对数据源描述方法研究较少。