浅层网络(surface web),工学-信息与通信工程-大数据处理-大数据集成-浅层网络,通过搜索引擎来访问的网络。又称可见网络。根据信息的分布情况,网络可以分为浅层网络和深层网络。可以通过搜索引擎来访问的内容是浅层网络的内容,而剩下的网络内容都是深层网络的内容,深层网络的内容是搜索引擎无法访问到的网络内容。深层网络比浅层网络大很多个数量级。浅层网络由静态页面和固定页面组成,浅层网络的内容不依赖于数据库,它们驻留在服务器上等待被检索,基本上都是超文本标记语言(hypertext markup language,HTML)文件且内容从不更改。如果对HTML代码进行任何更改,都需要将新版本的页面上传到服务器上。浅层网络内容的规模可达到几十亿个网页,然而这只占所有网络内容的10%。因为搜索引擎是通过网络爬虫读取网站数据的,而深层网络是由动态页面组成的,需要通过动态网页来访问,这就导致网络爬虫只能爬取浅层网络的内容,而无法获取深层网络的内容。对浅层网络的任何引用都会指向公共网站,即域名以.com,.org,.net或类似变体结尾的网站,其内容不需要任何特殊配置即可访问。