信息内容获取

（理学 | 计算机科学技术）

信息内容获取（information content acquisition），理学-计算机科学技术-信息安全-信息内容安全，在网络中面向海量互联网信息实现全面或有针对性的内容获取。与面向特定点的网络通信信息获取不同，网络信息获取环节的工作范围理论上可以是整个国际互联网。传统的网络信息获取环节从预先设定的，包含一定数量网页地址（URL）的初始网络地址集合出发，首先获取初始集合中每个网络地址对应的发布内容。网络信息获取环节一方面将初始网络地址发布信息主体内容按照系列内容判重机制，有选择地存入互联网信息库。另一方面，网络信息获取环节还进一步提取已获取信息内嵌的超链接网络地址，并将所有超链接网络地址置入待获取地址队列，以“先入先出”方式逐一提取队列中的每个网络地址发布信息。网络信息获取环节循环开展待获取队列中的网络地址发布信息获取、已获取信息主体内容提取、判重与信息存储，以及已获取信息内嵌网络地址提取并存入待获取地址队列操作，直至遍历所需的互联网络范围。网络爬虫是在互联网上的实施信息内容获取的主要工具。网络爬虫是一种按照一定的规则，自动的抓取互联网信息的程序或者脚本。