Web结构挖掘(web structure mining),管理学-管理科学与工程-电子商务与商务智能-电子商务法-Web结构挖掘,从万维网的组织结构和链接关系中推导信息、知识。Web结构挖掘适用于挖掘Web内部的超链接结构。这里的“结构”表示站点内或站点间的链接,例如不同网页之间的超链接结构、网页内部以HTML、XML表示的树形结构和文件URL中的目录路径结构等。通过对页面的结构和Web的结构进行获取、分析和整理,可以完成对Web页面的分类,快速找到有价值的、可信度高的页面,提高信息的检索效率。Web结构挖掘根据挖掘目标的不同,可分为超链接挖掘和页面结构挖掘。由于超文本链接的存在,万维网上网页的信息远比其所包含的文本内容要多。举例来说,指向文件的链接的数目一定程度上可以反映该文件的受欢迎程度,而来自文件的链接则反映文件中内容的丰富程度或主题的多样性。这种模式类似于文献引用。如果一篇论文经常被引用,那么其应该是有价值的。Web链接的拓扑结构促进了对超链接集群(Hyper Linked Communities)的研究。超链接集群包含着一个核心页面和与之相连的中转页面。