原型聚类

（理学 | 计算机科学技术）

原型聚类（prototype clustering），理学-计算机科学技术-人工智能-知识发现-聚类分析，在聚类分析中，“原型”是指数据集中的一个实际或虚拟的对象，其可以充当该数据集中某一类成员的代表。当设计聚类算法的目标函数时，原型可用于判定一个类的紧凑性，如K-medoids的目标函数SAE，K-means的目标函数SSE等。因此，这两个聚类算法也是基于原型聚类。由于基于原型的聚类算法通常最大化所有类的紧凑性，这类算法只适合处理球状的类。为弥补这个缺陷，人们提出了一些改进的原型聚类算法，使之能处理非球形类。一个典型的方法是由多个原型来描述一个非球形的类，即用原型聚类的方法把数据集划分成大于实际类数的若干小类，然后将相近的类合并，此类方法称为多原型聚类。一类基于原型的聚类算法是K-prototypes，它用于处理混合属性的数据集，即同时拥有数值属性与分类属性的数据集。与其他原型聚类算法一样，其需要解决两个问题：度量混合属性数据对象与原型间的相似性与类原型的更新方法。