高可用集群(high-availability cluster),理学-计算机科学技术-计算机体系结构-分布式处理系统,通过硬件冗余或者软件可靠性增强技术,消除单一故障点,使系统的可用性能够满足特定标准的集群计算机系统。集群系统的可用性是指一个集群系统能否随时提供正确服务的能力。从定量的角度,可用性存在多种侧重不同的定义方法。较为常用的运行可用性(operational availability),定义为系统的正常运行时间(uptime)与系统总时间之比。在正常运行时间的计算中,无论何种原因导致的停机时间(downtime)都必须被扣除。因此,提高集群系统的可用性有两种思路:一是提高单个结点的硬件和软件的可靠性,从而使系统整体的可靠性和可用性相应地提高。二是着眼于系统整体的可用性,提高软件和硬件故障预测的准确度、故障检测和处理的速度,以使系统因故障造成的停机时间尽可能短。对于计算机系统的可用性级别,J.格雷(James Gray)提出了一个划分方法(见表)。利用集群结点之间配置相同、互相连通的性质可以方便地实现心跳监听、进程冗余、数据冗余、故障切换等容错机制(见容错计算机系统)。