变分推断

（理学 | 计算机科学技术）

变分推断（variational inference），理学-计算机科学技术-人工智能-机器学习-概率图模型，一种在概率图模型中进行近似推断的方法，相比基于采样的随机化方法，它是一种确定性逼近方法。在概率机器学习中，一个模型通常包含两种变量：一种是观测变量，记为；另一种为隐变量，记为。模型的联合分布记为。在模型推断的过程中，给定观测变量，希望推断未知的隐变量的后验概率。由贝叶斯公式，可得到：假设为连续变量（如果为离散变量，则把积分号替换成求和符号）。在大部分的概率模型中，上式的积分（或求和）是很无法直接计算的，因此需要寻求一些近似的方法来求取的后验概率。变分推断是解决上述问题的一个有效的方法，它把贝叶斯推断问题转变成了优化问题。它的目标是在某个特定的分布函数空间中寻找一个最优的分布函数（称作变分分布函数，式中表示该分布函数的参数），使得和真实的后验概率在某种度量下尽可能小。通常选择KL散度（Kullback–Leibler divergence）作为这种度量，虽然存在其他更广泛的度量如Rényi散度。