贝尔曼等式

（理学 | 计算机科学技术）

贝尔曼等式（Bellman equation），理学-计算机科学技术-人工智能-机器学习-弱监督学习-强化学习，又称贝尔曼方程、动态规划方程，由理查徳贝尔曼(Richard Bellman)发现，是动态规划等最优化方法存在最优性的一个必要条件，在机器学习、最优控制理论、应用数学和经济学等领域有重要应用。此等式将“决策问题在特定时间点的值”以“来自初始选择的回报和由初始选择衍生的决策问题的值”的形式表示，把动态最优化问题分解成了更简单的子最优化问题，这遵循贝尔曼提出的“最优化原理”：一个最优策略的子策略对它的初态和终态而言也必是最优的。贝尔曼等式通常指离散时间最优化问题中的动态规划方程。在连续时间最优化问题中，类似的等式是一个偏微分方程，被称为哈密尔顿-雅可比-贝尔曼等式。在状态数有限的马尔可夫决策过程中，给定策略的值函数满足贝尔曼等式：,其中是从状态到行动的映射，是在状态采取行动的立即回报，是折扣因子，是从状态开始执行所能获得的期望累积折扣回报。最优策略的值函数满足贝尔曼最优等式：。这两个等式均表达的是一个状态的值和它的立即回报以及后继状态值之间的一种递归关系。