不确定环境规划

（理学 | 计算机科学技术）

不确定环境规划（planning under nondeterministic environment），理学-计算机科学技术-人工智能-机器学习-知识表示-案例推理-智能规划，在具有观察不确定性、行动不确定性及状态转移随机性的环境中进行决策规划，比确定环境规划更困难。不确定性主要表现为：①观察的不确定性，即智能体不能直接观察到环境的状态。②行动的不确定性，即智能体的行动效果是不确定的，无法事先准确预测。③环境的动态随机性，即环境中的其他智能体或未知因素会对环境产生影响，使环境状态发生变化。其中观察不确定性会导致感知重名问题，即不同的真实状态往往对应于同一个观察结果。马尔可夫决策过程建模的是智能体在不确定性假设①下的规划问题，用状态转移函数表示结果状态的概率分布。部分可观测马尔可夫决策过程在马尔可夫决策过程的基础上，用观察函数描述观察结果的不确定性。分布式的部分可观测马尔可夫决策过程、部分可观测随机博弈等模型进一步考虑了环境的动态随机性。通常用值迭代或策略迭代方法求解这些不确定环境下的规划模型。