学习自动机

（心理学术语）

学习自动机（Learning Automata）是通过与随机环境不断的交互来调整自己，也就是说，其通过与环境不断的交流获得经验用来改善自己的行为，从而在可选择的动作中选择在该环境下最优的动作，而最优的动作也就是在当前的环境下，能得到环境奖励的概率最大的动作。从心理学上来说，学习就是通过以往的行为以及因此所获得的经验来改善当前的行为。为了模拟生物的学习过程，Testlin等最先提出了学习自动机的数学模型。其通过与随机环境不断的交互来优化自身，从而在备选的动作集合中选择在当前环境下最优的动作。最优的动作被定义为当前的环境下得到环境奖励概率最大的动作。