学习自动机(Learning Automata)是通过与随机环境不断的交互来调整自己,也就是说,其通过与环境不断的交流获得经验用来改善自己的行为,从而在可选择的动作中选择在该环境下最优的动作,而最优的动作也就是在当前的环境下,能得到环境奖励的概率最大的动作。从心理学上来说,学习就是通过以往的行为以及因此所获得的经验来改善当前的行为。为了模拟生物的学习过程,Testlin等最先提出了学习自动机的数学模型。其通过与随机环境不断的交互来优化自身,从而在备选的动作集合中选择在当前环境下最优的动作。最优的动作被定义为当前的环境下得到环境奖励概率最大的动作。