探索-利用窘境

（理学 | 计算机科学技术）

探索-利用窘境（exploration-exploitation dilemma），理学-计算机科学技术-人工智能-机器学习-弱监督学习-强化学习，最早在管理学中提出的概念。企业的流程管理（process management）可以遵循已知的高效模式来进行，但这样就失去了探索未知的更高效模式的机会。然而如果进行了过多的未知的探索，将使企业效率低下。这就是管理学中的探索-利用窘境。如今，探索-利用窘境在启发式搜索、强化学习（reinforcement learning）中更多地被提及。启发式搜索需要在搜索空间中寻找最优的解。对不同搜索区域的大范围搜索与在同一搜索区域内的小范围搜索，分别对应了探索与利用概念。强化学习任务的奖赏在多步动作之后才能观察到。如果仅为执行奖赏最大的动作，可采用仅利用（exploitation-only）法：每一步仅选择当前已知的奖赏值最大的动作。而若为得到各个动作的期望奖赏值，则可采用仅探索（exploration-only）法：将所有的尝试机会平均分配给每个动作。一般而言，这两种方式都难以使得奖赏值最大化。