探索-利用窘境(exploration-exploitation dilemma),理学-计算机科学技术-人工智能-机器学习-弱监督学习-强化学习,最早在管理学中提出的概念。企业的流程管理(process management)可以遵循已知的高效模式来进行,但这样就失去了探索未知的更高效模式的机会。然而如果进行了过多的未知的探索,将使企业效率低下。这就是管理学中的探索-利用窘境。如今,探索-利用窘境在启发式搜索、强化学习(reinforcement learning)中更多地被提及。启发式搜索需要在搜索空间中寻找最优的解。对不同搜索区域的大范围搜索与在同一搜索区域内的小范围搜索,分别对应了探索与利用概念。强化学习任务的奖赏在多步动作之后才能观察到。如果仅为执行奖赏最大的动作,可采用仅利用(exploitation-only)法:每一步仅选择当前已知的奖赏值最大的动作。而若为得到各个动作的期望奖赏值,则可采用仅探索(exploration-only)法:将所有的尝试机会平均分配给每个动作。一般而言,这两种方式都难以使得奖赏值最大化。