【摘要】:绝对剪枝条件的获得仅仅依赖于UCB算法解决多臂匪徒问题的性质。所以,利用绝对剪枝条件时,被访问最多次数的节点绝对不可能满足剪枝条件,这样就保证在使用绝对剪枝条件后,根据访问次数做出的最终决策结果将和使用原始的UCT方法保持一致。
10.3.1 绝对剪枝条件
绝对剪枝条件的获得仅仅依赖于UCB算法解决多臂匪徒问题的性质。UCB算法被用于UCT算法中,其目的是解决蒙特卡洛决策过程中遇到一个马尔科夫决策过程时如何选择下一个行为以达到探索与利用平衡的问题。
假设:有k个臂的多臂匪徒模型,ai代表第i个手臂,vi表示第i个手臂目前被访问的次数,w i表示第i个手臂目前获胜的次数。表示到目前为止所有手臂被访问的次数和,表示到目前为所有手臂上的获胜次数和,其中i∈{1,…,k}。我们可以知道,vi≥wi并且v≥w,这是因为获胜次数永远受到访问次数的限制。现在用表示第i个手臂上还将被访问的次数,表示该臂上还将取得的获胜次数。表示还将访问各个手臂的总次数,表示在将要进行的访问中获胜的总次数。和上面一样,显然有且。表示总的访问次数。
绝对剪枝条件:如果使得vj>V/2,则当j∈{1,…,k}∩i≠j时,ai可以被剪枝。显然地,如果
vj>V/2,其中,j∈{1,…,k}∩i≠j (10.2)
则
因此有
vi<V/2<vj(i≠j) (10.4)
因为在利用UCT算法确定究竟哪一个可下点会变成最终的落子点时,我们总是会选择那个被访问最大次数的可下点。所以,利用绝对剪枝条件时,被访问最多次数的节点绝对不可能满足剪枝条件,这样就保证在使用绝对剪枝条件后,根据访问次数做出的最终决策结果将和使用原始的UCT方法保持一致。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。