首页 百科知识 相对剪枝条件

相对剪枝条件

时间:2023-10-01 百科知识 版权反馈
【摘要】:在对相对剪枝条件进行说明之前,我们先给出访问上界ui的定义:我们假设,从给定时刻起之后的模拟中,如果ai每次被访问时都得到胜利的结果,而其余节点被访问时都得到失败的结果,则在这样的条件下,ui被定义为ai即将被访问次数的上限。当然,上面的假设是极端的,因为我们不可能奢望经过一段时间观察后收效不好的节点ai在之后出现极端优秀的表现。

10.3.2 相对剪枝条件

在对相对剪枝条件进行说明之前,我们先给出访问上界ui的定义:我们假设,从给定时刻起之后的模拟中,如果ai每次被访问时都得到胜利的结果,而其余节点被访问时都得到失败的结果,则在这样的条件下,ui被定义为ai即将被访问次数的上限。如果在这样的假设条件下,ai上的总访问次数仍然不能多于amax节点上的访问次数的话,它就可以被剪枝。

相对剪枝条件:如果img129使得vj>vi+ui,其中j∈{1,…,k}∩i≠j,则ai可以被剪枝。

当然,上面的假设是极端的,因为我们不可能奢望经过一段时间观察后收效不好的节点ai在之后出现极端优秀的表现。所以,在实际应用中,我们给每个ai赋予了一个相对较优的胜率值:ai原始的胜率为ri=wi/vi,在接下来的模拟中,我们将ai的胜率以1-α×(1-ri)代替,α∈[0,1]。令

f(ri)=1-α×(1-ri)-ri=(1-ri)×(1-α)≥0     (10.5)

f′(ri)=α-1≤0     (10.6)

从式(10.5)和式(10.6)两式可以看出,我们将让原本效果不好的节点的胜率发生更大的变化。这样做的目的是显然的,对于本身效果不好的节点而言,只有胜率较大幅度的提高,才能使得剪枝的条件变得安全,而不至于把某些可能突变的点过早地剪掉。

现在我们给出ui的计算方法。在Auer 2002年的论文中,对后悔度的证明过程中有

img130

其中Δi=μi,μi代表第i个手臂上的胜率,而μ代表最大胜率。我们认为不等式(10.7)右侧即是我们要求的ui

现令

g(ri)=1-α×(1-ri)     (10.8)

g′(ri)=α>0     (10.9)

即如果原本节点A的胜率高于节点B,则经过变化后的节点胜率仍然满足这个关系,这就保证了变化之后的胜率不会让节点间的大趋势发生较大变化,也就总体上保证了原有算法的结果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈