从决策的过程能够看出马尔科夫决策过程的一条轨迹可以用相继的状态和行动组成。我们把到t时刻的一条轨迹记为
ht=(i0,a0,i1,a1,…,it-1,at-1,it)t≥0 (9.4)
称为从时刻0到时刻t的一条历史,其中ik∈S和ak∈A(ik)分别表示决策时刻k时系统所处的状态和决策者采取的行动(k=0,1,…,t-1),it∈S为系统当前所处的状态。全体到时刻t的历史为Ht。如果采用计划乘积的记号,有
Ht=Ht-1×A×s=(S×A)t×S (9.5)
如果t→∞,则H∞为所有轨迹的集合。
一个决策规则描述了一个决策时刻系统在各个不同的状态上选取行动的规则。决策规则的范围比较广,从选取确定的某个行动,到根据历史的决策过程随机的选取行动。记N+={1,2,…,}为全体正整数的集合,N={0,1,2,…,}为全体非负数集合。我们给出决策规则的具体定义如下。
定义1 如果状态空间上的函数f满足:对每个i∈S,有f(i)∈A(i),即f:S→A(i),则称f为确定性决策规则,或称为决策函数或者马尔科夫决策函数。全体决策函数所组成的集合记作F。
如果状态空间上的概率分布函数πt满足:对每个时刻t时刻的i∈S,πt(·|i)∈Dis(A(i))是A(i)上的一个概率分布,即满足πt(a|i)≥0且
那么称πt为马尔科夫决策规则,这里t∈N是决策时刻。决策函数是马尔科夫决策规则的退化情形。
如果状态空间上的概率分布函数πt满足:在t时刻的历史为ht∈Ht的条件下,πt(·|ht)∈Dis(A(i))是A(i)上的一个概率分布,即满足πt(a|ht)≥0且
那么称πt为一般决策规则,这里t∈N是决策时刻。马尔科夫决策规则是一般决策规则的退化情形。
注意:对于一般决策规则来讲,在不同的历史和
下,尽管0和t两个时刻系统都处于相同的状态i0和it,分布函数πt
与
一般也不相同。
定义2 一个决策函数序列π=(f0,f1,…),ft∈F,t∈N称为(确定性)马尔科夫策略。其中ft是决策时刻t的决策函数,不依赖于时刻t以前系统的历史,t∈N。全体马尔科夫策略所组成的集合记作称为马尔科夫策略类。
一个马尔科夫决策规则序列π=(π0,π1,…)称为随机马尔科夫策略,其中πt是决策时刻t的决策规则且不依赖于时刻t以前系统的历史,t∈N。全体随机马尔科夫策略所组成的集合记作Πm,称为随机马尔科夫策略类。
定义3 一个决策规则序列π=(π0,π1,…),如果时刻t的决策规则πt不仅是随机的,而且依赖于系统的历史ht,t∈N,这是最一般的策略。全体一般策略所组成的集合记作Π,称为策略空间。如果对一切t,πt是依赖于系统的历史ht的退化分布,则π称为决定性策略,全体决定性策略记为Πd,称为决定性策略类。
从定义可以看出,一般的策略使用起来时是很不方便的,因为随着时间的推移,这种策略选取控制系统的行动时需要考虑到系统的整个发展历史。如果能找到比较简单的控制方式,那是求之不得的,因此我们对特殊的策略更感兴趣。
定义4 一个马尔科夫策略,如果对每个t∈N,都有ft≡f0,则称它为(确定性)平稳策略,记作
。全体平稳策略所组成的集合记作
,并称为平稳策略类。在不引起混淆时,一个平稳策略f∞有时也简记为f。
一个随机马尔科夫策略π=(π0,π1,…)∈Πm,如果对每个t∈N,都有πt≡π0,则称它为随机平稳策略,记作。全体随机平稳策略所组成的集合记作Πs,并称为随机平稳策略类。
从上面的定义可以看到策略类之间的关系为:
且与F包含的元素一样多。在不引起混淆的地方,我们用F表示
。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。