动态规划的决策和策略:什么意思

2021年10月6日17:35:13动态规划的决策和策略:什么意思已关闭评论

当各阶段的状态取定以后,就可以做出不同的决定(或选择),从而确定下一阶段的状态,这种决定称为决策。表示决策的变量称为决策变量,常用 ( )表示第 阶段当状态为 时的决策变量。

在实际问题中,决策变量的取值往往限制在一定范围内,称此范围为允许决策集合,常用 ( )表示第 阶段从状态 出发的允许决策集合,显然 ( ) ∈ ( ) 。

例1-1 设某企业要把一批货物从 点运到 点出售,交通网络如图1-1所示,两点之间连线上的数字表示两点间的距离,问应选择什么路线,可使总距离最短?

如例1-1中从状态 出发,可作三种不同的决策,即 ( ) = 1 , ( ) = , ( ) = ,故 的允许决策集合 ( ) = { , , },显然 ( ) ∈ ( ) 。

由各阶段决策 , =1,2,…, 构成的决策序列,称为策略,又称为全过程策略记为 ( ),有:

( ) = {x ( ), ( ),…, ( )}

或简记为:

= { , ,…, 

由第 阶段到最终阶段内各段决策所构成的决策序列,称为第 子过程策略,简称子策略,记为 pk ( ),有:

( ) = {x ( ), +1 ( +1 ) ,…, (S )}

或简记为:

={ , +1 ,…, 

一般可供选择的策略都有一定的范围,此范围称为允许策略集合,用P表示。如例1-1从 到 共有2×3×2=12条路线,因此有12个策略,允许决策集合有12个元素。

从允许决策集合中使整个问题达到最优效果的策略称为最优策略。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。