动态规划的决策和策略：什么意思

2021年10月6日17:35:13已关闭评论

当各阶段的状态取定以后，就可以做出不同的决定（或选择），从而确定下一阶段的状态，这种决定称为决策。表示决策的变量称为决策变量，常用 x _k（ S _K）表示第 K 阶段当状态为 S _k时的决策变量。

在实际问题中，决策变量的取值往往限制在一定范围内，称此范围为允许决策集合，常用 D _K（ S _K）表示第 K 阶段从状态 S _K出发的允许决策集合，显然 s _k（ S _k） ∈ D _K（ S _K）。

例1-1 设某企业要把一批货物从 A 点运到 E 点出售，交通网络如图1-1所示，两点之间连线上的数字表示两点间的距离，问应选择什么路线，可使总距离最短？

如例1-1中从状态 B ₂出发，可作三种不同的决策，即 x 2 _（B ₂） = C 1 ， x ₂（ B ₂） = C ₂， x ₂（ B ₂） = C ₃，故 B ₂的允许决策集合 D ₂（ B ₂） = ｛ C ₁， C ₂， C ₃｝，显然 x ₂（ B ₂） ∈ D ₂（ B ₂）。

由各阶段决策 x _k， K =1，2，…， n 构成的决策序列，称为策略，又称为全过程策略记为 p ₁（ S ₁），有：

p ₁（ S ₁） = ｛x ₁（ S ₁）， x ₂（ S ₂），…， x _n（ S _n）｝

或简记为：

p ₁= ｛ x ₁， x ₂，…， x _n｝

由第 K 阶段到最终阶段内各段决策所构成的决策序列，称为第 K 子过程策略，简称子策略，记为 pk （ S _K），有：

p k （ S _K） = ｛x _k（ S _K）， x _k₊₁（ S _k₊₁），…， x _n（S _n）｝

或简记为：

p _k=｛ x _k， x _k₊₁，…， x _n｝

一般可供选择的策略都有一定的范围，此范围称为允许策略集合，用P表示。如例1-1从 A 到 E 共有2×3×2=12条路线，因此有12个策略，允许决策集合有12个元素。

从允许决策集合中使整个问题达到最优效果的策略称为最优策略。

登录 找回密码