当各阶段的状态取定以后,就可以做出不同的决定(或选择),从而确定下一阶段的状态,这种决定称为决策。表示决策的变量称为决策变量,常用 x k ( S K )表示第 K 阶段当状态为 S k 时的决策变量。
在实际问题中,决策变量的取值往往限制在一定范围内,称此范围为允许决策集合,常用 D K ( S K )表示第 K 阶段从状态 S K 出发的允许决策集合,显然 s k ( S k ) ∈ D K ( S K ) 。
例1-1 设某企业要把一批货物从 A 点运到 E 点出售,交通网络如图1-1所示,两点之间连线上的数字表示两点间的距离,问应选择什么路线,可使总距离最短?
如例1-1中从状态 B 2 出发,可作三种不同的决策,即 x 2 ( B 2 ) = C 1 , x 2 ( B 2 ) = C 2 , x 2 ( B 2 ) = C 3 ,故 B 2 的允许决策集合 D 2 ( B 2 ) = { C 1 , C 2 , C 3 },显然 x 2 ( B 2 ) ∈ D 2 ( B 2 ) 。
由各阶段决策 x k , K =1,2,…, n 构成的决策序列,称为策略,又称为全过程策略记为 p 1 ( S 1 ),有:
p 1 ( S 1 ) = {x 1 ( S 1 ), x 2 ( S 2 ),…, x n ( S n )}
或简记为:
p 1 = { x 1 , x 2 ,…, x n }
由第 K 阶段到最终阶段内各段决策所构成的决策序列,称为第 K 子过程策略,简称子策略,记为 pk ( S K ),有:
p k ( S K ) = {x k ( S K ), x k +1 ( S k +1 ) ,…, x n (S n )}
或简记为:
p k ={ x k , x k +1 ,…, x n }
一般可供选择的策略都有一定的范围,此范围称为允许策略集合,用P表示。如例1-1从 A 到 E 共有2×3×2=12条路线,因此有12个策略,允许决策集合有12个元素。
从允许决策集合中使整个问题达到最优效果的策略称为最优策略。