2

我正在寻找马尔可夫决策过程/随机最优控制问题的求解器/优化器的求解器(另请参见不确定性下的顺序决策

这个问题是由一组微分方程描述的,但它是通过时间离散化的。

d w / dt = u f(w) + z * w
d R / dt = (1-u) g(w)

其中 f(.),g(t) 是某个函数,z 是具有正态/对数正态/幂律概率分布的随机变量,u 是包含在 [0,1] 中的控制。你可能会及时改变。

优化标准可能是最后时间 T 的平均收入:

max_u E[R(T)]_z

我正在寻找类似于http://nicky.vanforeest.com/probability/mdp/mdp.html但在 c/c++ 中解决此类问题的库。

4

0 回答 0