1

tf.distributions 允许访问多个发行版。我的网络应该预测概率密度函数的参数(即我的情况下的策略),然后损失再次取决于这些。我想特别要求 beta 发行版,因为那是我打算使用的发行版。例如:

loss=tf.distributions.Beta(concentration0,concentration1).pdf(some_value)/tf.distributions.Beta(given_concentration0.pdf(some_value), given_concentration1)*advantage
trainstep = tf.train.AdamOptimizer().minimize(loss)

其中concentration1 和concentration0 是某个网络的输出,我想对其进行优化(假设为了这个问题而给出了其他参数)。当调用 session.run(trainstep) 时,这会反向传播到网络中吗?我找不到任何说明其中一个或另一个的资源。

4

0 回答 0