- 我正在尝试使用多层神经网络在部分可观察马尔可夫过程中实现概率函数..
- 我认为 NN 的输入是:当前状态、选择的操作、结果状态;输出是 [0,1] 中的概率(概率。对当前状态执行选定操作将导致结果状态)
- 在训练中,我将前面提到的输入输入到 NN 中,然后我教它输出 = 1.0 的每个已经发生的情况。
问题:
对于几乎所有测试用例,输出概率接近 0.95.. 没有输出低于 0.9!即使对于几乎不可能的结果,它也给出了很高的概率。
PS:我认为这是因为我只教它发生的情况,而不是未发生的情况。但是我不能在剧集中的每一步都教它输出= 0.0 为每个未发生的动作!
有什么建议可以解决这个问题吗?或者可能是使用 NN 或实现 prob 功能的另一种方式?
谢谢