Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在学习 CS231N,第 14 讲,“强化学习”。在讲座中,讲师提到了价值函数,如图所示:
我想知道rtand之间的那个酒吧是什么s0?我认为这类似于条件概率,但我不确定。还是只是一个部门?
rt
s0
这是条件概率。它的字面意思是在时间t、给定状态s、遵循政策时的奖励pi。
t
s
pi