Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
所以我正在尝试实现由谷歌 DeepMind 创建的深度 Q 学习算法,我想我现在已经掌握了它。然而,还有一件(非常重要的)事情我不太明白,我希望你能提供帮助。
yj 不会导致双精度数(Java),而后半部分不会导致矩阵,该矩阵包含下一行(算法中的倒数第 4 行)中当前状态下每个动作的 Q 值:
那么我怎样才能将它们彼此相减。
我是否应该使 yj 成为包含此处所有数据的矩阵,但将当前选择的操作替换为
这似乎不是正确的答案,如您所见,我在这里有点迷路。
其实是自己找的。(从一开始就明白了:D)