我最近遇到了 openAI 5。我很好奇他们的模型是如何构建和理解的。我在维基百科中读到它“包含一个带有 1024 单元 LSTM 的单层”。然后我发现这个包含架构方案的pdf。
我的问题
从这一切我不明白一些事情:
拥有 1024 个单元的 LSTM 层意味着什么?这是否意味着我们有 1024 个时间步长和单个 LSTM 单元,或者这是否意味着我们有 1024 个单元。你能给我看一些可视化的图表吗?我特别难以在一层中可视化 1024 个单元格。(我尝试查看几个 SO 问题,例如1、2或openAI 5 博客,但它们并没有太大帮助)。
你如何在这样的模型上进行强化学习?我习惯了 RL 与 Q-Tables 一起使用,并且它们在训练期间被更新。这是否仅仅意味着他们的损失函数就是奖励?
为什么这么大的模型没有梯度消失之类的问题?在pdf中没有看到任何类型的规范化。
在 pdf 中,您可以看到一个蓝色矩形,似乎它是一个单元,并且其中有
N
一个。这是什么意思?如果我弄错了,请纠正我,粉红色的框用于选择最佳移动/项目(?)
总的来说,所有这些都可以概括为“openAI 5 模型是如何工作的?