machine-learning - 使用神经网络进行强化学习

Question

我有 3 个不同的动作（A & B & Nothing），每个都有不同的权力（例如 A100 A50 B100 B50）我想知道将这些动作提供给 NN 以产生最佳结果的最佳方法是什么？

1-将A / B馈入输入1，而动作功率100/50 /无输入2

2-喂A100/A50/无输入1，而B100/B50/无输入2

3- 将A100/A50 输入1，而B100/B50 输入2，而Nothing 标志输入3

4-还要喂100和50或将它们标准化为2和1？

我需要选择一种方法的理由推荐任何建议

谢谢

score 1 · Accepted Answer

你想学些什么？输出应该是什么？输入只是使用的动作吗？如果您正在学习环境模型，它由概率分布表示：

P（下一个状态|状态，动作）

对每个动作使用单独的模型是很常见的。这使得输入和输出之间的映射更简单。输入是状态特征向量。输出是下一个状态的特征向量。使用的动作由模型暗示。

状态特征可以被编码为比特。活动位将指示特征的存在。

这将学习确定性模型。我不知道什么是学习下一个状态的随机模型的好方法。一种可能是使用随机神经元。

1 回答 1