1
  • 我正在与 RL & NN 合作一个项目
  • 我需要确定将馈送到神经网络的动作向量结构​​。

我有 3 个不同的动作(A & B & Nothing),每个都有不同的权力(例如 A100 A50 B100 B50) 我想知道将这些动作提供给 NN 以产生最佳结果的最佳方法是什么?

1-将A / B馈入输入1,而动作功率100/50 /无输入2

2-喂A100/A50/无输入1,而B100/B50/无输入2

3- 将A100/A50 输入1,而B100/B50 输入2,而Nothing 标志输入3

4-还要喂100和50或将它们标准化为2和1?

我需要选择一种方法的理由 推荐任何建议

谢谢

4

1 回答 1

1

你想学些什么?输出应该是什么?输入只是使用的动作吗?如果您正在学习环境模型,它由概率分布表示:

P(下一个状态|状态,动作)

对每个动作使用单独的模型是很常见的。这使得输入和输出之间的映射更简单。输入是状态特征向量。输出是下一个状态的特征向量。使用的动作由模型暗示。

状态特征可以被编码为比特。活动位将指示特征的存在。

这将学习确定性模型。我不知道什么是学习下一个状态的随机模型的好方法。一种可能是使用随机神经元。

于 2010-05-26T20:54:35.123 回答