- 我正在与 RL & NN 合作一个项目
- 我需要确定将馈送到神经网络的动作向量结构。
我有 3 个不同的动作(A & B & Nothing),每个都有不同的权力(例如 A100 A50 B100 B50) 我想知道将这些动作提供给 NN 以产生最佳结果的最佳方法是什么?
1-将A / B馈入输入1,而动作功率100/50 /无输入2
2-喂A100/A50/无输入1,而B100/B50/无输入2
3- 将A100/A50 输入1,而B100/B50 输入2,而Nothing 标志输入3
4-还要喂100和50或将它们标准化为2和1?
我需要选择一种方法的理由 推荐任何建议
谢谢