我需要一些帮助来解决使用 Q 学习算法的问题。
问题描述:
我有一个火箭模拟器,其中火箭走的是随机路径,有时也会坠毁。火箭有 3 种不同的引擎,可以开启或关闭。根据启动的发动机,火箭会飞向不同的方向。
提供关闭/打开引擎的功能
任务:
构造一个始终朝上的Q-learning控制器。
读取火箭角度的传感器可作为输入。
我的解决方案:
我有以下状态:
我还有以下操作:
- 所有引擎关闭
- 左引擎开启
- 右引擎开启
- 中置引擎开启
- 左右开
- 左边和中间
- 右边和中间
以及以下奖励:
角度 = 0,奖励 = 100 所有其他角度,奖励 = 0
问题:
现在问题来了,这是奖励和状态的一个好的选择吗?我可以改进我的解决方案吗?其他角度有更多的奖励会更好吗?
提前致谢