我寻找一种解决方案来从不平衡的奖励样本数据文件中训练 DNNClassifier(4 个类,20 个数字特征)。每个类代表一个游戏动作并奖励动作得分。给出特征观察。所以它看起来像QLearning模型......但是QLearning模型是一种无数据的在线训练方法。
我尝试使用以下公式管理样本权重:
权重 = ((reward-minreward)/(maxreward-minreward))*(totalsamples/classsamples)
180k 样本,准确率低;490k 样本准确率为 83%;不够好。
那么执行此操作的最佳方法是什么:
- 和我一样有重量,但有更多样品或其他公式
- 使用 QLearning 算法(但不知道该怎么做......)
- 使用 Learning to Rank 算法(没有找到任何好的和完整的教程)
感谢您的回答