我是强化学习的新手,我知道它背后的基本理论。但是,我无法将问题映射到现有框架。问题如下:
给定具有资源的环境:X、Y 和 Z
给定一组项目 I,每个项目都有 (x, y, z, r),其中 x、y 和 z 是服务项目所需的资源,r 是代理在服务项目时获得的奖励,( X, Y, Z) >> (x, y, z)
为了从集合中选择要服务的项目,我使用了成本函数 f = ax + by + cz,其中 a、b 和 c 是预定义的常量。
根据 r/f 比率对项目进行优先选择
目标:选择要服务的项目,以便考虑每个项目的 x、y 和 z 以及资源 X、Y 和 Z,总奖励(所有选定项目的 r 之和)最大
问题:如何调整 a、b 和 c 的值,以使总奖励最大化?
您能给我以下建议吗?
a) 我是否可以使用强化学习来调整常数 a、b 和 c 的“好”值
b) 如果是,我该怎么做?
c) 如果否,对适当的解决方法有什么建议吗?
谢谢你。