我有一个代理,它接受状态并返回动作,同时保持状态/动作对的效用的内部表示。我还有一个环境,可以采取行动并返回状态/奖励对。
我需要能够将代理设置为开始状态,然后不断地从代理 -(action)-> environment -(state, reward)-> agent -(action)->... 但是,内部状态(每次迭代都需要更新)需要保持私有(即在代理或环境中)。这意味着我不能简单地将环境调用为代理中的一个函数,使用状态和动作作为参数。
我有点像 Haskell noobie,所以我什至不确定这是否可能。