0

我目前正在研究在给定由另一个策略生成的数据集的情况下评估上下文强盗(目标)策略的问题(这是上下文强盗的非策略策略评估)

我要解决的问题有两个或更多的连续动作维度。我需要满足这个条件的真实数据集。如果有适合这种情况的医学数据集,我认为它最适合我。

是否有一个数据集包含两个或多个医生(对应于 2 个策略)为患者开出两个或多个连续值的药物剂量(对应于 2 个或多个连续动作维度),并且还包含患者服药后的状况(哪个对应于奖励)?

4

0 回答 0