0

假设我有一个长度为 5 的上下文向量 x,我在 0 和 1 之间随机采样。这我可以在 python 中编码为

import numpy as np
x = np.random.uniform(0,1,5) 

首先,我想建模一个依赖于上下文向量的奖励函数。假设奖励是01。在模拟中对此进行建模的最佳方法是什么?

接下来,假设我有 100 个不同的用户,对于每个用户,奖励函数随上下文变化的方式都不同。所以我想如果我将奖励函数建模为伯努利分布,我可以为不同的用户给出不同的平均值。但是我想针对不同的上下文对其进行建模。我不确定如何建模。为一组 100 个用户在不同上下文中建模奖励的最佳方法是什么?

4

0 回答 0