我有一个状态->动作对(s,a)的数据集,其中每个 s 定义了 a 的可能选择的概率分布,并且每个 a 都是从该概率分布中采样的。我想为这个数据集训练一个分类器,而不是学习预测最大似然,它预测分布 a 是从中采样的。
例如,如果您正在玩一个迭代的石头剪刀布,您的状态可能只是您之前做出的动作和 ∈ { Rock, Paper, Scissors },其中之前的状态降低了再次选择该动作的概率。我的数据集将如下所示:
PreviousAction,Chosen
Rock,Paper
Paper,Rock
Rock,Scissors
Scissors,Paper
Paper,Paper
...
是否可以在 scikit-learn 中使用随机森林学习标签上的概率分布?