我正在尝试创建一个简单的基于STRIPS的规划器。我已经完成了计算将达到目标的单独概率计划的基本功能,但现在我正在尝试确定如何根据它们的初始操作聚合这些计划,以确定在时间 t0 的“整体”最佳操作是什么.
考虑以下示例。效用,介于 0 和 1 之间,表示计划实现目标的程度。CF 也介于 0 和 1 之间,表示确定性因子,或执行计划将产生给定效用的概率。
Plan1: CF=0.01, Utility=0.7
Plan2: CF=0.002, Utility=0.9
Plan3: CF=0.03, Utility=0.03
如果所有三个互斥的计划都从动作 A1 开始,我应该如何聚合它们以确定使用动作 A1 的整体“适合度”?我的第一个想法是将确定性因素相加,然后乘以公用事业的平均值。这看起来正确吗?
所以我目前的结果看起来像:
fitness(A1) = (0.01 + 0.002 + 0.03) * (0.7 + 0.9 + 0.03)/3. = 0.02282
或者我应该计算个人可能的效用,然后取平均值?
fitness(A1) = (0.01*0.7 + 0.002*0.9 + 0.03*0.03)/3. = 0.00323
有没有理论上更合理的方法?