0

我有一个有向加权图数据结构,其中节点 A 和节点 B 之间的权重表示从节点 A 到节点 B 的转换的次数。

数据结构的目的是识别节点之间的移动模式。

为此,每次转换的权重都会线性增加(请告诉我是否有更好的方法来增加它)

但是,如果用户偏离了他通常的行进路径,则必须分配对最可能路径的惩罚和对新采取的路径的强化,以便根据模式的变化快速调整权重。从而使系统更快速地进行自学习。

分配这种惩罚/强化的最佳方式是什么?我可以随机选择将重量减半/加倍,但这背后没有任何理由,听起来更像是一时兴起。

4

1 回答 1

0

我宁愿给新路径的奖励更高的价值;也许会增加旅行时间的倒数。

我不建议惩罚可能的路径。它不是状态的一部分,也不是 RL 的主要工作方式。而是考虑资格痕迹。

另一方面,考虑改进状态的初始化,而不是调整/调整学习,这可能会更好;您的帖子显示您当前正在尝试应用有关数据的背景信息。

于 2015-03-27T13:21:32.380 回答