如果这很重要,我正在使用 Rstan。
Stan 让我们在变分模式和采样模式下运行,变分模式要快得多。我的问题是变分 Stan 的行为是否可以为我们的模型提供任何线索。
变分模式有几种行为,我想知道它们是否可以提供线索,表明我们的模型有问题,甚至可能是什么。例如:
我们可以在 eta 适应过程中得到一个错误。
我们可以在梯度上升过程中得到一个错误,通常是在任何迭代之前,但偶尔会在以后的迭代中。
我们可以得到梯度上升的分歧——即delta ELBO均值爆炸。
我们可以使 delta ELBO 均值/中值增加到初始 1.0 以上,然后减小直到收敛。
我们的 delta ELBO 均值/中位数从 1.0 开始下降,但迭代次数更多或更少。
我们可以使 delta ELBO 均值或中值或两者都收敛(即低于 0.01)。
我在考虑经验法则。以采样时的示例为例,如果我有一个合理大小的数据集和一个相当简单的模型,但采样时间过长,我的第一个想法是检查我的先验。当我将先验保留为默认值(平坦,不正确的先验)时,我已经看到了这种行为,并且通常通过在事物上放置一个相当模糊的先验以使采样器远离样本空间的不合理部分来解决此问题。
任何人都有平均场模式的经验法则或见解——无论是在它本身的权利上,还是它与采样的关系?