stan - 关于 Stan 的行为方式以及这告诉我们什么的提示？

Question

如果这很重要，我正在使用 Rstan。

Stan 让我们在变分模式和采样模式下运行，变分模式要快得多。我的问题是变分 Stan 的行为是否可以为我们的模型提供任何线索。

变分模式有几种行为，我想知道它们是否可以提供线索，表明我们的模型有问题，甚至可能是什么。例如：

我们可以在 eta 适应过程中得到一个错误。
我们可以在梯度上升过程中得到一个错误，通常是在任何迭代之前，但偶尔会在以后的迭代中。
我们可以得到梯度上升的分歧——即delta ELBO均值爆炸。
我们可以使 delta ELBO 均值/中值增加到初始 1.0 以上，然后减小直到收敛。
我们的 delta ELBO 均值/中位数从 1.0 开始下降，但迭代次数更多或更少。
我们可以使 delta ELBO 均值或中值或两者都收敛（即低于 0.01）。

我在考虑经验法则。以采样时的示例为例，如果我有一个合理大小的数据集和一个相当简单的模型，但采样时间过长，我的第一个想法是检查我的先验。当我将先验保留为默认值（平坦，不正确的先验）时，我已经看到了这种行为，并且通常通过在事物上放置一个相当模糊的先验以使采样器远离样本空间的不合理部分来解决此问题。

任何人都有平均场模式的经验法则或见解——无论是在它本身的权利上，还是它与采样的关系？

score 6 · Accepted Answer

我认为可以公平地说，我们对 MCMC 的诊断比对变分贝叶斯的诊断更深入。Stan 中的 VB 算法试图找到最接近无约束空间中参数后验分布的多元正态分布。这可能会失败，因为迭代算法实际上没有找到与后验分布最接近的多元正态分布，或者是因为无约束空间中的后验分布没有被多元正态很好地近似。

一条经验法则是您应该多次运行 VB。在我看来，第二条经验法则是 Stan 将从近似多元正态分布的后验分布中非常有效地采样。所以，如果 MCMC 很慢，要么你有数百万个数据点，要么后验分布不是近似多元正态分布（或两者兼而有之）。VB 在前一种情况下可能更可取，但在后一种情况下不太可能。

我们在示例模型的集合上对 VB 进行了很好的评估。生成良好的预测似乎比恢复参数更好（使用后验均值和标准差来构建 VB 估计的 z 分数）。它似乎在没有尺度参数的模型上做得更好。

特别是对于平均场变体——它试图找到与后验最接近的不相关多元正态分布——几乎需要您进行大量重新参数化以使参数在后验分布中的相关性降低。这就是为什么 rstanarm 建议QR = TRUE为 meanfield（以及其他估计算法）指定参数的原因之一，它通过使用 QR 分解正交化预测变量，然后在获得平局后反转变换来减少系数中的后验相关性。

stan - 关于 Stan 的行为方式以及这告诉我们什么的提示？

1 回答 1

Related

Reference