machine-learning - 贝叶斯超参数优化

Question

我已经为我的 lstm 超参数做了一些贝叶斯超参数优化的实验。

我使用一种方法，您可以使用高斯过程和 TPE 算法对错误进行建模。他们工作得很好。

我想知道这些策略在哪里被称为“贝叶斯”。谁能解释在超参数优化的背景下“贝叶斯”是什么意思？

谢谢

score 0 · Accepted Answer

好吧，首先，高斯过程属于非参数贝叶斯学习模型的范畴，这意味着它们通常被认为是贝叶斯模型。另一方面，树结构 Parzen 估计器从根本上依赖于贝叶斯规则：它对和进行建模p(x|y)，p(y)我们可以使用它p(y|x)通过贝叶斯规则获得。

但不管人们何时提到贝叶斯优化，他们更多地谈论的是搜索方法本身。如果某事物涉及 (1) 概率先验信念和 (2) 在获得新证据时更新信念的原则性方法，那么它就是贝叶斯。例如，GPs 形成先验函数，以及更新后验（获得新证据后的新分布）的方法，这正是我们想要的贝叶斯 ML。

通常所做的是从（超）参数空间上的贝叶斯先验开始（编码您对性能应该是什么的先验信念）。我们定义了一个采集函数 a(x)，它可以帮助我们选择接下来要查看的参数。由于我们有一个概率贝叶斯模型，我们有一个不确定性的概念：例如，我们可能知道我们的模型在特定点的预测分布的方差。在远离我们观察的点，方差会很高，而在我们观察附近的点，方差会很低。p(y|x)换句话说，我们有一个分布。这种对不确定性的明确解释是贝叶斯方法的巨大好处。

采集功能a(x)通常必须平衡两个因素：（1）不确定性，因为在不确定的区域中可能存在我们尚未看到的“隐藏的宝石”，以及（2）经过验证的性能（即，我们应该留在我们观察到的空间，我们知道是好的）。因此，人们可能会设计a(x)以最小化分布中的熵（不确定性），或最大化贝叶斯惊喜，这意味着“选择在观察时导致后验分布发生最大变化的点”。类似的方法用于强化学习中的探索（搜索“贝叶斯惊喜”或“好奇”）；任何涉及更新“后验信念”的此类方法通常被认为是贝叶斯方法。

TLDR：它们是贝叶斯的，因为它们涉及从先验开始并迭代更新作为信念的后验概率。

machine-learning - 贝叶斯超参数优化

1 回答 1

Related

Reference