logistic-regression - 如何在 vowpal wabbit 中选择支持集

Question

我正在使用 vowpal wabbit 进行逻辑回归。我开始知道 vowpal wabbit 从给定的训练数据中选择一个保留集进行验证。这组是随机选择的。我有一个非常不平衡的数据集，其中包含 100 个 +ve 示例和 1000 个 -ve 示例。我想知道给定这些训练数据，vowpal wabbit 如何选择保留示例？

如何为 +ve 示例分配更多权重

score 5 · Accepted Answer

默认情况下，每 10 个示例都用于保留（您可以使用更改它--holdout_period，请参阅https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments#holdout-options）。这意味着使用保持评估训练的模型仅在 90% 的训练数据上进行训练。这可能会导致精度稍差。另一方面，它允许您使用--early_terminate（默认设置为 3 遍），这更容易降低因训练遍数过多而导致过度训练的风险。请注意，默认情况下保持评估是打开的，只有在使用多次传递时（否则大众使用渐进式验证损失）。

至于第二个问题，您可以为正例添加重要性权重。默认重要性权重为 1。请参阅https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format

logistic-regression - 如何在 vowpal wabbit 中选择支持集

1 回答 1

Related

Reference