我正在使用 vowpal wabbit 进行逻辑回归。我开始知道 vowpal wabbit 从给定的训练数据中选择一个保留集进行验证。这组是随机选择的。我有一个非常不平衡的数据集,其中包含 100 个 +ve 示例和 1000 个 -ve 示例。我想知道给定这些训练数据,vowpal wabbit 如何选择保留示例?
如何为 +ve 示例分配更多权重
我正在使用 vowpal wabbit 进行逻辑回归。我开始知道 vowpal wabbit 从给定的训练数据中选择一个保留集进行验证。这组是随机选择的。我有一个非常不平衡的数据集,其中包含 100 个 +ve 示例和 1000 个 -ve 示例。我想知道给定这些训练数据,vowpal wabbit 如何选择保留示例?
如何为 +ve 示例分配更多权重
默认情况下,每 10 个示例都用于保留(您可以使用 更改它--holdout_period
,请参阅https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments#holdout-options)。这意味着使用保持评估训练的模型仅在 90% 的训练数据上进行训练。这可能会导致精度稍差。另一方面,它允许您使用--early_terminate
(默认设置为 3 遍),这更容易降低因训练遍数过多而导致过度训练的风险。请注意,默认情况下保持评估是打开的,只有在使用多次传递时(否则大众使用渐进式验证损失)。
至于第二个问题,您可以为正例添加重要性权重。默认重要性权重为 1。请参阅https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format