0

如果我的问题不清楚,我将尝试举一个更具体的例子:

我正在执行 ak fold 交叉验证以拟合线性 SVM 模型的成本参数(我在 R 中使用 LiblineaR 包)。因此,对于每个成本值,我都有 k 个模型,每个模型都在数据集的不同但重叠的样本上进行训练。然后下一步是在整个训练集上训练模型,并在不包含在任何 k 折叠中的验证集上进行测试 - 标准。

对于我正在解决的问题,误报被认为比误报成本更高,因此在每个 k 折叠中,我都根据加权准确度度量调整决策阈值。我的问题是,一旦为每个 k 个模型选择了决策阈值,取这些决策阈值的平均值并将其应用于最终模型输出是否有意义?

例如,假设成本为 1 是最好的,我有 k=4 个模型以 1 的成本训练。这 4 个模型的调整决策阈值为 0.12、0.14、0.04、0.02,平均值为 0.08。如果我在整个数据集上使用 1 的成本训练模型,我可以使用 0.08 作为决策阈值吗?

或者在不同样本上训练的模型的决策值是否不可比较,在这种情况下取​​平均值就没有意义了?

4

0 回答 0