0

我有一个关于交叉验证的问题:我正在使用朴素贝叶斯分类器按作者对博客文章进行分类。当我在没有 k 折交叉验证的情况下验证我的数据集时,我得到 0.6 的准确度分数,但是当我进行 k 折交叉验证时,每个折页都会呈现更高的准确度(大于 0.8)。

例如:

(手动拆分):验证集大小:1452,训练集大小:13063,准确度:0.6033057851239669

进而

(使用 k 折叠):折叠 0 -> 训练集大小:13063,验证集大小:1452 准确度:0.8039702233250621(所有折叠都超过 0.8)

ETC...

为什么会这样?

4

1 回答 1

1

发生这种情况的原因有几个:

  1. 您的“手动”拆分不是随机的,您碰巧选择了更多难以预测的异常值。你怎么做这个分裂?

  2. 什么是kin k-fold CV?我不确定您所说的验证集大小是什么意思,您在 k-fold CV 中有一个折叠大小。没有验证集,您使用整个数据运行交叉验证。你确定你正确地运行了 k 折交叉验证吗?

通常,选择k = 10k 折交叉验证。如果您使用整个数据正确运行它,您应该依赖它的结果而不是其他结果。

于 2015-02-20T09:48:31.320 回答