Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
目前我正在参加几场 Kaggle 机器学习比赛,我有一个简单的问题。为什么我们使用交叉验证来评估我们的算法在这些比赛中的有效性?
当然,在这些比赛中,你在公开排行榜上的得分,你的算法会根据实际实时数据进行测试,这会让你更准确地表示你的算法效率吗?
交叉验证是模型构建的必要步骤。如果交叉验证给您带来糟糕的结果,那么即使在实时数据上进行尝试也是没有意义的。您正在训练和验证的数据集也是实时数据,不是吗?所以,结果应该是相似的。如果不验证您的模型,您将无法深入了解其性能。在训练集上给出 100% 准确率的模型可以在验证集上给出随机结果。
让我再次重申,交叉验证不是实时数据测试的替代品,它是模型构建过程的一部分。