3

我已经训练了一个预测CTR的gbdt模型,最初我使用了40个特征,然后我添加了一些特征,但是结果(auc)低于原来的。1. 怎么会这样?2.如何判断哪个特征对模型好?

4

2 回答 2

2

如果添加更多特征会降低性能,这可能是因为过度拟合。您的模型学习参数需要调整以避免过于复杂(过度拟合)的模型。

在随机森林的情况下,树深度就是这样一个参数。不应该让树长得太深,否则它们可能会过拟合(即使有很多树,这也可能发生在随机森林中)。

于 2015-03-11T12:58:36.593 回答
0

我同意添加更多特征会产生更差结果的最可能原因是过度拟合,主要解决方案是特征选择。

现在,有不同的技术可以验证和衡量这种直觉。最好的工具之一是为给定训练和验证子集的模型生成学习曲线。

在 sklearn 库 (Python)的教程中可以看到一个很好的例子。另外,我强烈建议您看一下Andrew Ng 在 Coursera 上关于机器学习课程中学习曲线的讲座。

于 2015-03-11T16:19:20.230 回答