Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我已经训练了一个预测CTR的gbdt模型,最初我使用了40个特征,然后我添加了一些特征,但是结果(auc)低于原来的。1. 怎么会这样?2.如何判断哪个特征对模型好?
如果添加更多特征会降低性能,这可能是因为过度拟合。您的模型学习参数需要调整以避免过于复杂(过度拟合)的模型。
在随机森林的情况下,树深度就是这样一个参数。不应该让树长得太深,否则它们可能会过拟合(即使有很多树,这也可能发生在随机森林中)。
我同意添加更多特征会产生更差结果的最可能原因是过度拟合,主要解决方案是特征选择。
现在,有不同的技术可以验证和衡量这种直觉。最好的工具之一是为给定训练和验证子集的模型生成学习曲线。
在 sklearn 库 (Python)的本教程中可以看到一个很好的例子。另外,我强烈建议您看一下Andrew Ng 在 Coursera 上关于机器学习课程中学习曲线的讲座。