我想知道分箱后该怎么做。例如,特征之一是年龄。所以我的数据是 [11, 12, 35, 26]。
然后我应用大小为 10 的分箱:
箱子,名字
[0, 10) --> 1
[10, 20) --> 2
[20, 30) --> 3
[30, 40) --> 4
然后我的数据变成 [2, 2, 4, 3]。现在假设我想将此数据置于线性回归模式。我应该将 [2, 2, 4, 3] 视为数字特征吗?还是应该将它们视为分类特征,例如先进行一次热编码,然后将其提供给模型?
我想知道分箱后该怎么做。例如,特征之一是年龄。所以我的数据是 [11, 12, 35, 26]。
然后我应用大小为 10 的分箱:
箱子,名字
[0, 10) --> 1
[10, 20) --> 2
[20, 30) --> 3
[30, 40) --> 4
然后我的数据变成 [2, 2, 4, 3]。现在假设我想将此数据置于线性回归模式。我应该将 [2, 2, 4, 3] 视为数字特征吗?还是应该将它们视为分类特征,例如先进行一次热编码,然后将其提供给模型?
如果您正在构建线性模型,那么对这些 bin 进行热编码可能是更好的选择,因此如果与目标存在任何线性关系,ohe 将保留它。
如果您正在构建基于树的模型,例如随机森林,那么您可以使用 [2, 2, 4, 3] 作为数值特征,因为这些模型是非线性的。
如果构建回归模型并且不想使用 ohe 扩展特征空间,则可以将 bin 视为分类变量,并使用均值/目标编码对该变量进行编码,或者通过遵循每个 bin 的目标均值来使用数字进行编码。
有关本文最后 2 个过程的更多详细信息。
免责声明:我写了这篇文章。