3

我对数据科学相当陌生。我正在研究使用基于产品编号和商店编号作为预测变量的线性回归来预测销售需求的用例。可以有许多带有数值的商店和产品。如果这些变量/预测变量的值是数字、无界和不同比例,我是否需要标准化或缩放这些变量/预测变量?我相信如果我尝试使用交互术语,我会对其进行标准化吗?

4

1 回答 1

2

由于这些是分类特征,因此在使用线性模型之前,您应该对其进行正确编码以创建合理的模型。如果您可以对这些分类特征进行编码以赋予它们线性相关性,那么您可以对其进行标准化,否则将没有意义。如果您使用基于树的模型,那么您不必编码,因为它们能够发现非线性关系。

编辑说明:您可以尝试使用均值编码的方法。CV循环、扩展均值等方法。

于 2021-08-05T07:42:37.977 回答