1

我正在使用此链接上提供的公共数据集。

它是关于营销的,其中一个变量 ( pdays, numeric) 是指从上一个活动中最后一次联系客户之后经过的天数。

值为 999 的行表示之前未联系过客户。恐怕将其用于 ML 算法会导致错误的结果。

我正在考虑将它们归零。但是我不知道在使用算法之前缩放数据集时如何处理零(我应该考虑零吗?)。

有更好的解决方案吗?

4

1 回答 1

2

我认为您将这个值设置为 0 是正确的,但这里的最佳做法可能是也定义一个新的二进制变量。您可以将此变量命名为“以前未联系过”,并且对于值 999 的每个观察值,将值 1 分配给新变量,表示以前未联系过客户,否则为 0。

于 2019-11-11T18:20:38.883 回答