我有一个带有变量的数据集,该变量指示在某个事件发生之前已经过去了多少天(在有限的时间内)。
一些记录具有空值,因为该事件从未发生在它们身上(在那段时间内)。
在处理缺失值时,有时我们会使用某种算法或均值、中位数等进行插补。但是,在处理这种空值时,我的直觉是我们应该将那些空值替换为一个巨大的数字,并将这些记录用于建模因为那些空值也提供了信息。
我的直觉正确吗?
我有一个带有变量的数据集,该变量指示在某个事件发生之前已经过去了多少天(在有限的时间内)。
一些记录具有空值,因为该事件从未发生在它们身上(在那段时间内)。
在处理缺失值时,有时我们会使用某种算法或均值、中位数等进行插补。但是,在处理这种空值时,我的直觉是我们应该将那些空值替换为一个巨大的数字,并将这些记录用于建模因为那些空值也提供了信息。
我的直觉正确吗?