我目前正在尝试对我的数据集执行数据清理,其中包含来自在线超市的在线交易的 2K 记录。
在我的数据集中,存在一些数据质量问题 -
1)“?” 在我的收入列中,如图所示
我可以知道如何在 IBM SPSS Modeler 中清理这些数据吗?我尝试使用“填充”节点来替换“?” 但我不太确定在表达式生成器中写什么。如您所见,由于带有“?”的记录,Income 以字符串形式存储在 Filler 节点中。
是否有人知道如何替换/清理收入数据,因为我想使用数据审计准备节点将缺失值替换为收入列的平均值。但是,要我这样做,我需要删除“?” 为了将收入类型更改为类型节点中的连续数据。
2) 我的 Cigg 列的缺失值 (T/F)
我不太确定如何将 Cigg 列的缺失值替换为布尔值。我可以知道我应该如何为此替换数据吗?
谢谢你。