我正在与Ludwig一起运行模型。
数据集是成人人口普查:
特征
工作类有将近 70% 的 Private 实例,Unknown (?) 可以用这个值来估算。
native_country,90% 的实例是美国,可用于估算未知 (?) 值。由于值分布更广,因此不能说职业列也是如此。
capital_gain有 72% 的实例在小于 50K 的情况下为零值,19% 的实例在 >50K 的情况下为零值。
capital_loss有 73% 的实例在小于 50K 的情况下为零值,21% 的实例在 >50K 的情况下为零值。
当我定义模型时,对于上述情况,最好的方法是什么?
{
"name": "workclass",
"type": "category"
"preprocessing": {
"missing_value_strategy": "fill_with_mean"
}
},
{
"name": "native_country",
"type": "category"
"preprocessing": {
"missing_value_strategy": "fill_with_mean"
}
},
{
"name": "capital_gain",
"type": "numerical"
"preprocessing": {
"missing_value_strategy": "fill_with_mean",
}
},
{
"name": "capital_loss",
"type": "numerical"
"preprocessing": {
"missing_value_strategy": "fill_with_mean"
}
},
问题:
1)对于类别特征如何定义:如果找到?,将其替换为X。
2)对于数值特征如何定义:如果找到0,将其替换为均值?