我正在使用 mgcv 构建 GAM 模型,并且具有以下功能:
value: -1000 0 1 2 3 4 5 6 7 8
count: 42943 978 1069 402 145 43 7 1 1 1
这个特性有一个特殊的值-1000,表示没有记录。只有 >0 的值具有物理意义。
对整个范围使用平滑样条没有意义,因为 -1000 到 >0 之间的距离没有意义。
将此变量转换为分类因子变量并使用分段常数函数有时也不是很方便,因为如果有这么多离散值,训练(测试)集很容易错过因子水平。
有什么好的方法来处理这种类型的功能吗?我不想简单地放弃它们,因为 >0 部分仍然提供一些区分能力。