0

我正在使用 R 的“离散化”包。在找到切点时,我得到以下结果。

命令 :

discretization::cutPoints(data3$Dist_to_Stream, data3$Malaria_w3)

其中Dist_to_Stream是数值变量,Malaria_w3是类(分类)

 [1]    5.118175   95.484400  119.386500  300.842000  311.320500
 [6]  338.104000  387.722500  460.783000  472.821500  551.741500
 [11]  910.745500  214.143000  234.124500  260.812000  358.513000
 [16]  361.015500  449.447500  538.411500  589.118500  626.888000
 [21]  657.261000  648.304500  698.310500  953.814500 1091.265000
 [26] 1181.350000 2023.885000 2040.360000 2069.390000 2201.395000
 [31] 2120.185000 2142.255000 2456.820000 2819.860000

输出切点太多(34 个 bin)。有没有办法在监督(基于熵)分箱时控制切割点的数量?

提前致谢..

4

1 回答 1

0

discretization包的功能R不提供任何此类参数来控制箱的数量(离散化文档)。这可以通过Optimal BinningSPSS 的选项轻松完成。可以在执行分箱之前设置最大分箱数(仍然是有监督的分箱)。

更多信息 最佳分箱

于 2015-10-16T15:09:10.030 回答