我有几个值分布非常不均匀的数据集:大多数值非常低,但有些值非常高,例如,在直方图屏幕截图中甚至更极端。
我实际上对高值的差异感兴趣。
所以我正在寻找的是一种分类方法,它在数据值很少的地方设置许多中断值,在值很多的地方设置大类。也许类似于反向分位数分类。
您对哪种算法可以帮助完成这项任务有什么建议,最好是在 Python 中?
我有几个值分布非常不均匀的数据集:大多数值非常低,但有些值非常高,例如,在直方图屏幕截图中甚至更极端。
我实际上对高值的差异感兴趣。
所以我正在寻找的是一种分类方法,它在数据值很少的地方设置许多中断值,在值很多的地方设置大类。也许类似于反向分位数分类。
您对哪种算法可以帮助完成这项任务有什么建议,最好是在 Python 中?