0

我有几个值分布非常不均匀的数据集:大多数值非常低,但有些值非常高,例如,在直方图屏幕截图中甚至更极端。

我实际上对高值的差异感兴趣。

所以我正在寻找的是一种分类方法,它在数据值很少的地方设置许多中断值,在值很多的地方设置大类。也许类似于反向分位数分类。

您对哪种算法可以帮助完成这项任务有什么建议,最好是在 Python 中?

在此处输入图像描述

4

1 回答 1

0

如果您使用的是熊猫,您不能只选择高于您选择的阈值的值并单独分析差异吗?

import pandas as pd

df = pd.DataFrame(your data)

df_to_analyze_large_values = df[df.your_Column_of_interest > 100000]

于 2020-05-28T13:09:33.103 回答