python - 不均匀分布数据的分类方法

Question

我有几个值分布非常不均匀的数据集：大多数值非常低，但有些值非常高，例如，在直方图屏幕截图中甚至更极端。

我实际上对高值的差异感兴趣。

所以我正在寻找的是一种分类方法，它在数据值很少的地方设置许多中断值，在值很多的地方设置大类。也许类似于反向分位数分类。

您对哪种算法可以帮助完成这项任务有什么建议，最好是在 Python 中？

score 0 · Accepted Answer

如果您使用的是熊猫，您不能只选择高于您选择的阈值的值并单独分析差异吗？

import pandas as pd

df = pd.DataFrame(your data)

df_to_analyze_large_values = df[df.your_Column_of_interest > 100000]

1 回答 1