我正在尝试按概率(用简单的直方图估计)来索引数据。目标是在系列中选择概率小于某个阈值的项目。
我有一系列整数值,例如:
import pandas as pnd
import numpy as np
series = pnd.Series(np.random.poisson(5, size = 100))
然后我像这样计算他们的直方图:
tmp = {"series" : series, "count" : np.ones(len(series))}
hist = pnd.DataFrame(tmp).groupby("series").sum()
freq = hist / hist.sum()
所以现在我有了结果索引的每个结果的频率,以及一系列结果。我现在有两个问题:
- 有没有办法
series
通过定义的结果/频率的映射来索引freq
? - 如果我设法做到这一点,我如何只选择频率大于某个值的结果?
谢谢。