63

有没有办法做到这一点?将熊猫系列与绘制 CDF 连接起来似乎不是一种简单的方法。

4

8 回答 8

88

我相信你正在寻找的功能是在一个 Series 对象的 hist 方法中,它在 matplotlib 中包装了 hist() 函数

这是相关文档

In [10]: import matplotlib.pyplot as plt

In [11]: plt.hist?
...
Plot a histogram.

Compute and draw the histogram of *x*. The return value is a
tuple (*n*, *bins*, *patches*) or ([*n0*, *n1*, ...], *bins*,
[*patches0*, *patches1*,...]) if the input contains multiple
data.
...
cumulative : boolean, optional, default : False
    If `True`, then a histogram is computed where each bin gives the
    counts in that bin plus all bins for smaller values. The last bin
    gives the total number of datapoints.  If `normed` is also `True`
    then the histogram is normalized such that the last bin equals 1.
    If `cumulative` evaluates to less than 0 (e.g., -1), the direction
    of accumulation is reversed.  In this case, if `normed` is also
    `True`, then the histogram is normalized such that the first bin
    equals 1.

...

例如

In [12]: import pandas as pd

In [13]: import numpy as np

In [14]: ser = pd.Series(np.random.normal(size=1000))

In [15]: ser.hist(cumulative=True, density=1, bins=100)
Out[15]: <matplotlib.axes.AxesSubplot at 0x11469a590>

In [16]: plt.show()
于 2014-10-15T23:57:58.150 回答
37

如果您也对这些值感兴趣,而不仅仅是情节。

import pandas as pd

# If you are in jupyter
%matplotlib inline

这将始终有效(离散和连续分布)

# Define your series
s = pd.Series([9, 5, 3, 5, 5, 4, 6, 5, 5, 8, 7], name = 'value')
df = pd.DataFrame(s)
# Get the frequency, PDF and CDF for each value in the series

# Frequency
stats_df = df \
.groupby('value') \
['value'] \
.agg('count') \
.pipe(pd.DataFrame) \
.rename(columns = {'value': 'frequency'})

# PDF
stats_df['pdf'] = stats_df['frequency'] / sum(stats_df['frequency'])

# CDF
stats_df['cdf'] = stats_df['pdf'].cumsum()
stats_df = stats_df.reset_index()
stats_df

在此处输入图像描述

# Plot the discrete Probability Mass Function and CDF.
# Technically, the 'pdf label in the legend and the table the should be 'pmf'
# (Probability Mass Function) since the distribution is discrete.

# If you don't have too many values / usually discrete case
stats_df.plot.bar(x = 'value', y = ['pdf', 'cdf'], grid = True)

在此处输入图像描述

从连续分布中抽取样本的替代示例,或者您有很多单独的值:

# Define your series
s = pd.Series(np.random.normal(loc = 10, scale = 0.1, size = 1000), name = 'value')
# ... all the same calculation stuff to get the frequency, PDF, CDF
# Plot
stats_df.plot(x = 'value', y = ['pdf', 'cdf'], grid = True)

在此处输入图像描述

仅适用于连续分布

请注意,如果假设样本中每个值只出现一次(通常在连续分布的情况下遇到)是非常合理的,那么groupby()+agg('count')不是必需的(因为计数始终为 1)。

在这种情况下,可以使用百分比排名来直接访问 cdf。

走这种捷径时,请使用您的最佳判断力!:)

# Define your series
s = pd.Series(np.random.normal(loc = 10, scale = 0.1, size = 1000), name = 'value')
df = pd.DataFrame(s)
# Get to the CDF directly
df['cdf'] = df.rank(method = 'average', pct = True)
# Sort and plot
df.sort_values('value').plot(x = 'value', y = 'cdf', grid = True)

在此处输入图像描述

于 2019-01-22T22:09:41.917 回答
15

CDF 或累积分布函数图基本上是一个图表,X 轴为排序值,Y 轴为累积分布。因此,我将创建一个新系列,其中排序值作为索引,累积分布作为值。

首先创建一个示例系列:

import pandas as pd
import numpy as np
ser = pd.Series(np.random.normal(size=100))

对系列进行排序:

ser = ser.sort_values()

现在,在继续之前,再次附加最后一个(也是最大的)值。这一步很重要,特别是对于小样本量以获得无偏 CDF:

ser[len(ser)] = ser.iloc[-1]

创建一个新系列,其中排序值作为索引,累积分布作为值:

cum_dist = np.linspace(0.,1.,len(ser))
ser_cdf = pd.Series(cum_dist, index=ser)

最后,将函数绘制为步骤:

ser_cdf.plot(drawstyle='steps')
于 2015-08-12T16:57:35.000 回答
11

这是最简单的方法。

import pandas as pd
df = pd.Series([i for i in range(100)])
df.hist( cumulative = True )

累积直方图的图像

于 2016-09-21T23:52:51.393 回答
11

我来这里是为了寻找这样一个带有条形CDF 线的情节: 在此处输入图像描述

可以这样实现:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
series = pd.Series(np.random.normal(size=10000))
fig, ax = plt.subplots()
ax2 = ax.twinx()
n, bins, patches = ax.hist(series, bins=100, normed=False)
n, bins, patches = ax2.hist(
    series, cumulative=1, histtype='step', bins=100, color='tab:orange')
plt.savefig('test.png')

如果你想删除垂直线,那么这里解释了如何完成。或者你可以这样做:

ax.set_xlim((ax.get_xlim()[0], series.max()))

我还在这里看到了一个关于如何使用seaborn.

于 2018-08-30T00:13:38.713 回答
3

我在“纯”熊猫中找到了另一个解决方案,它不需要指定要在直方图中使用的箱数:

import pandas as pd
import numpy as np # used only to create example data

series = pd.Series(np.random.normal(size=10000))

cdf = series.value_counts().sort_index().cumsum()
cdf.plot()
于 2018-09-27T09:14:16.520 回答
2

对我来说,这似乎是一种简单的方法:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

heights = pd.Series(np.random.normal(size=100))

# empirical CDF
def F(x,data):
    return float(len(data[data <= x]))/len(data)

vF = np.vectorize(F, excluded=['data'])

plt.plot(np.sort(heights),vF(x=np.sort(heights), data=heights))
于 2016-01-18T04:01:43.673 回答
0

如果您要绘制一个“真正的”经验 CDF,它会在您的数据集的值处精确a跳转,并且每个值的跳转与值的频率成正比,NumPy 有内置函数来完成这项工作:

import matplotlib.pyplot as plt
import numpy as np

def ecdf(a):
    x, counts = np.unique(a, return_counts=True)
    y = np.cumsum(counts)
    x = np.insert(x, 0, x[0])
    y = np.insert(y/y[-1], 0, 0.)
    plt.plot(x, y, drawstyle='steps-post')
    plt.grid(True)
    plt.savefig('ecdf.png')

调用以unique()排序顺序返回数据值及其相应的频率。drawstyle='steps-post'调用中的选项plot()可确保跳转发生在应有的位置。x为了在最小的数据值处强制跳转,代码在and前面插入了一个附加元素y

示例用法:

xvec = np.array([7,1,2,2,7,4,4,4,5.5,7])
ecdf(xvec)

另一种用法:

df = pd.DataFrame({'x':[7,1,2,2,7,4,4,4,5.5,7]})
ecdf(df['x'])

输出:

在此处输入图像描述

于 2021-01-22T21:46:04.727 回答