74

这段代码:

df2 = (
    pd.DataFrame({
        'X' : ['X1', 'X1', 'X1', 'X1'], 
        'Y' : ['Y2', 'Y1', 'Y1', 'Y1'], 
        'Z' : ['Z3', 'Z1', 'Z1', 'Z2']
    })
)
g = df2.groupby('X')
pd.pivot_table(g, values='X', rows='Y', cols='Z', margins=False, aggfunc='count')

返回以下错误:

Traceback (most recent call last): ... 
AttributeError: 'Index' object has no attribute 'index'

如何获得一个数据透视表,其中包含其他两列的一个 DataFrame 列的唯一值计数?
是否有aggfunc唯一计数?我应该使用np.bincount()吗?

注意。但是我知道pandas.Series.values_counts()我需要一个数据透视表。


编辑:输出应该是:

Z   Z1  Z2  Z3
Y             
Y1   1   1 NaN
Y2 NaN NaN   1
4

9 回答 9

116

你的意思是这样的吗?

>>> df2.pivot_table(values='X', index='Y', columns='Z', aggfunc=lambda x: len(x.unique()))

Z   Z1  Z2  Z3
Y             
Y1   1   1 NaN
Y2 NaN NaN   1

请注意,使用len假设您的 DataFrame 中没有NAs。你可以这样做x.value_counts().count()len(x.dropna().unique())以其他方式。

于 2012-10-12T15:19:00.237 回答
53

这是计算 中的条目的好方法.pivot_table

>>> df2.pivot_table(values='X', index=['Y','Z'], columns='X', aggfunc='count')

        X1  X2
Y   Z       
Y1  Z1   1   1
    Z2   1  NaN
Y2  Z3   1  NaN
于 2013-10-28T08:48:01.100 回答
36

由于至少 0.16 版的 pandas,它不带参数“rows”

从 0.23 开始,解决方案是:

df2.pivot_table(values='X', index='Y', columns='Z', aggfunc=pd.Series.nunique)

返回:

Z    Z1   Z2   Z3
Y                
Y1  1.0  1.0  NaN
Y2  NaN  NaN  1.0
于 2018-07-16T17:45:37.400 回答
8

aggfunc=pd.Series.nunique提供不同的计数。完整代码如下:

df2.pivot_table(values='X', rows='Y', cols='Z', aggfunc=pd.Series.nunique)

此解决方案归功于@hume(请参阅已接受答案下的评论)。在此处添加作为答案以获得更好的可发现性。

于 2018-07-06T03:06:31.610 回答
4
out = df2.pivot_table(values='X', index='Y', columns='Z', aggfunc=['nunique', 'count', lambda x: len(x.unique()), len])

[out]:
             nunique           count           <lambda>            len          
Z       Z1   Z2   Z3    Z1   Z2   Z3       Z1   Z2   Z3   Z1   Z2   Z3
Y                                                                     
Y1     1.0  1.0  NaN   2.0  1.0  NaN      1.0  1.0  NaN  2.0  1.0  NaN
Y2     NaN  NaN  1.0   NaN  NaN  1.0      NaN  NaN  1.0  NaN  NaN  1.0


out = df2.pivot_table(values='X', index='Y', columns='Z', aggfunc='nunique')

[out]:
Z    Z1   Z2   Z3
Y                
Y1  1.0  1.0  NaN
Y2  NaN  NaN  1.0

out = df2.pivot_table(values='X', index='Y', columns='Z', aggfunc=['nunique'])

[out]:
             nunique          
Z       Z1   Z2   Z3
Y                   
Y1     1.0  1.0  NaN
Y2     NaN  NaN  1.0
于 2021-08-19T20:36:38.330 回答
3

您可以为 的每个不同值构造一个数据透视表X。在这种情况下,

for xval, xgroup in g:
    ptable = pd.pivot_table(xgroup, rows='Y', cols='Z', 
        margins=False, aggfunc=numpy.size)

将为 的每个值构建一个数据透视表X。您可能希望ptable使用xvalue. 使用此代码,我得到 (for X1)

     X        
Z   Z1  Z2  Z3
Y             
Y1   2   1 NaN
Y2 NaN NaN   1
于 2012-10-12T15:21:39.160 回答
0

由于没有一个答案是最新版本的 Pandas 的,因此我正在为这个问题编写另一个解决方案:

import pandas as pd

# Set example
df2 = (
    pd.DataFrame({
        'X' : ['X1', 'X1', 'X1', 'X1'], 
        'Y' : ['Y2', 'Y1', 'Y1', 'Y1'], 
        'Z' : ['Z3', 'Z1', 'Z1', 'Z2']
    })
)

# Pivot
pd.crosstab(index=df2['Y'], columns=df2['Z'], values=df2['X'], aggfunc=pd.Series.nunique)

返回:

Z   Z1  Z2  Z3
Y           
Y1  1.0 1.0 NaN
Y2  NaN NaN 1.0
于 2019-08-08T18:33:56.863 回答
0

为了获得最佳性能,我建议进行DataFrame.drop_duplicates跟进aggfunc='count'

其他人是正确的,这aggfunc=pd.Series.nunique将起作用。但是,如果index您拥有的组数很大 (>1000),这可能会很慢。

所以而不是(引用@Javier)

df2.pivot_table('X', 'Y', 'Z', aggfunc=pd.Series.nunique)

我建议

df2.drop_duplicates(['X', 'Y', 'Z']).pivot_table('X', 'Y', 'Z', aggfunc='count')

这是有效的,因为它保证每个子组( 的每个组合('Y', 'Z'))都将具有唯一的(非重复)值'X'

于 2019-12-26T21:49:50.040 回答
0

aggfunc=pd.Series.nunique 只会计算一系列的唯一值 - 在这种情况下,计算列的唯一值。但这并不能完全反映为aggfunc='count'

对于简单的计数,最好使用aggfunc=pd.Series.count

于 2020-12-02T10:35:55.743 回答