0

我试图弄清楚,如何根据另一个值计算某个列中的唯一值。我的数据框看起来像这样:

   id_user  id_track  
       1        1           
       1        2 
       1        4
       3        1
       3        1    
       3        4
       1        1
       2        5

基本上我有一张桌子,上面有用户的 ID 和他们听过的歌曲。我想计算每个用户,他听了多少首独特的歌曲,并按这个值排序。输出应该是这样的:

id_user uniqueTracks
   1         3
   3         2
   2         1

我试图以这种方式做到这一点(听证会是我的 DataFrame):

uniqueTracks=[]  #list of numbers of unique tracks
for i in range(len(hearings['id_user'].unique())):
     uniqueTracks.append(len(hearings[hearings['id_user']==i['titles'].unique()))           

但对于 2700 万行和 70k 唯一用户的表,它的运行速度非常慢。有谁知道如何在熊猫中做到这一点?先感谢您:)

4

2 回答 2

2

用于groupby.nunique()计算每个用户的唯一值,并对sort_values结果进行排序:

df.groupby('id_user')['id_track'].nunique().sort_values(ascending=False)

#id_user
#1    3
#3    2
#2    1
#Name: id_track, dtype: int64

要将结果作为数据框取回,请执行以下操作reset_index

df.groupby('id_user')['id_track'].nunique().reset_index().sort_values("id_track", ascending=False)

在此处输入图像描述

于 2017-04-05T19:12:53.503 回答
1

这是一种旨在提高性能的 NumPy 方法 -

def nunique_groupby_col0_in_col1(a):
    b = a[np.lexsort(a[:,::-1].T)]

    m = np.r_[True, b[1:,1] != b[:-1,1]]
    split_idx = np.r_[0, np.flatnonzero(b[1:,0] != b[:-1,0])+1]
    m[split_idx] = 1
    count = np.add.reduceat(m,split_idx)
    userIDs = b[split_idx,0]

    sidx = count.argsort()[::-1]
    out_data = np.column_stack(( userIDs, count ))[sidx]
    return out_data

样品运行 -

In [69]: df
Out[69]: 
   id_user  id_track
0        1         1
1        1         2
2        1         4
3        3         1
4        3         1
5        3         4
6        1         1
7        2         5

In [70]: out_data = nunique_groupby_col0_in_col1(df.values)
    ...: cnames = list(['id_user','uniqueTracks'])
    ...: dfout = pd.DataFrame(out_data,columns=cnames)
    ...: 

In [71]: dfout
Out[71]: 
   id_user  uniqueTracks
0        1             3
1        3             2
2        2             1
于 2017-04-05T19:40:51.103 回答