22

我有一组数据,我想从中绘制每个唯一 ID 计数的键数 (x=unique_id_count,y=key_count),并且我正在尝试学习如何利用.pandas

在这种情况下:

unique_ids 1 = 密钥计数 2

unique_ids 2 = 密钥计数 1

from pandas import *
key_items = ("a", "a", "a", "a", "a", "b", "b", "b", "b", "b", "c", "c", "c")
id_data = ("X", "X", "X", "X", "X", "X", "X", "Y", "Y", "Y", "X", "X", "X")

df = DataFrame({'keys': key_items, 'ids': id_data})

通过从数据框中提取数据并对其进行重组,并重建一个新的数据框,我已经设法将数据分解为我想要的数据。在这种情况下,最好在没有熊猫的情况下在 python 中完成这一切......

unique_values = defaultdict(list)
for items in df.itertuples(index=False):
    key = items[1]
    v = items[0]
    unique_values[key].append(v)

unique_values_count = {}
for k, values in unique_values.iteritems():
    unique_values_count[k] = [len(set(values))]

# reformat for plotting
key_col = ("a", "b", "c")
id_col = [unique_values_count[k][0] for k in key_col]



df2 = DataFrame({"keys":key_col, "unique_id_count": id_col})
df2.groupby("unique_id_count").size().plot(kind="bar")

有没有更好的方法可以更直接地使用初始数据框来做到这一点?

4

3 回答 3

52

直接使用怎么样value_counts()

pd.value_counts(df['ids']).plot.bar()

在此处输入图像描述

于 2017-07-12T17:00:08.627 回答
29
s = df.groupby("keys").ids.agg(lambda x:len(x.unique()))
pd.value_counts(s).plot(kind="bar")
于 2013-02-28T03:25:20.130 回答
4

一个简单的解决方案是 -

df['your_column'].count_values().plot.bar(rot=0)

如果您希望在值太多的情况下限制柱的数量 -

df['your_column'].count_values()[:no_of_values].plot.bar(rot=0)
于 2020-07-04T08:45:40.777 回答