假设我有一个带有 2 列(A 列和 B 列)的 pandas 数据框:对于“A”列中的值,“B”列中有多个值。我想为每个键创建一个包含多个值的字典,这些值也应该是唯一的。请建议我一种方法来做到这一点。
问问题
6038 次
2 回答
5
一种方法是按列 A 分组:
In [1]: df = pd.DataFrame([[1, 2], [1, 4], [5, 6]], columns=['A', 'B'])
In [2]: df
Out[2]:
A B
0 1 2
1 1 4
2 5 6
In [3]: g = df.groupby('A')
应用于tolist
每个组的 B 列:
In [4]: g['B'].tolist() # shorthand for .apply(lambda s: s.tolist()) "automatic delegation"
Out[4]:
A
1 [2, 4]
5 [6]
dtype: object
然后调用to_dict
这个系列:
In [5]: g['B'].tolist().to_dict()
Out[5]: {1: [2, 4], 5: [6]}
如果您希望这些是唯一的,请使用unique
(注意:这将创建一个 numpy 数组而不是列表):
In [11]: df = pd.DataFrame([[1, 2], [1, 2], [5, 6]], columns=['A', 'B'])
In [12]: g = df.groupby('A')
In [13]: g['B'].unique()
Out[13]:
A
1 [2]
5 [6]
dtype: object
In [14]: g['B'].unique().to_dict()
Out[14]: {1: array([2]), 5: array([6])}
其他替代方法是使用.apply(lambda s: set(s))
, .apply(lambda s: list(set(s)))
, .apply(lambda s: list(s.unique()))
...
于 2013-09-24T16:24:13.593 回答
2
您实际上可以遍历 df.groupby 对象并将值收集为列表。
在[1]:
df = pd.DataFrame([[1, 2], [1, 2], [5, 6]], columns=['A', 'B'])
{k: list(v) for k,v in df.groupby("A")["B"]}
输出[1]:
{1: [2, 2], 5: [6]}
于 2019-08-31T17:10:10.337 回答