我有一个看起来与此类似的数据框:
In [45]: df
Out[45]:
Item_Id Location_Id date price
0 A 5372 1 0.5
1 A 5372 2 NaN
2 A 5372 3 1.0
3 A 6065 1 1.0
4 A 6065 2 1.0
5 A 6065 3 3.0
6 A 7000 1 NaN
7 A 7000 2 NaN
8 A 7000 3 NaN
9 B 5372 1 3.0
10 B 5372 2 NaN
11 B 5372 3 1.0
12 B 6065 1 2.0
13 B 6065 2 1.0
14 B 6065 3 3.0
15 B 7000 1 8.0
16 B 7000 2 NaN
17 B 7000 3 9.0
对于Item_Id
每个Location_Id
类别中的每个,我想计算每对之间价格的成对相关性Item_Id
。请注意,虽然我在上面的示例数据中只给出了两个唯一值,但在我的真实数据中Item_Id
却有数十个不同的值。Item_Id
我尝试过使用groupby.corr()
,但这似乎并没有给我想要的东西。
最终,我想要 N 个数据帧,其中 NLocation_Id
是df
. Item_Id
N 个数据帧中的每一个都是特定Location_Id
类别中所有成对组合之间价格的平方相关矩阵。因此,N 个数据帧中的每一个都将有 J 行和列,其中 J 是该Item_Id
特定Location_Id
组中唯一值的数量。