我有一些数据在事件发生前后的分布。我想找到这两个分布之间的距离。换句话说,我需要在多大程度上扩展活动前的分布才能接近活动后的分布?我认为 Wasserstein 距离似乎很适合我的问题,但我有一些疑问:
- 分布为:X轴为天数,Y轴为当天数据点数。如何将这两列作为输入传递给 scipy.stats.wasserstein_distance ?
- 事后分布比事前分布更长尾。测量 X 轴幅度变化以及 Y 轴增加的最佳距离度量是什么?
>>> df.head()
day number
0 7 1
1 8 1
2 10 2
3 11 1
4 15 4
>>> df_after.head()
day number
0 6 1
1 19 1
2 20 1
3 21 1
4 22 2
>>> wasserstein_distance(df['number'], df_after['number']) #looks at only one column of DF- how do I pass the distribution?
0.8674329501915711
这是真实数据集的示例图,蓝色是事件发生前,橙色是事件发生后。我的最终目标是从这样的分布中学习并概括一个比例因子,即我需要多少缩放我的事件前分布才能达到事件后分布?
1: