1

我有一些数据在事件发生前后的分布。我想找到这两个分布之间的距离。换句话说,我需要在多大程度上扩展活动前的分布才能接近活动后的分布?我认为 Wasserstein 距离似乎很适合我的问题,但我有一些疑问:

  1. 分布为:X轴为天数,Y轴为当天数据点数。如何将这两列作为输入传递给 scipy.stats.wasserstein_distance ?
  2. 事后分布比事前分布更长尾。测量 X 轴幅度变化以及 Y 轴增加的最佳距离度量是什么?
>>> df.head()
   day  number
0    7       1
1    8       1
2   10       2
3   11       1
4   15       4
>>> df_after.head()
   day  number
0    6       1
1   19       1
2   20       1
3   21       1
4   22       2
>>> wasserstein_distance(df['number'], df_after['number']) #looks at only one column of DF- how do I pass the distribution?
0.8674329501915711

这是真实数据集的示例图,蓝色是事件发生前,橙色是事件发生后。我的最终目标是从这样的分布中学习并概括一个比例因子,即我需要多少缩放我的事件前分布才能达到事件后分布?

1同一对象的两个分布。 蓝色是事件发生前,橙色是事件发生后

4

0 回答 0