python - Python：计算一个点符合曲线的概率

Question

有一种情况，给我一个总票数，以及累计售票数据如下：

Total Tickets Available: 300
Day 1: 15 tickets sold to date
Day 2: 20 tickets sold to date
Day 3: 25 tickets sold to date
Day 4: 30 tickets sold to date
Day 5: 46 tickets sold to date

售出的票数是非线性的，有人问我如果有人打算在第 23 天买票，他得到票的概率是多少？

我一直在研究很多用于曲线拟合的库，比如 numpy、PyLab 和 sage，但我有点不知所措，因为统计数据不在我的背景中。给定这组数据，我如何轻松计算概率？如果有帮助，我还有其他位置的门票销售数据，曲线应该会有所不同。

score 2 · Accepted Answer

这个问题的最佳答案需要更多关于这个问题的信息——随着日期的临近（和割草量），人们是否更有可能买票？是否存在会暂时影响销售率的广告事件？等等。

但是，我们无法访问这些信息，所以我们假设，作为第一个近似值，门票销售率是恒定的。由于销售基本上是随机发生的，最好将它们建模为泊松过程注意，这并不能说明许多人会购买多张票的事实，但我认为这不会对结果产生太大影响；也许真正的统计学家可以在这里插话。另外：我将在这里讨论恒定速率泊松过程，但请注意，由于您提到速率绝对不是恒定的，您可以将可变速率泊松过程作为下一步。

要对泊松过程建模，您只需要平均门票销售率即可。在您的示例数据中，每天的销售额为 [15, 5, 5, 5, 16]，因此平均价格约为每天 9.2 张门票。我们已经售出了 46 张门票，所以还剩 254 张。

从这里，很容易问，“给定 9.2 tpd 的速度，在 23 天内售出少于254 张门票的概率是多少？” （忽略您不能出售超过 300 张门票的事实）。计算它的方法是使用累积分布函数（有关泊松分布的 CDF，请参见此处）。

平均而言，我们预计在 23 天后售出 23 * 9.2 = 211.6 张门票，因此在概率分布的语言中，期望值为 211.6。CDF 告诉我们，“给定期望值 λ，看到值 <= x 的概率是多少”。你可以自己做数学，也可以让 scipy 帮你做：

>>> import scipy.stats
>>> scipy.stats.poisson(9.2 * 23).cdf(254-1)
0.99747286634158705

所以这告诉我们：如果门票销售可以准确地表示为泊松过程，并且如果平均门票销售率真的是 9.2 tpd，那么在 23 天后至少有一张门票可用的概率是 99.7%。

现在假设有人想带一组 50 位朋友，并且想知道如果他们在 25 天内购买了所有 50 张门票的概率（将问题重新表述为“如果我们预计平均卖出 9.2 * 25 张门票，那么卖出 <= (254-50) 票的概率？”）：

>>> scipy.stats.poisson(9.2 * 25).cdf(254-50)
0.044301801145630537

所以 25 天后有 50 张票可用的概率约为 4%。

python - Python：计算一个点符合曲线的概率

1 回答 1

Related

Reference