4

有一种情况,给我一个总票数,以及累计售票数据如下:

Total Tickets Available: 300
Day 1: 15 tickets sold to date
Day 2: 20 tickets sold to date
Day 3: 25 tickets sold to date
Day 4: 30 tickets sold to date
Day 5: 46 tickets sold to date

售出的票数是非线性的,有人问我如果有人打算在第 23 天买票,他得到票的概率是多少?

我一直在研究很多用于曲线拟合的库,比如 numpy、PyLab 和 sage,但我有点不知所措,因为统计数据不在我的背景中。给定这组数据,我如何轻松计算概率?如果有帮助,我还有其他位置的门票销售数据,曲线应该会有所不同。

4

1 回答 1

2

这个问题的最佳答案需要更多关于这个问题的信息——随着日期的临近(和割草量),人们是否更有可能买票?是否存在会暂时影响销售率的广告事件?等等。

但是,我们无法访问这些信息,所以我们假设,作为第一个近似值,门票销售率是恒定的。由于销售基本上是随机发生的,最好将它们建模为泊松过程注意,这并不能说明许多人会购买多张票的事实,但我认为这不会对结果产生太大影响;也许真正的统计学家可以在这里插话。另外:我将在这里讨论恒定速率泊松过程,但请注意,由于您提到速率绝对不是恒定的,您可以将可变速率泊松过程作为下一步。

要对泊松过程建模,您只需要平均门票销售率即可。在您的示例数据中,每天的销售额为 [15, 5, 5, 5, 16],因此平均价格约为每天 9.2 张门票。我们已经售出了 46 张门票,所以还剩 254 张。

从这里,很容易问,“给定 9.2 tpd 的速度,在 23 天内售出少于254 张门票的概率是多少?” (忽略您不能出售超过 300 张门票的事实)。计算它的方法是使用累积分布函数(有关泊松分布的 CDF,请参见此处)。

平均而言,我们预计在 23 天后售出 23 * 9.2 = 211.6 张门票,因此在概率分布的语言中,期望值为 211.6。CDF 告诉我们,“给定期望值 λ,看到值 <= x 的概率是多少”。你可以自己做数学,也可以让 scipy 帮你做:

>>> import scipy.stats
>>> scipy.stats.poisson(9.2 * 23).cdf(254-1)
0.99747286634158705

所以这告诉我们:如果门票销售可以准确地表示为泊松过程,并且如果平均门票销售率真的是 9.2 tpd,那么在 23 天后至少有一张门票可用的概率是 99.7%。

现在假设有人想带一组 50 位朋友,并且想知道如果他们在 25 天内购买了所有 50 张门票的概率(将问题重新表述为“如果我们预计平均卖出 9.2 * 25 张门票,那么卖出 <= (254-50) 票的概率?”):

>>> scipy.stats.poisson(9.2 * 25).cdf(254-50)
0.044301801145630537

所以 25 天后有 50 张票可用的概率约为 4%。

于 2012-07-14T15:57:18.300 回答