1

我在拟合离散分布函数时遇到了一些困难(我专门使用负二项分布)。这是我的设置:我有一个传入项目的来源,每个项目都有一个未知的生命周期。每天都有一些过期(第一天大部分,第二天更多,等等)。对于现有的传入项目来源(来源超过 180 天),我设法将负二项分布的新项目的寿命建模为可接受的错误(使用 MLE - 最大似然估计)。

我的问题从传入项目的新来源开始。我想在短时间内(例如,5-7 天后)估计他们的物品的生命周期分布。当我尝试应用 MLE 时,我得到的均值显着降低(即 3 而不是 30)。我认为这是因为 MLE 无法理解最后一天(第 7 天)的质量实际上是 1-CDF(6)(前 6 天的累积分布函数)并且实际上也包含生活物品。

是否有一种仅基于早期数据值和其他值的质量总和来拟合离散分布的好方法?我可以为它写一些优化函数,只考虑前 6 天的权重,但我觉得它会给我带来次优的性能。

我对理论解释很满意,但如果你能解决特定的函数或库,我可以在 Matlab、R、Python 和 C# 中工作。

4

1 回答 1

0

您遇到的问题称为“审查”数据。本质上,您只是在某些项目的生命周期大于(现在减去开始时间)。您对如何校正似然函数的猜测指向正确的方向。我认为在有关生存分析的文本中通常会考虑审查数据。维基百科文章 [1] 对审查数据有一些简短的评论,可能也有帮助。

R中有一个名为“survival”的生存分析包。可能还有其他 R 包。不知道其他系统的软件包。

[1] http://en.wikipedia.org/wiki/Survival_analysis

于 2014-01-06T22:52:59.747 回答