我的任务是开发一个回归模型来观察不同项目的学生注册情况。这是一个非常好的、干净的数据集,其中注册数很好地遵循泊松分布。我在 R 中拟合了一个模型(同时使用 GLM 和零膨胀泊松。)得到的残差似乎是合理的。
但是,然后我被指示将学生人数更改为“率”,计算为学生/学校人口(每所学校都有自己的人口。))现在这不再是计数变量,而是介于 0 和 1 之间的比例. 这被认为是一个程序中的“入学比例”。
这个“比率”(学生/人口)不再是泊松,但也肯定不正常。所以,我对适当的分布以及表示它的后续模型有点迷茫。
对数正态分布似乎很适合这个速率参数,但是我有很多 0 值,所以它实际上并不适合。
关于这个新参数的最佳分布形式的任何建议,以及如何在 R 中对其建模?
谢谢!