3

我正在尝试使用 R 对我拥有的一些数据进行泊松回归。目前的数据结构如下:

数据根据三个职业进行分层。数据中有四个收入水平。在每个阶层内,对于每个收入水平,都有

  1. 发生的工作场所事故的数量,以及
  2. 观察到的总人月数。

这是设置的示例。括号中的数字是观察到的总人月数,括号中的数字是工作场所事故的数量。

我的问题是如何设置这些数据并对收入水平对工作场所事故发生的影响进行泊松回归?理想情况下,我想调整职业并找出仅收入的影响,但作为起点,我根本不知道如何将其设置为泊松回归问题。我想过做一些事情,比如将受伤次数除以观察月数,但这样会给出非整数值,所以我认为这不是正确的做法。

重申一下,预测指标:收入水平;反应变量:工作场所事故。

顺便说一句,如果这样做有意义的话,将括号数字分开并将它们放入自己的列中会很容易。

我非常感谢有关如何设置它的任何建议。我确信其他统计学家正在使用类似的结构化数据,并且可能也希望获得一些见解。非常感谢!

4

1 回答 1

4

@thelatemail 认为这更适合 stats.stackexchange.com 可能是正确的,但这里有一些 R 代码。该数据是宽格式的,您需要将其重新构建为长格式。(并且您不希望包括总计列。将前四列转换为长格式后,您将“职业”和“级别”作为因子类变量,将事故“计数”和“暴露”“月”作为数字列,您可以使用此调用来glm.

fit <- glm( counts ~ level + occup + offset(log(months)), data=dfrm, family="poisson")

偏移量需要 log()-ed 以与 poisson-family 的默认链接函数创建的记录计数一致。

(你不能真的指望我们重做那个数据输入任务,现在可以吗?)

于 2012-12-04T00:08:47.880 回答