我想探讨生物体的丰度与几个可能的解释因素之间的关系。我对在 GLMM 中应该将哪些变量称为固定变量或随机变量存有疑问。
我有一个数据集,其中包含国家公园内不同地点的蜗牛数量(所有地点都处于相同的气候条件下)。但是还有一些局部参数对蜗牛丰度的影响尚未得到研究。
这是一项纵向研究,随着时间的推移重复测量(每个月,近两年)。统计田间蜗牛的数量,总是在相同的 21 个地点(每个地点有一块 6x6 平方米的地块,用木桩划定)。
如果它可能影响分析,请注意某些参数可能会随时间而变化,例如每个地块的植被覆盖,或蜗牛天敌的存在(用是/否值测量)。然而,其他的总是相同的,因为它们是特定于每个站点的,例如距离最近的河床或土壤类型。
这是我的数据的一个子集:
> snail.data
site time snails vegetation_cover predator type_soil distant_riverbed
1 1 1 9 NA n 1 13
2 1 2 7 0.8 n 1 13
3 1 3 13 1.4 n 1 13
4 1 4 14 0.6 n 1 13
5 1 5 12 1.6 n 1 13
10 2 1 0 NA n 1 136
11 2 2 0 0.0 n 1 136
12 2 3 0 0.0 n 1 136
13 2 4 0 0.0 n 1 136
14 2 5 0 0.0 n 1 136
19 3 1 1 NA n 2 201
20 3 2 0 0.0 n 2 201
21 3 3 0 0.0 y 2 201
22 3 4 3 0.0 n 2 201
23 3 5 2 0.0 n 2 201
28 4 1 0 NA n 2 104
29 4 2 0 0.0 n 2 104
30 4 3 0 0.0 y 2 104
31 4 4 0 0.0 n 2 104
32 4 5 0 0.0 n 2 104
37 5 1 1 NA n 3 65
38 5 2 0 2.4 n 3 65
39 5 3 3 2.2 n 3 65
40 5 4 2 2.2 n 3 65
41 5 5 4 2.0 y 3 65
46 6 1 1 NA n 3 78
47 6 2 2 3.0 n 3 78
48 6 3 7 2.8 n 3 78
49 6 4 3 1.8 n 3 78
50 6 5 6 1.2 y 3 78
55 7 1 14 NA n 3 91
56 7 2 21 2.8 n 3 91
57 7 3 16 2.6 n 3 91
58 7 4 15 1.6 n 3 91
59 7 5 8 2.0 n 3 91
所以我有兴趣调查每个站点的蜗牛数量是否有显着差异,以及这些差异是否与某些特定参数有关。
到目前为止,我发现的最好的统计方法是广义线性混合模型。但我在选择正确的固定变量和随机变量方面很挣扎。我的理由是,虽然我正在检查站点之间的差异(通过比较蜗牛的数量),但研究的重点是上面评论的其他参数,因此站点将是一个随机因素。
那么,我的问题是:“站点”和“时间”是否应该被视为随机因素,而本地参数应该是固定变量?我应该包括时间和其他因素之间的相互作用吗?
我的命令设置如下:
library(lme4)
mixed_model <- glmer(snails ~ vegetation_cover + predator + type_soil + distant_riverbed + (1|site) + (1|time), data = snails.data, family = poisson)
它会是我所描述的正确语法吗?