我正在使用大量数据(5000 万行)和 biglm 包创建一个线性模型。这是通过首先基于数据块创建线性模型,然后通过读取更多数据块(100 万行)并使用“biglm”中的“更新”函数来更新模型来完成的。我的模型使用年份(具有 20 个级别的因子)、温度和一个名为 is_paid 的 1 或 0 因子变量。代码看起来像这样:
model = biglm(output~year:is_paid+temp,data = df) #creates my original model from a starting data frame, df
newdata = file[i] #This is just an example of me getting a new chunk of data in; don't worry about it
model = update(model,data = newdata) #this is where the update to the new model with the new data happens
问题是is_paid因子变量几乎总是0。所以有时当我读入一大块数据时,is_paid列中的每个值都是0,我显然会得到以下错误:
Error in `contrasts<-`(`*tmp*`, value = contr.funs[1 + isOF[nn]]) :
contrasts can be applied only to factors with 2 or more levels
所以基本上,我需要一种方法让模型接受更新,而不会因为新数据块中没有两个不同的因素而生气。
我正在考虑这样做的一种方法是始终将一行真实数据的 is_paid 值为“1”,并将其添加到新块中。这样,有不止一种因素,我还在添加真实数据。代码看起来像这样:
#the variable 'line' is a single line of data that has a '1' for is_paid
newdata = file[i] #again, an example of me reading in a new chunk of data. I know that this doesn't make sense by itself
newdata = rbind(line,newdata) #add in the sample line with '1' in is_paid to newdata
model = update(model,newdata) #update the data
这是我的数据示例:
output year temp is_paid
1100518 12 40 0
2104518 12 29 0
1100200 15 17 0
1245110 16 18 0
5103128 14 30 0
这是我的示例行的示例,它是 is_paid 为 1 的真实记录:
output year temp is_paid
31200599 12 49 1
一遍又一遍地添加同一行会扭曲我为变量获得的系数吗?我在一些虚拟代码上进行了测试,它看起来不像一遍又一遍地更新具有相同记录的模型会影响它,但我很怀疑。
我觉得有一种更加优雅和智能的方式来做到这一点。我一直在阅读 R 教程,似乎有一种方法可以为 lm 模型设置对比度。我查看了“lm”中的“对比”论点,但什么也想不通。我不认为你可以在 biglm 中设置对比度,这是我需要使用的。我真的很感激你们能想到的任何见解或解决方案。
*is_paid 的数值变量与因子变量的比较:
df.num = data.frame(a = c(1:10),b = as.factor(rep(c(1,2,3,4,5),each = 2)),c = c(rep(0,each = 5),rep(1,each = 5)))
df.factor = data.frame(a = c(1:10),b = as.factor(rep(c(1,2,3,4,5),each = 2)),c = as.factor(c(rep(0,each = 5),rep(1,each = 5))))
mod.factor = lm(a~b:c,data = df.factor)
mod.num = lm(a~b:c,data = df.num)
> mod.factor
Call:
lm(formula = a ~ b:c, data = df.factor)
Coefficients:
(Intercept) b1:c0 b2:c0 b3:c0 b4:c0 b5:c0 b1:c1
9.5 -8.0 -6.0 -4.5 NA NA NA
b2:c1 b3:c1 b4:c1 b5:c1
NA -3.5 -2.0 NA
Call:
lm(formula = a ~ b:c, data = df.num)
Coefficients:
(Intercept) b1:c b2:c b3:c b4:c b5:c
3.0 NA NA 3.0 4.5 6.5
这里的结论是,如果 is_paid 是数字,模型就会改变。
****我还稍微编辑了我的模型,以查看两个因素的相互作用,而不仅仅是三个变量。这意味着我不能将 is_paid 视为数字(我认为)