r - bigglm - 用完迭代并且未能收敛

Question

我有个问题。我在其他地方搜索了答案，但无法解决我的问题。有人可以帮我吗？

我有一个包含大约 100 万条记录的数据集，其中包含三个变量：N（数字）、X（因子）、E（数字）。变量 X 有大约 100 个水平。当我尝试运行相同的代码，但用另一个协变量 Y（只有 4 个级别）替换 X 时，它工作得很好。也许它与变量 X 本身有关？例如，某些级别的 X 只有真正的低出现频率，而 Y 不是这种情况。所以这是一个问题吗（因为 bigglm 将数据分成块，不是每个块都可能拥有所有级别的 X）？

我的机器只有 2 GB RAM。目标之一是在 R 中使用包，这样当在更大的数据集上重现代码时，它仍然可以工作。

如果您需要更多详细信息，请询问我，我会提供。

str(data) 给出以下内容：

'data.frame'    :   967821 obs. of  13 variables:
 $ E            : num  0.6694 0.418 0.0546 0.1612 0.071 ...
 $ Y            : Factor w/ 4 levels "1","2","3","4": 1 1 3 2 1 1 1 1 1 4 ...
 $ ??           : Factor w/ 2 levels "??",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ ??           : Factor w/ 38 levels "??","??",..: 37 29 11 21 24 23 16 36 19 36 ...
 $ ??           : num  77 43 66 72 96 43 45 78 53 65 ...
 $ ??           : num  7.29 12.42 21.88 5.78 2.62 ...
 $ ??           : Factor w/ 1150 levels "1000","1020",..: 494 1003 456 183 163 1055 881 128 1019 1041 ...
 $ ??           : num  52.5 78 37.7 41.1 64.3 ...
 $ ??           : Factor w/ 31 levels "1","2","3","4",..: 22 11 3 3 11 2 11 11 3 2 ...
 $ ??           : num  34.2 48.9 12.2 19.8 44.3 ...
 $ N            : int  0 0 0 0 0 0 0 0 0 0 ...
 $ ??           : Factor w/ 2 levels "1","2": 1 1 1 2 1 2 2 1 1 1 ...
 $ X            : Factor w/ 89 levels "18","19","20",..: 36 61 21 24 47 36 48 67 17 18 ...

我的代码如下：

library(ffbase)
library(biglm)
data = as.ffdf(data)
regglm2=bigglm.ffdf(N~X+offset(log(E)),data=data, family=poisson(), maxit=100, chunksize=10000)

错误如下：

警告消息：在 bigglm.function(formula = formula, data = datafun, ...) 中：用完迭代并且未能收敛

score 1 · Accepted Answer

两个问题，根据机器资源，其中任何一个都可以被视为答案：

1）您是否增加了控制列表中的迭代次数？maxit控制它并默认为一个小数字。尝试增加到 25

2）你确定你需要bigglm吗？你试过了glm吗？这不是一个非常大的物体。如果您使用的是 4GB 机器，那么请确保在您的启动配置中使用最少的程序和 Windoze 东西（无论显示屏下边框的那些小程序被称为什么），并且不要将 R 与其他程序一起运行。

r - bigglm - 用完迭代并且未能收敛

1 回答 1

Related

Reference