问题标签 [glm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
28514 浏览

r - 了解 glm$residuals 和 resid(glm)

你能告诉我glm$residuals和resid (glm)返回什么,其中 glm 是一个准泊松对象。例如,我将如何使用 glm$y 和 glm$linear.predictors 创建它们。

glm$残差

残渣(glm)

0 投票
1 回答
1551 浏览

r - 可以在 ggplot stat_smooth 调用后提取模型拟合参数吗?

使用stat_smooth,我可以将模型拟合到数据中。例如

我想知道 glm 二项式拟合的系数。我可以用 重新拟合并dlply得到系数ldply,但我想避免这种重复。

调用str(g)揭示了ggplot2创建对象的层次结构,也许有一些方法可以通过它来获得系数?

0 投票
2 回答
23044 浏览

r - 使用 glm 在 R 中指定公式而不显式声明每个协变量

我想在不完全指定每个变量的情况下强制将特定变量纳入 glm 回归。我的真实数据集有大约 200 个变量。到目前为止,我无法在我的在线搜索中找到这样的样本。

例如(只有 3 个变量):

如果我想包含所有主要术语,这有一个简单的捷径:

但是假设我想包括所有主要术语(W1、W2 和 A)加上 W2^2:

这有捷径吗?

[在发布前编辑自己:]这行得通!glm(formula = Y ~ . + I(W2^2), family = binomial, data = samp)

好吧,那这个呢!

我想省略一个主要术语变量,只包括两个主要术语(A,W2)和 W2^2 和 W2^2:A:

显然,只有几个变量不需要捷径,但我使用的是高维数据。当前数据集“仅”有 200 个变量,但其他一些数据集有数千个。

0 投票
3 回答
1312 浏览

python - 在 Windows 7 64 上的 python 脚本中执行 GLM

我正在尝试在 python 脚本中(循环内)重复执行 GLM(广义线性模型)。

1- 我尝试在 Scipy glm 函数中使用 Stats,但描述完全不存在,我认为我没有很好地使用它 --> 错误消息

在 stats.py 文件和 _support.py 中搜索以找到没有结果的方式。

2-我尝试安装 RPY2(希望 lgautier 或其他人会读到我) ot 使用 R 驱动的功能。但是我是windows 7 64的,好像没成功安装好。我有错误信息:

如何在 python 中执行健壮的 GLM(其他方式?,我尝试了好的但我错过了......?)?如何在 Windows 7 64 上安装 RPY(noob/basic student learner)并将其与 python 接口?

0 投票
6 回答
147125 浏览

r - 如何简洁地编写包含来自数据框中的许多变量的公式?

假设我有一个响应变量和一个包含三个协变量的数据(作为一个玩具示例):

我想对数据进行线性回归:

有没有办法写公式,这样我就不必写出每个单独的协变量?例如,像

(我希望数据框中的每个变量都是协变量。)我问是因为我的数据框中实际上有 50 个变量,所以我想避免写出x1 + x2 + x3 + etc.

0 投票
1 回答
1342 浏览

r - R编程:使用varfun指定glm族准中的方差函数

我想使用 varfun 在 glm 的准系列中指定我自己的方差函数,但是我找不到任何有关如何使用该函数的文档。有谁知道如何使用这个功能?

0 投票
2 回答
6991 浏览

r - R概率回归边际效应

我正在使用 R 来复制一项研究,并获得与作者报告的几乎相同的结果。然而,在某一时刻,我计算的边际效应似乎小得不切实际。如果您能看看我的推理和下面的代码,看看我是否在某个地方或另一个地方弄错了,我将不胜感激。

我的样本包含 24535 个观测值,因变量“x028bin”是取值 0 和 1 的二元变量,此外还有 10 个解释变量。其中九个自变量具有数字级别,自变量“f025grouped”是由不同宗教教派组成的因素。

我想运行一个概率回归,包括宗教教派的假人,然后计算边际效应。为此,我首先消除缺失值并使用因变量和自变量之间的交叉表来验证没有小单元格或 0 单元格。然后我运行运行良好的概率模型,我也获得了合理的结果:

但是,当从概率系数和比例因子计算所有变量的均值时,我获得的边际效应太小(例如 2.6042e-78)。代码如下所示:

很抱歉,由于我的数据集太大,我无法为您提供工作示例。任何评论将不胜感激。非常感谢。

最好的,

托拜厄斯

0 投票
1 回答
2206 浏览

r - 广义 R 平方 (Naglekerkes R^2)

有人知道如何使用 R 计算用于 GLM 的 Naglekerkes 广义 R 平方吗?将它用于计数数据回归是否有意义?

参考:

广义 R^2

“向下滚动到本文的底部!”

0 投票
3 回答
9355 浏览

r - 为什么插入符号火车占用这么多内存?

当我只使用 训练时glm,一切正常,我什至没有接近耗尽内存。但是当我运行时train(..., method='glm'),我的内存不足。

这是因为train为交叉验证的每次迭代(或任何 trControl 过程)存储了大量数据吗?我正在查看,trainControl但找不到如何防止这种情况...任何提示?我只关心绩效总结,也许还有预测的反应。

(我知道这与存储参数调整网格搜索的每次迭代中的数据无关,因为我相信 glm 没有网格。)

0 投票
1 回答
1416 浏览

r - R Zeroinfl model

I am carrying out a zero-inflated negative binomial GLM on some insect count data in R. My problem is how to get R to read my species data as one stacked column so as to preserve the zero inflation. If I subtotal and import it into R as a single row titled Abundance, I loose the zeros and the model doesn't work. Already, I have tried to:

  1. stack the data myself (there are 80 columns * 47 rows) so with 3760 rows after stacking manually you can imagine how slow R gets when using the pscl zeroinfl() command (It takes 20mins on my computer!, It still worked)

  2. The next problem concerns a spatial correlation. Certain samplers sampled from the same medium so as to violate independence. Can I just put medium in as a factor in the model?