问题标签 [logistic-regression]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
413 浏览

r - R中的预测概率

我有一个带有虚拟变量的 logit 模型,我想在renting=0 和renting=1 处绘制预测变量。cex2创建对象后,我收到一条错误消息:

任何想法,将不胜感激。

0 投票
0 回答
1381 浏览

r - 使用 ggplot2 示例绘制 GLM

我已经安装了一些 GLM 模型,我正在尝试绘制它们以进行可视化。几个小时以来,我一直在查看有关绘制 GLM 的示例和问题,但我无法输出任何显示我已安装的 GLM 线的图表。如果有人可以向我展示一个示例以了解如何实现这一目标,我将不胜感激。这是我第一次使用这个ggplot2包。这是我的数据的样子

我正在寻找像这些数字之一这样的输出:

阴谋

我已经看过很多例子,但不能毫无错误地应用任何例子。

0 投票
2 回答
382 浏览

matlab - Matlab 正在舍入我的 sigmoid 函数

我在 Matlab 中实现了如下的 sigmoid 函数。

当我给它一个大的输入(例如 100)时,该函数会四舍五入我的结果并给我一个 1。

我怎样才能得到它的准确值?是否有可能或者我是否将 x 的值限制在一个较低的范围内。

0 投票
1 回答
498 浏览

r - 您如何使用分层后输出来影响 R 预测模型中的变量?

我当前的数据集对女性进行了过采样,以至于她们占 411 总样本量的 74%——而且应该是 50% 到 50%。如何使用我的分层后输出来影响我的(逻辑回归)预测模型?

这就是我在改变接受调查的女性数量时获得支持的新均值和系数所做的:

上面的所有输出似乎都是正确的——但我不知道如何利用这些数据来影响我的逻辑回归模型的输出。这是没有任何分层后影响的代码:

有没有办法在 R 中结合这两个脚本来更新我的 logit 模型,以便在我预测时将性别视为 50/50 而不是 74% 女性/26% 男性?

谢谢!

0 投票
1 回答
432 浏览

r - 为什么 multinom() 为每个级别的结果预测很多行概率?

我有一个多项式逻辑回归,结果变量有 6 个级别:10、20、60、70、80、90

我想预测每组给定输入值与 y 的每个级别相关联的概率。所以我运行这个:

但是我没有得到 6 个概率(每个级别的结果一个),而是得到了很多行的概率。每行有 6 个概率(总和为 1),但我不知道为什么我会得到很多行以及我应该信任哪一行。

我在编码中遗漏了什么还是需要设置任何参数?

0 投票
1 回答
894 浏览

r - 为什么我的逻辑回归实现如此缓慢?

这是 R 中批量梯度下降算法的实现(这里有理论细节):

该算法给了我正确的结果,但它慢了十倍。

但是如果我不计算标准误差和z值,那么它比glm快一点:

所以显然se和z值的计算需要很多时间,但是glm是怎么做的呢?如何改进我的实施?

0 投票
1 回答
5507 浏览

r - 当您缺少数据时,如何在模型中使用 `predict()` 而不会出现错误?

我有一个非常简单的逻辑回归模型,仅基于Race和中的两个分类预测变量Sex。首先,由于我有一些缺失值,为了确保所有缺失的数据都以 形式出现NA,我使用以下命令导入数据框:

这是预测变量的摘要,以查看有多少NA个 s:

由于缺少值,该模型似乎没有问题地做它应该做的事情:

问题1:当我没有任何NAs时,这段代码似乎运行良好。但是每当缺少值时,我都会收到一条错误消息。有没有办法仍然可以查看我有多少正确的预测值,无论是否丢失数据?

编辑:添加na.action = na.exclude到模型定义后,该表现在可以完美运行:

当我使用此代码时,无论丢失数据如何,仍然可以将预测加载到原始数据框中。它正确地在数据帧的末尾添加了一个带有每行概率的“pred”列(NA如果其中一个预测变量不存在,则只需添加一个代替):

问题 2:但是,当我尝试预测一个新的数据框时——即使它具有相同的感兴趣变量——似乎关于缺失值的某些内容也会导致错误消息。是否有代码可以解决这个问题,或者我做错了什么?

如上所示,其中的行数mydata为 1,478,其中的行数newdata为 1,475。

谢谢您的帮助!

0 投票
1 回答
2936 浏览

r - Stata 在 R 中的 xtlogit (fe, re) 等价物?

Stata 允许通过相应的xtlogit fe 和xtlogit re 命令对逻辑回归进行固定效应和随机效应规范。我想知道 R 中这些规范的等效命令是什么。

我知道的唯一类似的规范是混合效应逻辑回归

但我不确定这是否映射到上述任何命令。

0 投票
1 回答
530 浏览

hadoop - 在 Mahout 中使用逻辑回归

我在一个包含文本和类列的 CSV 文件中有大约 11000 行数据。文本是 twitter 消息,它们中的每一个都在 Class 中分配了 True 或 false。我使用这两个命令使用逻辑回归模型来训练和测试这些数据,但 AUC 0.52 的结果并不好。我不太了解一些参数--rate --features--lambda所以有人可以帮助我使用更合适的命令吗?非常感谢!

数据文件链接:twitter.csv

0 投票
0 回答
282 浏览

python - 在多维数组上实现回归函数

我正在研究一种对一些训练数据进行回归的算法。训练数据集Xn 个样本组成,其中 n = 10。来自X的每个样本x[i]是一个由 4 个特征组成的数组。这意味着X是一个 10 行 4 列的二维数组。

算法中的一行说,在使用迭代器j的循环中:

通过工作响应向量z[i][j]x[i] 的加权最小二乘法拟合回归函数g_j^h(x) ,并在训练数据上使用权重w[i][j] 。

这是该算法的步骤 (2)(a)(ii):http://i.stack.imgur.com/d5C6P.png

在这种情况下,索引i表示n 个样本中的样本,j是循环迭代器。

我的问题是 - 如何将g_j(x)应用于二维数组?这个公式在数组上的实际应用是什么?

每个样本有 10 个样本 x 4 个特征,我最终会计算g_j(x) 10 次,并且对于每一次,每个样本的 4 个特征中的每一个都会有自己的g函数吗?总共有 40 个不同的g函数?