问题标签 [logistic-regression]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - 逻辑回归成本的向量化
我在matlab中有逻辑回归成本的代码:
我需要矢量化它,但我不知道它是怎么做的,为什么?我是一名程序员,所以我喜欢for's。但是要矢量化它,我是空白的。有什么帮助吗?谢谢。
r - 在 R 中找到多项有序 Probit/Logit 回归的边际效应
我试图找到我的概率的边际效应(但如果有人知道如何用 logit 回归来做到这一点,我可以用那个来代替)回归。我的因变量(我的 Y)告诉我一个人可以做的 4 种可能的行动,并按行动的积极性排序(行动 1:最积极的反应,行动 4 最不积极的反应)。我的自变量是 4 个变量(都是连续的),它们告诉我系统的状态。回归的目标是了解系统状态的变化如何影响反应的选择。
我看过几个包(mlogit、erer、VGAM 等),但两个包似乎都没有边际效应函数,它只是给你每个自变量的边际效应。
我想获得类似于使用 maBina 等边际效应函数进行二项式 logit/probit 回归的结果。例如,如果我要使用 glm 运行一个简单的 logit/probit 回归,我会得到:
但由于这是一个 logit 回归,因此系数并不能告诉我 GPA 对被大学录取概率的边际效应。为了获得这样的边际效应,因此要回答“GPA 值的增加如何影响我被大学录取的可能性?”)我需要运行一个单独的命令,例如 maBina,我得到:
其中“效果”(最新表格左侧第二列,粗体)是我正在寻找的。
r - R中逻辑回归(使用多项式)的输出中出现的NA
我正在尝试使用 R 对以下数据执行逻辑回归:multinom()
训练数据测试数据nnet
资料说明:
train 和 test 文件各有 10,000 行数据和 144 个变量,其中最后一列是“Predict”,也就是测试数据中应该预测的列。由于 predict 仅包含两个值 0 和 1(二进制),我开始使用multinom()
. 大多数行是连续的数值,而少数字段包含名称字段,例如工作日名称(“Sunday”,“Monday”,...),这些都将被视为因素。
这是使用的以下代码:
输出是:
其中,NA's
在 的Predict
列中没有train_data
:
我想知道发生如此大量NA's
(超过98%)的原因是什么以及如何进一步进行以避免这些NA's
?
machine-learning - 何时在机器学习中使用生成算法?
假设我有一个由 (x, y) 样本组成的训练集。
要应用生成算法,比如说高斯判别式,我必须假设
p(x|y) ~ Normal(mu, sigma)
对于每一个可能的 sigma
或者我只需要知道是否x ~ Normal(mu, sigma)
给了 y?
我如何评估 p(x|y) 是否足够好(达到阈值)遵循多元正态分布以使用生成算法?
machine-learning - Predictive features with high presence in one class
I am doing a logistic regression to predict the outcome of a binary variable, say whether a journal paper gets accepted or not. The dependent variable or predictors are all the phrases used in these papers - (unigrams, bigrams, trigrams). One of these phrases has a skewed presence in the 'accepted' class. Including this phrase gives me a classifier with a very high accuracy (more than 90%), while removing this phrase results in accuracy dropping to about 70%. My more general (naive) machine learning question is: Is it advisable to remove such skewed features when doing classification? Is there a method to check skewed presence for every feature and then decide whether to keep it in the model or not?
python - 如何使用 matplotlib 绘制回归的决策边界?
如何将逻辑回归结果的计数图添加到我的散点图中?我想要彩色的 0/1 区域,它描绘了分类器的决策边界。
sas - 如何将回归系数保存到 SAS 文件中?
我正在尝试使用 SAS 进行逻辑回归。我对模型的设置很少,并尝试比较差异。
我想要归档的是将估计的系数输出到文件中。我认为ODS可能是一种很有前途的方式,但不知道如何使用它。
谁能给我写一个简单的例子?
非常感谢。
r - cv中的成本函数。当模型的截止值不是 0.5 时,拟合逻辑模型的 glm
我有一个符合以下 R 函数的逻辑模型:
为了使用拟合模型获得良好的数据分类(或混淆矩阵),一个合理的截止值是 0.2,而不是最常用的 0.5。
我想使用cv.glm
拟合模型的功能:
由于拟合模型中的响应是二元变量,因此适当的成本函数是(从 ?cv.glm 的“示例”部分获得):
由于我的截止值为 0.2,我可以应用这个标准成本函数还是应该定义一个不同的成本函数以及如何定义?
matlab - 计算 Logistic 损失函数的值 AND 梯度时避免数值溢出
我目前正在尝试实现一种机器学习算法,该算法涉及 MATLAB 中的逻辑损失函数。不幸的是,由于数值溢出,我遇到了一些麻烦。
一般来说,对于给定的输入s
,逻辑函数的值是:
逻辑损失函数的斜率为:
在我的算法中, 的值s = X*beta
。这X
是一个矩阵,其中包含每个数据点的N
数据点和P
特征(即size(X)=[N,P]
),并且beta
是P
每个特征的系数向量,使得size(beta)=[P 1]
。
我对计算给定值的 Logistic 函数的平均值和梯度特别感兴趣beta
。
Logistic 函数 wrt 的平均值beta
为:
Logistic 函数 wrt 的斜率平均值b
为:
注意size(dL) = [P 1].
我的问题是这些表达式不断产生数字溢出。问题实际上来自这样一个事实,即exp(s)=Inf
何时s>1000
何exp(s)=0
地s<-1000.
我正在寻找一种s
可以在浮点运算中取任何值的解决方案。理想情况下,我也非常感谢一个允许我以矢量化/有效方式评估值和梯度的解决方案。
r - 分类表和 ROC 曲线 - R 中使用 lrm 的逻辑回归
我想在 rms 包中使用 lrm 函数创建一个逻辑回归分类表,然后绘制 roc 曲线。我使用 glm 函数执行了此操作。示例代码
如何使用 lrm 函数获取混淆矩阵?