问题标签 [logistic-regression]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
693 浏览

machine-learning - Vowpal Wabbit 可以处理大约 90 GB 的数据吗?

我们从搜索引擎查询日志数据中提取了特征,特征文件(根据 Vowpal Wabbit 的输入格式)达到 90.5 GB。这种巨大尺寸的原因是我们的特征构建中必要的冗余。Vowpal Wabbit 声称能够在几个小时内处理 TB 的数据。除此之外,大众使用几乎不占用 RAM 的哈希函数。但是,当我们使用 VW 对我们的数据运行逻辑回归时,几分钟之内,它就会耗尽所有 RAM,然后停止。这是我们使用的命令-

train_output 是我们要训练 VW 的输入文件,train.model 是训练后得到的预期模型

欢迎任何帮助!

0 投票
1 回答
384 浏览

r - R 惩罚因 Lapack dtrtrs 矩阵反转错误而失败

在尝试使用逻辑模型从 R 惩罚包中运行 optL1 时:

...然后我遇到了一个似乎与依赖项有关的错误:

有没有人对如何解决这个问题有任何见解?谢谢!

0 投票
0 回答
828 浏览

c++ - 我在 C++ 中的逻辑回归实现出了什么问题?

我使用犰狳线性代数库使用 IRLS 算法实现了一个简单的逻辑回归函数:

像这样编译它:

主函数模拟一个 5000x50 的数据集并对每个数据集进行逻辑回归,整个过程在我的笔记本电脑上大约需要 23 秒。

在 R 中做同样的事情,大约需要 2 秒:

我想知道我的实施出了什么问题?

0 投票
1 回答
41425 浏览

python - 逻辑回归中正则化强度的倒数是多少?它应该如何影响我的代码?

我正在使用sklearn.linear_model.LogisticRegressioninscikit learn运行逻辑回归。

C请问这里简单来说是什么意思?什么是正则化强度?

0 投票
1 回答
2295 浏览

r - 多项式 logit 模型和嵌套 logit 模型

我在程序 R 中使用 mlogit 包。我已将数据从原始宽格式转换为长格式。这是转换后的 data.frame 的示例,我将其称为“long_perp”。所有的自变量都是个体特定的。我在数据集中有 4258 个独特的观察结果。

“act2”是因变量,包括漂浮在水面上的鸟在靠近船时可能做出的选择;飞行、潜水或无。我对这些概率如何与 data.frame 中的剩余自变量相关感兴趣,即与船舶路径 (pdist) 的垂直距离海况 (sea)、速度 (avgknots)、到岸边的距离 (shore) 等。变量由二分变量、因子变量和连续变量组成。

我运行了两个多项式 logit 模型,一个包括所有选择选项,另一个只包括一个子集。然后,我将这些模型与 hmftest() 函数进行了比较,以测试 IIA 假设。至少可以说,结果令人困惑。我将包含两个模型的代码和测试输出(以防我在代码中未指定模型)。

如您所见,卡方统计量为负!我假设我要么 1. 做错了事,要么 2. 违反了 IIA。这个结果适用于选择子集(飞行,潜水),但是选择子集(无,潜水)支持 IIA 假设?这让我很困惑。

接下来,我尝试制定一个嵌套模型来放松 IIA 假设。我将选项嵌套为nest1 = none,nest2 = fly,dive。这对我来说很有意义,因为这似乎是一个合乎逻辑的中断,鸟决定做出反应或不做出反应,然后决定做出哪种反应。

我不清楚如何运行嵌套的 logit 模型(即使在阅读了 mlogit、Croissant vignetteTrain vignette的两个小插图之后)。

当我按照羊角面包小插图中的示例运行分析时,我收到以下错误。

我已经阅读了一些有关此错误消息的信息,它可能由于完全分离而发生。我查看了一些数据表,但不相信这种情况正在发生,因为我有 4,000 多个观察值,并且只有一个因子变量具有 2 个以上的水平(它有 3 个)。

非常感谢您对这些特定问题的帮助,但我也愿意接受可以用来回答我的问题的替代分析。我主要对飞行概率作为与船舶路径垂直距离的函数感兴趣。

谢谢,蒂姆

0 投票
1 回答
1054 浏览

r - 找到 abline 与拟合曲线的交点

我使用以下代码绘制了一条拟合的逻辑曲线:

数据:L50

str(L50)

'data.frame':10 obs。3个变量:

$ Length.Class:int 50 60 70 80 90 100 110 120 130 140

$ Total.Ind : int 9 20 18 8 4 4 1 0 1 2

$成熟.Ind:int 0 0 6 5 3 2 1 0 1 2

plot(L50$Mature.Ind/L50$Total.Ind ~ L50$Length.Class, data=L50,pch=20,xlab="Length class(cm)",ylab="Proportion of mature individuals")

glm.out<-glm(cbind(L50$Mature.Ind, L50$Total.Ind-L50$Mature.Ind) ~ L50$Length.Class,family=binomial(logit), data=L50)

glm.out 调用:glm(公式 = cbind(L50$Mature.Ind, L50$Total.Ind - L50$Mature.Ind) ~ L50$Length.Class, family = binomial(logit), data = L50)

系数:(截距)L50$Length.Class
-8.6200 0.1053

自由度:总共 8 个(即 Null);7 残余零偏差:38.14 残余偏差:9.924 AIC:23.4

lines(L50$Length.Class, glm.out$fitted,type="l", col="red",lwd=2)

abline(h=0.5,col="black",lty=2,lwd=2)

我得到以下曲线: 在此处输入图像描述

问题是我需要在拟合曲线上找到对应于 Y=0.5 的点并通过它绘制一条线段,其值在 x 轴上....有什么帮助吗?谢谢

这是你问的

dput(L50)

structure(list(Length.Class = c(50L, 60L, 70L, 80L, 90L, 100L, 110L, 120L, 130L, 140L), Total.Ind = c(9L, 20L, 18L, 8L, 4L, 4L, 1L, 0L, 1L, 2L), Mature.Ind = c(0L, 0L, 6L, 5L, 3L, 2L, 1L, 0L, 1L, 2L), MatF = c(0L, 0L, 1L, 4L, 1L, 2L, 0L, 0L, 1L, 2L), MatM = c(0L, 0L, 5L, 1L, 2L, 0L, 1L, 0L, 0L, 0L)), .Names = c("Length.Class", "Total.Ind", "Mature.Ind", "MatF", "MatM"), class = "data.frame", row.names = c(NA,-10L))

0 投票
0 回答
365 浏览

c# - 逻辑回归不会一致地收敛 MVC C# 协议

我正在做一个使用逻辑回归计算概率的项目。所以,这是我的代码。

我们没有足够的虚假数据来支持分析,因此我们创建了一种欺骗虚假输入的方法。通常我们有 10 个正输入,然后我们欺骗 10 个假输入。之后我们尝试计算这个。如果结果不收敛,我们放弃最后一组错误输入并创建另一组,直到结果收敛。结果收敛后,我们保存我们产生的错误输入。但是,问题在于,如果我们尝试使用保存的错误输入和原始正输入再次计算它,结果不会像第一次那样收敛。据我所知,如果我使用相同的数据集,逻辑回归分析的结果应该是相同的,但对于这个项目来说似乎并非如此。有什么建议吗?

这是我的代码。我正在使用 Accord.Statistics.Analysis:

提前致谢。

0 投票
2 回答
148 浏览

r - 了解逻辑回归 R 的系数

这个问题是关于使用 R 理解逻辑回归输出

这是我的示例数据框:

这基本上描述了特定药物对引起医学不良事件的次数。(Y=是,N=否)。我使用以下命令在 R 中对这些数据进行了逻辑回归:

汇总输出如下(仅显示系数表)

我知道系数给出概率赔率。然而,我很好奇,为什么 AdverseEventAnaemea 没有系数,以及为什么药物和不良事件 anaemea 的任何组合都没有系数?(最后4行是药物和不良事件的组合效应)

0 投票
3 回答
5441 浏览

r - 使用 nnet 包评估 R 中多项式 logit 的拟合优度

我使用multinom()nnet 包中的函数在 R 中运行多项逻辑回归。nnet 包不包括 p 值计算和 t 统计量计算。我找到了一种使用此页面中的两个有尾 z 检验来计算 p 值的方法。举一个计算多项式 logit 的测试统计量的示例(不是真正的 t-stat,而是等效的),我计算了 Wald 的统计量:

我取系数的平方并除以系数的标准误差的平方。然而,似然比检验是逻辑回归拟合优度的优选度量。由于对似然函数的理解不完整,我不知道如何编写代码来计算每个系数的似然比统计量。使用函数的输出计算每个系数的似然比统计量的方法是multinom()什么?谢谢你的帮助。

0 投票
1 回答
1228 浏览

machine-learning - Vowpal Wabbit 中逻辑回归所需的参数是什么?

我正在使用以下参数

让 Vowpal Wabbit 了解我想应用逻辑回归是否是正确的方法?