问题标签 [logistic-regression]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - Vowpal Wabbit 可以处理大约 90 GB 的数据吗?
我们从搜索引擎查询日志数据中提取了特征,特征文件(根据 Vowpal Wabbit 的输入格式)达到 90.5 GB。这种巨大尺寸的原因是我们的特征构建中必要的冗余。Vowpal Wabbit 声称能够在几个小时内处理 TB 的数据。除此之外,大众使用几乎不占用 RAM 的哈希函数。但是,当我们使用 VW 对我们的数据运行逻辑回归时,几分钟之内,它就会耗尽所有 RAM,然后停止。这是我们使用的命令-
train_output 是我们要训练 VW 的输入文件,train.model 是训练后得到的预期模型
欢迎任何帮助!
r - R 惩罚因 Lapack dtrtrs 矩阵反转错误而失败
在尝试使用逻辑模型从 R 惩罚包中运行 optL1 时:
...然后我遇到了一个似乎与依赖项有关的错误:
有没有人对如何解决这个问题有任何见解?谢谢!
c++ - 我在 C++ 中的逻辑回归实现出了什么问题?
我使用犰狳线性代数库使用 IRLS 算法实现了一个简单的逻辑回归函数:
像这样编译它:
主函数模拟一个 5000x50 的数据集并对每个数据集进行逻辑回归,整个过程在我的笔记本电脑上大约需要 23 秒。
在 R 中做同样的事情,大约需要 2 秒:
我想知道我的实施出了什么问题?
python - 逻辑回归中正则化强度的倒数是多少?它应该如何影响我的代码?
我正在使用sklearn.linear_model.LogisticRegression
inscikit learn
运行逻辑回归。
C
请问这里简单来说是什么意思?什么是正则化强度?
r - 多项式 logit 模型和嵌套 logit 模型
我在程序 R 中使用 mlogit 包。我已将数据从原始宽格式转换为长格式。这是转换后的 data.frame 的示例,我将其称为“long_perp”。所有的自变量都是个体特定的。我在数据集中有 4258 个独特的观察结果。
“act2”是因变量,包括漂浮在水面上的鸟在靠近船时可能做出的选择;飞行、潜水或无。我对这些概率如何与 data.frame 中的剩余自变量相关感兴趣,即与船舶路径 (pdist) 的垂直距离海况 (sea)、速度 (avgknots)、到岸边的距离 (shore) 等。变量由二分变量、因子变量和连续变量组成。
我运行了两个多项式 logit 模型,一个包括所有选择选项,另一个只包括一个子集。然后,我将这些模型与 hmftest() 函数进行了比较,以测试 IIA 假设。至少可以说,结果令人困惑。我将包含两个模型的代码和测试输出(以防我在代码中未指定模型)。
如您所见,卡方统计量为负!我假设我要么 1. 做错了事,要么 2. 违反了 IIA。这个结果适用于选择子集(飞行,潜水),但是选择子集(无,潜水)支持 IIA 假设?这让我很困惑。
接下来,我尝试制定一个嵌套模型来放松 IIA 假设。我将选项嵌套为nest1 = none,nest2 = fly,dive。这对我来说很有意义,因为这似乎是一个合乎逻辑的中断,鸟决定做出反应或不做出反应,然后决定做出哪种反应。
我不清楚如何运行嵌套的 logit 模型(即使在阅读了 mlogit、Croissant vignette和Train vignette的两个小插图之后)。
当我按照羊角面包小插图中的示例运行分析时,我收到以下错误。
我已经阅读了一些有关此错误消息的信息,它可能由于完全分离而发生。我查看了一些数据表,但不相信这种情况正在发生,因为我有 4,000 多个观察值,并且只有一个因子变量具有 2 个以上的水平(它有 3 个)。
非常感谢您对这些特定问题的帮助,但我也愿意接受可以用来回答我的问题的替代分析。我主要对飞行概率作为与船舶路径垂直距离的函数感兴趣。
谢谢,蒂姆
r - 找到 abline 与拟合曲线的交点
我使用以下代码绘制了一条拟合的逻辑曲线:
数据:L50
str(L50)
'data.frame':10 obs。3个变量:
$ Length.Class:int 50 60 70 80 90 100 110 120 130 140
$ Total.Ind : int 9 20 18 8 4 4 1 0 1 2
$成熟.Ind:int 0 0 6 5 3 2 1 0 1 2
plot(L50$Mature.Ind/L50$Total.Ind ~ L50$Length.Class, data=L50,pch=20,xlab="Length class(cm)",ylab="Proportion of mature individuals")
glm.out<-glm(cbind(L50$Mature.Ind, L50$Total.Ind-L50$Mature.Ind) ~ L50$Length.Class,family=binomial(logit), data=L50)
glm.out
调用:glm(公式 = cbind(L50$Mature.Ind, L50$Total.Ind - L50$Mature.Ind) ~ L50$Length.Class, family = binomial(logit), data = L50)系数:(截距)L50$Length.Class
-8.6200 0.1053自由度:总共 8 个(即 Null);7 残余零偏差:38.14 残余偏差:9.924 AIC:23.4
lines(L50$Length.Class, glm.out$fitted,type="l", col="red",lwd=2)
abline(h=0.5,col="black",lty=2,lwd=2)
我得到以下曲线:
问题是我需要在拟合曲线上找到对应于 Y=0.5 的点并通过它绘制一条线段,其值在 x 轴上....有什么帮助吗?谢谢
这是你问的
dput(L50)
structure(list(Length.Class = c(50L, 60L, 70L, 80L, 90L, 100L,
110L, 120L, 130L, 140L), Total.Ind = c(9L, 20L, 18L, 8L, 4L,
4L, 1L, 0L, 1L, 2L), Mature.Ind = c(0L, 0L, 6L, 5L, 3L, 2L, 1L,
0L, 1L, 2L), MatF = c(0L, 0L, 1L, 4L, 1L, 2L, 0L, 0L, 1L, 2L), MatM = c(0L, 0L, 5L, 1L, 2L, 0L, 1L, 0L, 0L, 0L)), .Names = c("Length.Class",
"Total.Ind", "Mature.Ind", "MatF", "MatM"), class = "data.frame", row.names = c(NA,-10L))
c# - 逻辑回归不会一致地收敛 MVC C# 协议
我正在做一个使用逻辑回归计算概率的项目。所以,这是我的代码。
我们没有足够的虚假数据来支持分析,因此我们创建了一种欺骗虚假输入的方法。通常我们有 10 个正输入,然后我们欺骗 10 个假输入。之后我们尝试计算这个。如果结果不收敛,我们放弃最后一组错误输入并创建另一组,直到结果收敛。结果收敛后,我们保存我们产生的错误输入。但是,问题在于,如果我们尝试使用保存的错误输入和原始正输入再次计算它,结果不会像第一次那样收敛。据我所知,如果我使用相同的数据集,逻辑回归分析的结果应该是相同的,但对于这个项目来说似乎并非如此。有什么建议吗?
这是我的代码。我正在使用 Accord.Statistics.Analysis:
提前致谢。
r - 了解逻辑回归 R 的系数
这个问题是关于使用 R 理解逻辑回归输出
这是我的示例数据框:
这基本上描述了特定药物对引起医学不良事件的次数。(Y=是,N=否)。我使用以下命令在 R 中对这些数据进行了逻辑回归:
汇总输出如下(仅显示系数表)
我知道系数给出概率赔率。然而,我很好奇,为什么 AdverseEventAnaemea 没有系数,以及为什么药物和不良事件 anaemea 的任何组合都没有系数?(最后4行是药物和不良事件的组合效应)
r - 使用 nnet 包评估 R 中多项式 logit 的拟合优度
我使用multinom()
nnet 包中的函数在 R 中运行多项逻辑回归。nnet 包不包括 p 值计算和 t 统计量计算。我找到了一种使用此页面中的两个有尾 z 检验来计算 p 值的方法。举一个计算多项式 logit 的测试统计量的示例(不是真正的 t-stat,而是等效的),我计算了 Wald 的统计量:
我取系数的平方并除以系数的标准误差的平方。然而,似然比检验是逻辑回归拟合优度的优选度量。由于对似然函数的理解不完整,我不知道如何编写代码来计算每个系数的似然比统计量。使用函数的输出计算每个系数的似然比统计量的方法是multinom()
什么?谢谢你的帮助。
machine-learning - Vowpal Wabbit 中逻辑回归所需的参数是什么?
我正在使用以下参数
让 Vowpal Wabbit 了解我想应用逻辑回归是否是正确的方法?