问题标签 [logistic-regression]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2195 浏览

scikit-learn - 我应该如何在 Scikit-learn 中使用 RandomizedLogisticRegression?

我只是无法理解 此类的文档。我可以使用它来拟合数据,并获得特征的分数,但这都是这门课应该做的吗?

我看不出如何使用它来使用适合的模型实际执行回归。上面文档中的示例只是创建了一个类的实例,所以我看不出这应该有什么帮助。

有一些方法可以执行“变换”操作,但没有提到那是什么类型的变换。

那么是否可以使用这个类来获得对新测试数据的实际预测,是否可以在交叉折叠验证中使用它来比较我正在使用的其他方法的性能?

我已经在其他分类器中使用了排名最高的功能,但我不确定这个分类器是否可以实现更多功能。

更新:我在文档的特征选择部分找到了 fit_transform 的用法:

当目标是降低数据的维度以与另一个分类器一起使用时,他们公开了一种变换方法来选择非零系数

除非我得到一个说我错了的答案,否则我会假设这个分类器确实不做预测。在我回答我自己的问题之前,我会等待。

0 投票
2 回答
3174 浏览

python - 使用python进行逻辑回归

我想在 python 中从头开始实现 Logisitic 回归。以下是其中的功能:

  1. 乙状结肠
  2. 成本
  3. fminunc
  4. 评估逻辑回归

我想知道,在 python 中从头开始会是一个很好的开始。关于如何以及什么是好的任何指导。我知道这些函数的理论,但正在寻找更好的 Pythonic 答案。

我使用了 octave,但我不知道如何在 python 中开始,因为 OCtave 已经设置了这些包来完成这项工作。

0 投票
1 回答
3638 浏览

r - 使用 R 的二元逻辑回归

所以我试图为一个问题拟合一个二元逻辑回归模型来估计疾病的几率,这里是原始的疾病爆发数据(有 196 个观察值,我删除了一些数据条目):

第 1 列:ID(人)

第 2 栏:人的年龄

第 3 列:SES(个人的社会经济地位)(1=上层,2=中层,3=下层)

Column 4:Sect(分类:两个不同的地区)

第 5 列:Y(1=有病,0=无病)

第 6 列:储蓄(1=人有储蓄,0=没有储蓄)

我尝试了以下命令来拟合二元回归模型:

毫不奇怪,这是一团糟,因为年龄条款太多(年龄条款从 2 到 85 岁)......所以我的问题是,有人能帮我修改我的命令,以便我能够有一个年龄估计,例如,5 年或 10 年的间隔增量?

此外,上述模型不包括任何交互项。因此,如果我要考虑,比如 SES*Age 交互,并且我想查看每 5 年或 10 年的年龄估计值,我应该如何编写输入命令?

0 投票
1 回答
6074 浏览

stata - Stata错误代码中的逻辑回归

我有一个由家庭 ID 和个人 ID 标识的调查数据集。调查中有一个关于残疾家庭成员的问题。由于问题的框架,我注意到残疾人的特征(例如年龄、教育程度等)被编码到其他成员的数据中。

我们的任务是进行逻辑回归,其中因变量是disability变量。当我logit在 Stata 中运行时,我会error 2000说没有观察到。我应该做些什么?我是否应该将其他成员资料中的观察结果转移给具有“残疾资料”的人?这可能是我在 Stata 中收到错误代码的原因。

0 投票
1 回答
3222 浏览

python - Python SKLearn:逻辑回归概率

我正在使用 Python SKLearn 模块来执行逻辑回归。我有一个因变量向量Y(从 M 个类中取值)和自变量矩阵X(具有 N 个特征)。我的代码是

我的问题是,它LR.coef_代表什么LR.intercept_。我最初认为他们持有价值观intercept(i)coef(i,j)st

其中是具有特征的观察在类p(i)中的概率。但是,当我尝试转换[X1, ... ,XN]i

所以这A是 中p(1) ... p(M)观察的矩阵X。这应该是相同的值

但是它们很接近,但又不同。为什么是这样?

0 投票
1 回答
597 浏览

java - 使用 JAMA 库的 Java 逻辑回归的成本函数

我目前正在使用 JAMA lib 编写逻辑回归的成本函数。但它不起作用。我不知道为什么。它应该返回一个值:0.6743

当我返回如上所示的矩阵 J 时,它返回 0.0 。但是当我直接返回 Y.times(log_hx).subtract(y_1.times(log1_hx)) 时,它神奇地返回了 3.3715 的值。当它不乘以 1/m 并通过正则化添加时这是正确的

0 投票
5 回答
25113 浏览

r - 分层拆分数据

我有一个大型数据集,并且喜欢为每个城市(我的数据中的列之一)拟合不同的逻辑回归。以下 70/30 拆分在不考虑城市组的情况下工作。

但这并不能保证每个城市的 70/30 比例。

假设我有城市 A 和城市 B,其中城市 A 有 100 行,城市 B 有 900 行,总共 1000 行。使用上面的代码拆分数据将为我提供 700 行用于火车和 300 行用于测试数据,但它不能保证我将在火车数据中为城市 A 提供 70 行,为城市 B 提供 630 行。我怎么做?

一旦我将每个城市的训练数据拆分为 70/30 时尚,我将为每个城市运行逻辑回归(一旦我有了训练数据,我就知道该怎么做)

0 投票
3 回答
1470 浏览

java - Java implementation of fminunc in octave

I am trying to find a java version of octave's fminunc (function minimization unconstrained) library in Java. The goal is to use it for logistic regression.

Currently, I am using a home-brewed version of gradiant descent for cost minimization and I would like to be able to use an already existing library to do that (in Java) for me. This is related to my effort of porting octave code that we have from the Coursera Machine Learning course to Java.

0 投票
1 回答
15128 浏览

python - sklearn 逻辑回归中的特征

我在向 sklearn.linear_model.LogisticRegression 添加自己的功能时遇到了一些问题。但无论如何让我们看看一些示例代码:

上面的代码清晰易懂。所以我有一些我称之为 1,2,3,4,5(resultsNER) 的类,它们与“数据”、“人”、“组织”等一些类有关。所以对于每个类,我都制作了返回的自定义功能真或假,在本例中为 1 和 0 数字。示例:如果 token 等于“(S|s)unday”,则为数据类。数学上很清楚。我测试的每个类功能都有令牌。然后我看看哪个类的特征总和的最大值(这就是为什么返回数字不是布尔值)并把它捡起来。换句话说,我使用 argmax 函数。当然,总而言之,每个特征都有 alpha 系数。在这种情况下是多类分类,所以我需要知道如何将多类特征添加到 sklearn.LogisticRegression。

我需要两件事,阿尔法系数并将我自己的特征添加到逻辑回归中。对我来说最重要的是如何sklearn.LogisticRegression为每个类添加我自己的功能。

我知道我可以通过梯度下降来计算系数。但我认为当我使用 fit(x,y) 时,LogisticRegression 使用一些算法来计算我可以通过属性获得的系数 .coef_

所以最后我的主要问题是如何在我的示例类 1、2、3、4、5(resultNER)中为不同的类添加自定义功能。

0 投票
5 回答
18546 浏览

python - 加速 sklearn 逻辑回归

我有一个正在尝试构建的模型LogisticRegressionsklearn其中包含数千个功能和大约 60,000 个样本。我正在尝试拟合模型,它现在已经运行了大约 10 分钟。我正在运行它的机器有千兆字节的 RAM 和几个内核可供使用,我想知道是否有任何方法可以加快进程

编辑 这台机器有 24 个核心,这里是 top 的输出,以了解内存

我正在尝试使用以下方法训练模型

train有大约 3000 长的行(所有浮点数),并且每一行 response都是01。我有大约 50,000 个观察值