问题标签 [regularized]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
715 浏览

python - 为什么惩罚='l1'和'l2'和C=1e80的sklearn.LogisticRegression的准确性存在差异?

我对我得到的结果有些失望。我使用and ' or创建了两个模型 ( sklearn.linear_models.LogisticRegression) ,然后使用and测试它们。对我来说,应该导致几乎没有正则化,并且 AUC 应该是相同的。相反,带有惩罚的模型给出了更差的 AUC,并且多次运行给了我相同的结果。这是怎么发生的?C=1e80penalty = 'l1'l2'sklearn.cross_validation.cross_val_scorecv=3scoring='roc_auc'C=1e80'l2'

0 投票
1 回答
16491 浏览

python - Python 的 sklearn coef_ 输出中的目标是什么?

当我在 Python 中使用 sklearn 进行岭回归时,coef_ 输出给了我一个二维数组。根据文档,它是(n_targets,n_features)。

我知道特征是我的系数。但是,我不确定目标是什么。这是什么?

0 投票
1 回答
550 浏览

python - sklearn 的逻辑回归中“C”参数的 R 等效项是什么?

sklearn其中python有一个LogisticRegressionC的参数(正则化参数)。

现在,我想知道R语言中的等价物是什么?当我在 R 中进行逻辑回归时,我会这样做:

但是它用于C参数是什么?用于正C则化,但我在 ? 中找不到任何这样的等价物R

以下是我检查的一些地方:

http://data.princeton.edu/R/glms.html

0 投票
1 回答
894 浏览

python - 正交匹配追踪回归 - 我用错了吗?

我正在尝试将此方法作为正则化回归,作为套索和弹性网的替代方法。我有 40k 数据点和 40 个特征。Lasso 选择了 5 个特征,正交匹配追踪只选择了 1 个。

这可能是什么原因造成的?我是否以错误的方式使用 omp?也许它不打算用作回归。如果你能解决我可能做错的任何事情,请告诉我。

0 投票
1 回答
813 浏览

machine-learning - 使用线性回归时必须将 L2 正则化添加到成本函数中?

使用线性回归时必须将 L2 正则化添加到成本函数中?

我在计算成本时没有添加 l2 或考虑。那是错的吗?

下面的代码片段应该足够了:

0 投票
3 回答
76405 浏览

machine-learning - TensorFlow - 具有 L2 损失的正则化,如何应用于所有权重,而不仅仅是最后一个?

我正在玩一个 ANN,它是 Udacity 深度学习课程的一部分。

我有一项任务,其中涉及使用 L2 损失向具有一个隐藏 ReLU 层的网络引入泛化。我想知道如何正确引入它,以便惩罚所有权重,而不仅仅是输出层的权重。

没有泛化的网络代码在帖子的底部(实际运行训练的代码超出了问题的范围)。

引入 L2 的明显方法是将损失计算替换为以下内容(如果 beta 为 0.01):

但在这种情况下,它将考虑输出层权重的值。我不确定,我们如何正确惩罚进入隐藏 ReLU 层的权重。是否需要它或引入输出层的惩罚会以某种方式控制隐藏的权重?

0 投票
3 回答
23081 浏览

machine-learning - TensorFlow - 将 L2 正则化和 dropout 引入网络。这有什么意义吗?

我目前正在玩 ANN,它是 Udactity 深度学习课程的一部分。

我成功地构建和训练了网络,并在所有权重和偏差上引入了 L2 正则化。现在我正在尝试隐藏层的 dropout 以提高泛化能力。我想知道,将 L2 正则化引入隐藏层和同一层的 dropout 是否有意义?如果是这样,如何正确地做到这一点?

在 dropout 期间,我们实际上关闭了隐藏层的一半激活,并将其余神经元的输出量加倍。在使用 L2 时,我们计算所有隐藏权重的 L2 范数。但是如果我们使用 dropout,我不确定如何计算 L2。我们关闭了一些激活,我们不应该从 L2 计算中删除现在“未使用”的权重吗?关于此事的任何参考资料都会很有用,我还没有找到任何信息。

以防万一您有兴趣,我的带有 L2 正则化的 ANN 代码如下:

0 投票
0 回答
358 浏览

r - 如何使用优化函数在 R 中编写正则化(惩罚)多元逻辑回归

我使用手写梯度函数在 R 中编写了一个正则化(惩罚)多元逻辑回归。它工作正常,但问题是它太慢了。有没有办法通过使用优化功能来提高速度?

我查看了这段代码,但这并没有使用优化功能。 http://www.r-bloggers.com/machine-learning-ex5-2-regularized-logistic-regression/

有人建议我将 optim 函数与“BFGS”方法一起使用。但我不知道如何创建成本函数(J)和系数的方向(gra)——尤其是系数方向的部分。

提前谢谢。

0 投票
3 回答
5151 浏览

machine-learning - 辍学的 Keras 实现是否正确?

dropout的Keras实现参考了这篇论文

以下摘录来自该论文:

这个想法是在测试时使用单个神经网络而不会丢失。该网络的权重是经过训练的权重的缩小版本。如果在训练期间以概率 p 保留一个单元,则该单元的传出权重在测试时乘以 p,如图 2 所示。

Keras 文档提到 dropout 仅在训练时使用,以及 Dropout 实现中的以下行

x = K.in_train_phase(K.dropout(x, level=self.p), x)

似乎表明确实在测试期间来自层的输出只是简单地传递。

此外,我找不到像论文建议的那样在训练完成后缩小权重的代码。我的理解是,这个缩放步骤对于使 dropout 起作用从根本上是必要的,因为它相当于在“子网络”的集合中获取中间层的预期输出。没有它,计算就不能再被认为是从这个“子网络”集合中采样的。

那么,我的问题是,如果有的话,Keras 中实现的 dropout 的这种缩放效果在哪里?

更新 1:好的,所以 Keras 使用了倒置 dropout,尽管它在 Keras 文档和代码中被称为 dropout。链接http://cs231n.github.io/neural-networks-2/#reg似乎并不表示两者是等价的。答案也不在https://stats.stackexchange.com/questions/205932/dropout-scaling-the-activation-versus-inverting-the-dropout。我可以看到他们做类似的事情,但我还没有看到有人说他们完全一样。我认为他们不是。

所以一个新问题:dropout和inverted dropout是等价的吗?需要明确的是,我正在寻找数学上的理由来说明它们是或不是。

0 投票
1 回答
104 浏览

glm - h2o.glm 中的自定义链接功能

我寻找具有正则化的广义线性模型实现。我发现 glmnet 不允许自定义链接功能。但是,h2o 将链接函数类型作为参数。是否可以在 h2o 中定义和使用家庭下的自定义链接功能(优化问题相同)?