问题标签 [regularized]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

184 问题

0 投票

0 回答

345 浏览

matlab - 良好的 MSE 并不意味着逻辑回归中的良好预测？

我正在为正则化逻辑回归编写一些代码。我观察到这个有趣的现象，想知道这是正常现象还是只是我的代码错误。

对于损失函数，我使用的是逻辑损失函数（最大化二元变量的可能性）。为了进行预测，获得新观察的预测概率，并使用 AUC 来找到最佳阈值。

有趣的是，我经常遇到这样的情况，即估计参数的 MSE（偏差）比新观察的另一个参数好得多，但预测更差（差很多）。所以在我看来，均方误差可能与预测性能没有任何关系（比如线性回归的情况）。有人看到同样的事情吗？

matlab regression mse regularized

2014-08-12T15:43:40.587

0 投票

2 回答

205 浏览

python - python中机器学习库（例如scikit）中的非对称正则化

这个问题需要我在训练线性分类器时调整所选特征的权重。我正在使用 python SKlearn。

在谷歌上搜索了很多关于在 SKlearn 中为分类器加入非对称正则化的信息后，我找不到任何解决方案。执行此任务的核心库函数作为 Windows 的 DLL 提供，因此无法修改现有库。

是否有任何具有这种灵活性的 Python 机器学习库？任何形式的帮助将不胜感激。

python machine-learning scikit-learn asymmetric regularized

2014-09-20T14:23:13.750

0 投票

1 回答

656 浏览

matlab - 岭回归：随着训练样本的增加，测试误差先升后降（从欠定到超定）

我正在研究进行岭（正则化）回归时训练样本大小的影响。当我绘制测试误差与训练集大小的关系时，我得到了这个非常奇怪的图表：.

以下代码生成一个训练集和一个测试集，并对正则化参数的低值执行岭回归。

根据训练集的大小绘制误差及其标准差。

注意生成数据的维度是10。

我得到以下错误值：

和以下标准偏差：

为什么先涨后跌？该值是 100 次迭代的平均值，因此这不是偶然的。

我认为这与数据的维度为 10 的事实有关。这可能是计算性的，因为随着训练集变大，测试误差当然应该减少......

如果你们中的任何人都可以了解正在发生的事情，我将不胜感激！

matlab statistics regression linear-regression regularized

2015-01-05T11:53:48.633

0 投票

1 回答

965 浏览

r - R删除逻辑回归中的截距

我正在使用 rms 库来执行正则化逻辑回归，并希望将截距强制为零。我正在使用以下内容来模拟和回归：

如何在 R 中删除截距的帖子建议在模型公式中包含“0 +”或“- 1”。但是，这似乎不适用于 lrm。

r logistic-regression regularized

2015-04-23T19:13:01.950

0 投票

1 回答

1431 浏览

glm - 如何在没有正则化的情况下使用 glmnet

我读过 glmnet 可以在没有正则化的情况下使用，即它可以用作常规 glm。我正在写一篇论文并试图避免使用许多不同的包，因此使用 glmnet 进行常规 glm 逻辑回归拟合会很方便。谁能帮我？

glm logistic-regression glmnet regularized

2015-05-06T10:52:31.693

0 投票

1 回答

26058 浏览

python - Python pandas 时间序列插值和正则化

我第一次使用 Python Pandas。我有 csv 格式的 5 分钟滞后流量数据：

有几个问题：

对于某些时间戳，缺少数据 (-1)
缺少条目（也是连续 2/3 小时）
观察的频率不完全是 5 分钟，但实际上偶尔会损失几秒钟

我想获得一个定期的时间序列，所以每（正好）5分钟输入一次（并且没有缺失值）。我已使用以下代码成功插入时间序列，以使用此代码逼近 -1 值：

如何对观察的频率进行插值和正则化？谢谢大家的帮助。

python pandas time-series interpolation regularized

2015-05-29T12:45:51.343

0 投票

1 回答

287 浏览

r - R：LiblineaR 包

我在 R 上使用 LiblineaR 包进行 L1 回归。但是，每次我运行它时，它似乎都会返回一个稍微不同的模型。这应该是非确定性的吗？

r regression regularized

2015-08-03T19:43:52.033

0 投票

1 回答

880 浏览

classification - l1/l2 正则化导致 vowpal wabbit 中所有特征权重为零是否合理？

我得到了一个奇怪的结果vw，它使用在线学习方案进行逻辑回归。当我添加--l1或--l2正则化时，我得到的所有预测都是 0.5（这意味着所有特征都是 0）

这是我的命令：

...这是学习过程信息：

顺便说一句，特征的数量接近 80,000，每个样本只包含其中的一小部分（这就是为什么current features只有 100 个左右）。

这是我的猜测，在目标函数/损失函数中，第二项regularization loss可能会主导整个方程，这会导致这种现象吗？

我尝试了另一个数据集（前几天的）

classification logistic-regression vowpalwabbit hyperparameters regularized

2015-09-24T03:28:09.177

0 投票

1 回答

5218 浏览

machine-learning - 在给定特征数量的情况下找到随机森林的最大深度

如果我们知道特征的数量，我们如何找到随机森林的最大深度？

这是正则化随机森林分类器所必需的。

machine-learning random-forest depth regularized

2015-10-06T21:00:34.090

0 投票

3 回答

2773 浏览

machine-learning - 为什么需要在机器学习问题中使用正则化？

这似乎是一个愚蠢的问题，但我就是想不出一个合理的答案。

据说正则化可以帮助我们获得简单模型而不是复杂模型，以避免过度拟合。但是对于线性分类问题：

模型的复杂性在某种程度上是明确的：它是线性的，不是二次的或更复杂的。那么为什么我们还需要对参数进行正则化呢？为什么在这种情况下我们更喜欢较小的权重？

machine-learning statistics classification mathematical-optimization regularized

2016-01-14T13:51:36.857

1 2 3 4 5 6 7 8 9 10