问题标签 [sgd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

53 问题

0 投票

3 回答

220 浏览

python - RMSprop 优化器不会改变准确性和损失

数据集是 CIFAR10。我创建了一个类似 VGG 的网络：

然后我训练它并可视化损失和准确性：

然后我训练模型：

损失和准确度没有变化（准确度为 0.1 级）。但是，如果优化器是具有动量的 SGD，则一切正常（损失和准确性发生变化）。我已经尝试过改变动力和 lr，但它没有帮助。

应该修复什么？将不胜感激任何可能的建议！

python pytorch vgg-net rms sgd

2020-10-28T13:47:15.567

0 投票

1 回答

30 浏览

r - 您将如何优化在 R 中划分双变量数据？

我不是在寻找特定的代码行——只是内置的函数或通用包可以帮助我执行以下操作。基本上，就像写一些代码并使用这个函数。我被困在如何实际优化上——我应该使用 SGD 吗？

我有两个变量，X，Y。我想将 Y 分成 4 组，以便 L2，即 $(Xji | Yi - mean(Xji) | Yi)^2$ 在受到以下约束的情况下被最小化每组至少有 n 个观察值。

如何解决这个问题？我想你不能用 optim 函数做到这一点？基本上，算法需要移动 3 个值（Y 有 3 个截止点），直到 L2 在 n 为一定大小的情况下最小化。

谢谢

r optimization sgd

2020-11-13T01:50:14.563

0 投票

0 回答

81 浏览

random - 强化学习：序列中样本的 SGD 使用和独立性

我正在学习强化学习课程，很多时候，学习价值函数权重的策略参数基本上归结为使用随机梯度下降 (SGD)。代理被表示为具有一系列状态 S_t、动作 A_t，并在该序列的时间 t 获得奖励 R_t。

我对 SGD 的一般理解，例如，当在神经网络上使用训练数据集时，我们假设小批量中的数据是独立同分布的，这是有道理的，因为在某种程度上，我们使用平均值来“近似”期望假定从独立但完全相同的分布中绘制的点上的梯度。那么为什么我们在 RL 中使用 SGD 并随着时间的推移而增加呢？这是由于 p(S_t | S_{t-1}) 分布的条件独立性的隐含假设吗？

感谢您澄清这一点。胺

random reinforcement-learning sgd

2020-12-28T14:49:08.850

0 投票

1 回答

339 浏览

python - 在 Keras 中使用 SGD 优化器进行回归 NN 的 NAN 值

我尝试训练一个神经网络进行回归。当使用 Keras 的 SGD 优化器类时，我在第一步之后突然从我的网络中得到 NAN 值作为预测。在我使用 Adam 优化器类进行培训之前，一切正常。我已经尝试过改变 SGD 的学习率，但在第一步和编译之后仍然会出现 NAN 值作为模型预测。

由于我的培训与 Adam 优化器一起工作，我不相信我的输入会导致 NAN。我已经检查了 NaN 的输入值并删除了所有这些值。那么什么可能导致这种行为呢？

这是我的代码：

python optimization keras nan sgd

2021-01-10T14:20:37.167

0 投票

1 回答

84 浏览

python - 关于 tf.keras SGD 批处理

我想在 tf.keras 中使用 SGD 优化器。但是SGD细节说

梯度下降（带动量）优化器。

这是否意味着 SGD 不支持“在数据集阶段随机洗牌示例”？
我查了SGD源码，好像没有随机shuffle的方法。我对 SGD 的理解是对随机样本应用梯度下降。
但它只使用动量和内斯特罗夫进行梯度下降。

我在代码中定义的批量大小是否代表 SGD 随机洗牌阶段？
如果是这样，它会随机洗牌，但从不使用相同的数据集，不是吗？
我的理解正确吗？

我写了关于批处理的代码如下。

python tensorflow keras sgd

2021-01-24T15:40:15.147

0 投票

1 回答

265 浏览

python - 使用 ModuleList，仍然得到 ValueError: optimizer got a empty parameter list

使用 Pytorch，我尝试使用 ModuleList 来确保检测到模型参数，并且可以对其进行优化。调用 SGD 优化器时出现以下错误：

ValueError：优化器得到一个空的参数列表

您能否查看下面的代码并提供建议？

python optimization pytorch valueerror sgd

2021-01-29T05:28:52.727

0 投票

0 回答

64 浏览

python - 如何正确实现动量和衰减 - SGD

我正在尝试将动量和衰减应用于小批量 SGD：更新权重的正确方法是什么，一旦设置衰减，我就会得到奇怪的结果。

python machine-learning mini-batch sgd

2021-02-08T20:25:00.757

0 投票

2 回答

409 浏览

python - 为什么 sklearn 中的 SGDRegressor 函数不能收敛到正确的最优值？

我在 sklearn 中练习使用 SGDRegressor，但遇到了一些问题，我将其简化为以下代码。

这是输出：

所有输出都在intercept=0.19 和coef=0.18 左右，但显然正确答案是intercept=0and coef=1。即使在这个简单的例子中，程序也无法得到参数的正确解。我想知道我在哪里犯了错误。

python numpy machine-learning scikit-learn sgd

2021-03-01T04:49:35.113

0 投票

1 回答

70 浏览

python - 我们如何解释随机梯度下降分类器的特征重要性？

我有一个用 scikit-learn 训练的 SGDClassifier 模型。我提取特征名称.get_feature_names()和系数.coef_

我将 2 列组合在一个数据框中，如下所示：

我想知道如何解释特征重要性？正的高值是什么意思？低负值是什么意思？

python machine-learning scikit-learn linearmodels sgd

2021-03-11T00:48:50.730

0 投票

0 回答

21 浏览

data-science - 有人可以帮我解决为什么我在网格搜索属性 cv_results_ 中获取 nan 值吗？

如果我打印我正在获取 nan 值

cv_results 以数据帧的形式输出

data-science nan gridsearchcv sgd

2021-03-25T11:45:56.170

1 2 3 4 5 6 7 8 9 10