问题标签 [sgd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - RMSprop 优化器不会改变准确性和损失
数据集是 CIFAR10。我创建了一个类似 VGG 的网络:
然后我训练它并可视化损失和准确性:
然后我训练模型:
损失和准确度没有变化(准确度为 0.1 级)。但是,如果优化器是具有动量的 SGD,则一切正常(损失和准确性发生变化)。我已经尝试过改变动力和 lr,但它没有帮助。
应该修复什么?将不胜感激任何可能的建议!
r - 您将如何优化在 R 中划分双变量数据?
我不是在寻找特定的代码行——只是内置的函数或通用包可以帮助我执行以下操作。基本上,就像写一些代码并使用这个函数。我被困在如何实际优化上——我应该使用 SGD 吗?
我有两个变量,X,Y。我想将 Y 分成 4 组,以便 L2,即 $(Xji | Yi - mean(Xji) | Yi)^2$ 在受到以下约束的情况下被最小化每组至少有 n 个观察值。
如何解决这个问题?我想你不能用 optim 函数做到这一点?基本上,算法需要移动 3 个值(Y 有 3 个截止点),直到 L2 在 n 为一定大小的情况下最小化。
谢谢
random - 强化学习:序列中样本的 SGD 使用和独立性
我正在学习强化学习课程,很多时候,学习价值函数权重的策略参数基本上归结为使用随机梯度下降 (SGD)。代理被表示为具有一系列状态 S_t、动作 A_t,并在该序列的时间 t 获得奖励 R_t。
我对 SGD 的一般理解,例如,当在神经网络上使用训练数据集时,我们假设小批量中的数据是独立同分布的,这是有道理的,因为在某种程度上,我们使用平均值来“近似”期望假定从独立但完全相同的分布中绘制的点上的梯度。那么为什么我们在 RL 中使用 SGD 并随着时间的推移而增加呢?这是由于 p(S_t | S_{t-1}) 分布的条件独立性的隐含假设吗?
感谢您澄清这一点。胺
python - 在 Keras 中使用 SGD 优化器进行回归 NN 的 NAN 值
我尝试训练一个神经网络进行回归。当使用 Keras 的 SGD 优化器类时,我在第一步之后突然从我的网络中得到 NAN 值作为预测。在我使用 Adam 优化器类进行培训之前,一切正常。我已经尝试过改变 SGD 的学习率,但在第一步和编译之后仍然会出现 NAN 值作为模型预测。
由于我的培训与 Adam 优化器一起工作,我不相信我的输入会导致 NAN。我已经检查了 NaN 的输入值并删除了所有这些值。那么什么可能导致这种行为呢?
这是我的代码:
python - 关于 tf.keras SGD 批处理
我想在 tf.keras 中使用 SGD 优化器。但是SGD细节说
梯度下降(带动量)优化器。
这是否意味着 SGD 不支持“在数据集阶段随机洗牌示例”?
我查了SGD源码,好像没有随机shuffle的方法。我对 SGD 的理解是对随机样本应用梯度下降。
但它只使用动量和内斯特罗夫进行梯度下降。
我在代码中定义的批量大小是否代表 SGD 随机洗牌阶段?
如果是这样,它会随机洗牌,但从不使用相同的数据集,不是吗?
我的理解正确吗?
我写了关于批处理的代码如下。
python - 使用 ModuleList,仍然得到 ValueError: optimizer got a empty parameter list
使用 Pytorch,我尝试使用 ModuleList 来确保检测到模型参数,并且可以对其进行优化。调用 SGD 优化器时出现以下错误:
ValueError:优化器得到一个空的参数列表
您能否查看下面的代码并提供建议?
python - 如何正确实现动量和衰减 - SGD
我正在尝试将动量和衰减应用于小批量 SGD:更新权重的正确方法是什么,一旦设置衰减,我就会得到奇怪的结果。
python - 为什么 sklearn 中的 SGDRegressor 函数不能收敛到正确的最优值?
我在 sklearn 中练习使用 SGDRegressor,但遇到了一些问题,我将其简化为以下代码。
这是输出:
所有输出都在intercept=0.19 和coef=0.18 左右,但显然正确答案是intercept=0
and coef=1
。即使在这个简单的例子中,程序也无法得到参数的正确解。我想知道我在哪里犯了错误。
python - 我们如何解释随机梯度下降分类器的特征重要性?
我有一个用 scikit-learn 训练的 SGDClassifier 模型。我提取特征名称.get_feature_names()
和系数.coef_
我将 2 列组合在一个数据框中,如下所示:
我想知道如何解释特征重要性?正的高值是什么意思?低负值是什么意思?