问题标签 [sgd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
zebra-printers - 尝试使用 SGD 代码更改 Zebra 打印机上的 IP 配置
我正在尝试使用 SGD 命令在斑马 ZT410 打印机上配置 IP、子网和网关地址。
我正在使用“Zebra 设置实用程序”,我的getvar命令有效,但setvar命令无效。我究竟做错了什么 ?我的代码如下...
python - 具有 Logloss 和 L2 正则化的 SGD 分类器 在不使用 sklearn python 的情况下使用 SGD
我正在使用 python 解决 SGD 手动实现的分配问题。我被困在 dw 导数函数上。
结果我得到
预期结果:
您能否告诉我我对 gradient_dw 函数的理解是否错误?我正在尝试应用这个公式:
我正在尝试在 gradient_dw 函数中计算梯度 wrt 'w',以便稍后在主代码中使用它。我不明白的是 w 是一个 0s 和 y=0 的数组,所以当我们应用 dw(t) 公式并返回 dw 时,我们很可能会得到一个 0s 的数组,但是为什么它说“断言(np.sum(grad_dw)==2.613689585)" 。我们怎么可能得到 2.613689585?
python - 每次重启后降低最大学习率
我正在为基于计算机视觉的任务训练神经网络。对于优化器,我发现在整个训练中使用单一学习率并不理想,人们所做的是他们使用学习率调度程序以特定方式衰减学习率。所以为了做到这一点,我尝试了PyTorch's
CosineAnnealingWarmRestarts().
它的作用是它以余弦方式退火/降低初始学习率(由我们设置),直到它重新启动。在这个“重启”之后,学习率被设置回初始学习率,并且循环再次发生。这对我来说效果很好,但我想对其进行一些更改。我想改变学习率,每次重启后都会分配优化器,这样每次重启后优化器的最大学习率也会降低。这可以在 PyTorch 中完成吗?
python-3.x - BayesSearchCV 在 SGDClassifier 参数调整期间不起作用
我正在尝试使用 BayesSearchCV 来调整 SGDClassifier 的参数。下面是我尝试过的代码。
正在创建以下错误:
我还使用相同的 model_param 列表测试了 GridSearchCV 和 RandomizedSearchCV 并且它们工作正常。如何正确使用 BayesSearchCV?我必须在哪里更改或必须删除哪个参数?
[更新]
如果我从 model_param 中删除“l1_ratio”,那么上面的代码将起作用。如何执行保持'l1_ratio'?
python - 在不使用 sklearn 的情况下使用 SGD(LogLoss 随每个 epoch 增加)
我的渐变 dw 函数
我的渐变数据库功能:
我的损失函数:
我的问题是每个时代之后我的损失都在增加。为什么?
任何帮助将不胜感激
谢谢
keras - 无法设置优化器的动量
我正在使用 SGD 优化器,并希望在初始化后设置类似于学习率调度的动量tf.keras.backend.set_value(optimizer.momentum, momentumValue)
:https ://www.tensorflow.org/api_docs/python/tf/keras/backend/set_value
但是,我得到的只是以下错误:
有什么方法可以设置动力吗?这对于实施 1Cycle 政策很重要,因为动量也应该循环,但我不敢相信在初始化后没有办法在 keras 中调整动量。
tensorflow - 为什么 keras (SGD) optimizer.minimize() 在这个例子中没有达到全局最小值?
我正在通过 DataCamp 完成 TensorFlow 教程,并且正在转录/复制我在自己的 Jupyter 笔记本中处理的代码示例。
以下是编码问题的原始说明:
我正在运行以下代码片段,但无法得出与教程中生成的结果相同的结果,我已通过 x 与 loss_function(x) 的连接散点图确认了正确的值,如图所示再往下一点。
我绘制了一个快速连接的散点图,以确认(成功地)我使用的损失函数让我回到示例提供的同一图表(如上面的屏幕截图所示)
根据 DataCamp 环境,以下分别是生成的全局最小值和局部最小值:
4.38是正确的全局最小值, 0.42确实对应于图 RHS 上的第一个局部最小值(从 x_2 = 0.3 开始时)
以下是我的环境的结果,两者都与寻求最小化损失值时应该朝着的方向相反:
在过去 90 分钟的大部分时间里,我都在试图弄清楚为什么我的结果与 DataCamp 控制台的结果不一致/为什么优化器未能将这个简单玩具示例的损失降到最低……?
感谢您在自己的环境中运行提供的代码后可能提出的任何建议,非常感谢!
python - 为什么`SGDClassifier`中的`partial_fit`会遭受模型精度逐渐降低的影响
我正在使用in训练一个在线学习SVM 分类器。我了解到可以使用.SGDClassifier
sklearn
partial_fit
我的模型定义是:
它只是第一次创建。
为了测试它,我首先在整个数据上训练了我的分类器模型 1,fit
并获得了 87% 的模型准确率(使用model.score(X_test, y_test)
)。然后,为了演示在线训练,我将相同的数据分成 4 组,然后在 4 次不同的运行中使用partial_fit
. 这是模型 2。
但在这种情况下,我的准确率下降为:87.9 -> 98.89 -> 47.7 -> 29.4。
这可能是什么原因?
python - 如何在 tensorflow 联合 sgd 中操作客户端梯度
我正在按照本教程开始使用 tensorflow federated。我的目标是在将客户端梯度值发送到服务器之前运行联邦 sgd(不是联邦 avg),并对客户端梯度值进行一些操作。
在继续之前,简要重申联邦 sgd 过程,对于每一轮,客户端将其计算的梯度(不是更新的权重)发送到服务器,服务器聚合它们并将更新的模型广播给客户端。
现在,根据我到目前为止收集到的信息,我可以使用该函数build_federated_sgd_process
而不是build_federated_averaging_process
在提到的教程中以上述方式执行联合 sgd。
我迷路的地方是,在将渐变发送到服务器之前,我需要剪辑客户端渐变并向它们添加一些噪声(为每个渐变值独立生成),我不知道该怎么做。生成噪声很简单,但是我应该修改/实现哪个函数才能将噪声应用于渐变?
python - python中多个向量的随机抽样
所以我有一个任务来编码随机梯度体面,基本上我发现从多个向量中随机采样同时保持顺序不变有点问题。我的代码如下:
正如你所看到的,我有 2 个向量,x 和 y,它们是链接的,例如 x[0] 是一个实验,它给了我们 y[0] = 0。在我看来,没有结构的随机抽样是没有意义的. 我正在努力做的是在 SGD 函数中,我想要 x 的 n 点和 y 的 n 点,但结构正确!任何帮助表示赞赏!
是