“wandb”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

197 浏览

pytorch - 权重和偏差观察日志导致 CUDA 内存不足

我正在尝试使用 WandB 梯度可视化来调试我在 Google Colab 上的神经网络中的梯度流。没有 WandB 日志记录，训练运行没有错误，在 p100 gpu 上占用 11Gb/16GB。但是，添加此行wandb.watch(model, log='all', log_freq=3)会导致 cuda 内存不足错误。

WandB 日志记录如何产生额外的 GPU 内存开销？

有什么方法可以减少开销吗？

--添加训练循环代码--

- - -编辑 - - -

我认为 WandB 在日志预处理期间创建了一个额外的梯度副本。这是回溯：

- -更新 - -

确实，注释掉有问题的行flat = flat[~torch.isinf(flat)]

使日志记录步骤几乎不适合 GPU 内存。

pytorch wandb

2021-09-11T12:06:10.417

0 投票

2 回答

554 浏览

machine-learning - 什么时候应该运行 wandb.watch 以便权重和偏差正确地跟踪参数和梯度？

我正在尝试 wandb 库并运行wandb.watch，但这似乎不适用于我的代码。它不应该是任何复杂的东西，所以我很困惑为什么它不起作用。

代码：

github中的代码：https ://github.com/brando90/ultimate-utils/blob/master/tutorials_for_myself/my_wandb/my_wandb_basic1.py

示例运行：https ://wandb.ai/brando/playground/runs/wpupxvg1

交叉发布：https ://community.wandb.ai/t/when-is-one-supposed-to-run-wandb-watch-so-that-weights-and-biases-tracks-params-and-gradients-prope /518

2021-09-11T17:14:02.697

0 投票

1 回答

133 浏览

wandb - 有没有办法在wandb中缩放图轴？

我正在处理重量和偏差（wandb）。
但是，它会逐步记录。在比较运行时，这会使情节令人不安。
例如，我有一个运行 A 和运行 B（假设它们使用相同的数据集运行）。
运行 A: 30epochs, 4 batch, 200step/epoch
运行 B: 30epochs, 8 batch, 100step/epoch

然后，当与运行 B 一起显示时，运行 A 的图在 x 轴上变长（在本例中为双倍）。

如何缩放 x 轴取决于训练后的运行？

wandb

2021-10-03T14:53:08.153

0 投票

1 回答

35 浏览

question-answering - 使用saimpletransformers时如何在wandb中记录工件？

我正在使用simpletransformers创建一个问答模型。我还想使用 wandb 来跟踪模型工件。据我从wandb docs了解到，simpletransformers有一个集成接触点，但没有提到日志记录工件。

我想记录在训练、验证和测试阶段生成的工件，例如 train.json、eval.json、test.json、output/nbest_predictions_test.json 和最佳性能模型。

question-answering simpletransformers wandb

2021-10-20T04:55:43.473

0 投票

1 回答

88 浏览

authentication - 如何退出wandb的登录？两个人在一台机器上有两个帐户......除了重新登录之外还有什么办法？

有两个人在一台机器上使用 wandb api。如果一个人在跑步前忘记重新登录，另一个人的跑步将显示在prevois one's account中。我想知道是否有一种方法可以退出登录状态，然后另一个人会在他/她开始运行程序之前知道他/她没有登录。急于寻求帮助。我实验室的高年级学生要求我尝试这样做，但我根本不知道怎么做，也找不到答案。

authentication exit conflict wandb

2021-11-07T08:36:14.763

0 投票

1 回答

27 浏览

tensorflow2.0 - WandbCallback 中的“save_graph”关键字是什么意思？

我正在使用权重和偏差来跟踪我的深度学习模型。为了监视我使用的所有WandbCallback内容.fit。在WandbCallback 文档save_graph中有默认为 True的关键字。描述非常简短，我想知道保存的图表是什么以及它的用途是什么？保存图表是一项昂贵的操作吗？为什么需要它？（就像它补充了其他东西一样，比如保存最好的模型？）

tensorflow2.0 tf.keras wandb

2021-11-10T20:51:54.790

0 投票

1 回答

78 浏览

python - Wandb 训练杀死了 jupyter 实验室中的内核

在我的 jupyter 中，我可以在 batch_size=8 上训练我的模型，但是当我总是在 9 次迭代后使用 wandb 时，进程被终止并且内核重新启动。更奇怪的是，相同的代码在 colab 上运行，但使用我的 GPU (RTX 3080)，我永远无法完成该过程。

有谁知道如何克服这个问题？

编辑：我注意到内核每次尝试将渐变记录到 wandb 时都会死机。这可以解决吗？

带有wandb的代码：

没有wandb的代码：

python pytorch jupyter wandb

2021-12-09T21:58:46.467

0 投票

1 回答

39 浏览

python-3.x - 一旦我在 TrainingArguments 中引入 << report_to = 'wandb' >>，模型就停止了训练

我正在下载模型https://huggingface.co/microsoft/Multilingual-MiniLM-L12-H384/tree/main microsoft/Multilingual-MiniLM-L12-H384 然后使用它。

变压器版本：'4.11.3'

我写了下面的代码：

执行后：

模型卡在这一点上：

***** 跑步训练 *****

可能的解决方案是什么？

python-3.x nlp huggingface-transformers wandb

2022-01-04T02:59:29.473

0 投票

0 回答

36 浏览

wandb - 上传图片时如何处理wandb文件名字符无效异常

我正在使用 Windows 10 & venv & python 3.9.7 这是我将图像上传到 wandb 的代码

图片的完整目录是“C:\Users\이준혁\Documents\Github\terenz\tmp.jpg” 但是它会产生这个错误

重新安装 wandb 无助于解决此问题。
有什么建议么？谢谢

wandb

2022-01-07T01:01:11.160

0 投票

1 回答

44 浏览

python - wandb：artifact.add_reference() 选项添加特定（非当前）versionId 或 ETag 以停止重新上传到 s3 的需要？

我觉得这应该是可能的，但我查看了 wandb SDK 代码，但找不到简单/合乎逻辑的方法。稍后可能通过修改清单条目来破解它（但可能在工件被记录到 wandb 之前，然后清单和条目可能被锁定）？我在 SDK 代码中看到了这样的内容：

所以，我想我们可能可以编辑那些？

更新

所以，我试图用这样的东西来破解它，它可以工作，但感觉不对：

我在正确的轨道上吗？我想另一种解决方法是在 s3 上制作一个副本（这样旧版本又是最新的）但我想避免这种情况，因为我想使用旧版本的 1 文件是一个大型 NLP 模型和唯一的文件我要更改的是小的 config.json 文件等（因此再次上传所有文件似乎非常浪费）。

我还想知道，当我将旧版本的对象复制回存储桶中的同一个键时，是否会创建一个真正的副本，或者就像指向同一个底层对象的指针一样。boto3 和 AWS 文档都没有说明这一点——尽管它看起来像是一个正确的副本。

python amazon-s3 boto3 wandb

2022-01-09T01:30:04.600

问题标签 [wandb]

更新

Reference