问题标签 [wandb]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
197 浏览

pytorch - 权重和偏差观察日志导致 CUDA 内存不足

我正在尝试使用 WandB 梯度可视化来调试我在 Google Colab 上的神经网络中的梯度流。没有 WandB 日志记录,训练运行没有错误,在 p100 gpu 上占用 11Gb/16GB。但是,添加此行wandb.watch(model, log='all', log_freq=3)会导致 cuda 内存不足错误。

WandB 日志记录如何产生额外的 GPU 内存开销?

有什么方法可以减少开销吗?

--添加训练循环代码--

- - -编辑 - - -

我认为 WandB 在日志预处理期间创建了一个额外的梯度副本。这是回溯:

- -更新 - -

确实,注释掉有问题的行flat = flat[~torch.isinf(flat)]

使日志记录步骤几乎不适合 GPU 内存。

0 投票
2 回答
554 浏览

machine-learning - 什么时候应该运行 wandb.watch 以便权重和偏差正确地跟踪参数和梯度?

我正在尝试 wandb 库并运行wandb.watch,但这似乎不适用于我的代码。它不应该是任何复杂的东西,所以我很困惑为什么它不起作用。

代码:

github中的代码:https ://github.com/brando90/ultimate-utils/blob/master/tutorials_for_myself/my_wandb/my_wandb_basic1.py

示例运行:https ://wandb.ai/brando/playground/runs/wpupxvg1

交叉发布:https ://community.wandb.ai/t/when-is-one-supposed-to-run-wandb-watch-so-that-weights-and-biases-tracks-params-and-gradients-prope /518

0 投票
1 回答
133 浏览

wandb - 有没有办法在wandb中缩放图轴?

我正在处理重量和偏差(wandb)。
但是,它会逐步记录。在比较运行时,这会使情节令人不安。
例如,我有一个运行 A 和运行 B(假设它们使用相同的数据集运行)。
运行 A: 30epochs, 4 batch, 200step/epoch
运行 B: 30epochs, 8 batch, 100step/epoch

然后,当与运行 B 一起显示时,运行 A 的图在 x 轴上变长(在本例中为双倍)。

如何缩放 x 轴取决于训练后的运行?

0 投票
1 回答
35 浏览

question-answering - 使用saimpletransformers时如何在wandb中记录工件?

我正在使用simpletransformers创建一个问答模型。我还想使用 wandb 来跟踪模型工件。据我从wandb docs了解到,simpletransformers有一个集成接触点,但没有提到日志记录工件。

我想记录在训练、验证和测试阶段生成的工件,例如 train.json、eval.json、test.json、output/nbest_predictions_test.json 和最佳性能模型。

0 投票
1 回答
88 浏览

authentication - 如何退出wandb的登录?两个人在一台机器上有两个帐户......除了重新登录之外还有什么办法?

有两个人在一台机器上使用 wandb api。如果一个人在跑步前忘记重新登录,另一个人的跑步将显示在prevois one's account中。我想知道是否有一种方法可以退出登录状态,然后另一个人会在他/她开始运行程序之前知道他/她没有登录。急于寻求帮助。我实验室的高年级学生要求我尝试这样做,但我根本不知道怎么做,也找不到答案。

0 投票
1 回答
27 浏览

tensorflow2.0 - WandbCallback 中的“save_graph”关键字是什么意思?

我正在使用权重和偏差来跟踪我的深度学习模型。为了监视我使用的所有WandbCallback内容.fit。在WandbCallback 文档save_graph中有默认为 True的关键字。描述非常简短,我想知道保存的图表是什么以及它的用途是什么?保存图表是一项昂贵的操作吗?为什么需要它?(就像它补充了其他东西一样,比如保存最好的模型?)

0 投票
1 回答
78 浏览

python - Wandb 训练杀死了 jupyter 实验室中的内核

在我的 jupyter 中,我可以在 batch_size=8 上训练我的模型,但是当我总是在 9 次迭代后使用 wandb 时,进程被终止并且内核重新启动。更奇怪的是,相同的代码在 colab 上运行,但使用我的 GPU (RTX 3080),我永远无法完成该过程。

有谁知道如何克服这个问题?

编辑:我注意到内核每次尝试将渐变记录到 wandb 时都会死机。这可以解决吗?

带有wandb的代码:

没有wandb的代码:

0 投票
1 回答
39 浏览

python-3.x - 一旦我在 TrainingArguments 中引入 << report_to = 'wandb' >>,模型就停止了训练

我正在下载模型https://huggingface.co/microsoft/Multilingual-MiniLM-L12-H384/tree/main microsoft/Multilingual-MiniLM-L12-H384 然后使用它。

变压器版本:'4.11.3'

我写了下面的代码:

执行后:

模型卡在这一点上:

***** 跑步训练 *****

可能的解决方案是什么?

0 投票
0 回答
36 浏览

wandb - 上传图片时如何处理wandb文件名字符无效异常

我正在使用 Windows 10 & venv & python 3.9.7 这是我将图像上传到 wandb 的代码

图片的完整目录是“C:\Users\이준혁\Documents\Github\terenz\tmp.jpg” 但是它会产生这个错误

重新安装 wandb 无助于解决此问题。
有什么建议么?谢谢

0 投票
1 回答
44 浏览

python - wandb:artifact.add_reference() 选项添加特定(非当前)versionId 或 ETag 以停止重新上传到 s3 的需要?

我觉得这应该是可能的,但我查看了 wandb SDK 代码,但找不到简单/合乎逻辑的方法。稍后可能通过修改清单条目来破解它(但可能在工件被记录到 wandb 之前,然后清单和条目可能被锁定)?我在 SDK 代码中看到了这样的内容:

所以,我想我们可能可以编辑那些?

更新

所以,我试图用这样的东西来破解它,它可以工作,但感觉不对:

我在正确的轨道上吗?我想另一种解决方法是在 s3 上制作一个副本(这样旧版本又是最新的)但我想避免这种情况,因为我想使用旧版本的 1 文件是一个大型 NLP 模型和唯一的文件我要更改的是小的 config.json 文件等(因此再次上传所有文件似乎非常浪费)。

我还想知道,当我将旧版本的对象复制回存储桶中的同一个键时,是否会创建一个真正的副本,或者就像指向同一个底层对象的指针一样。boto3 和 AWS 文档都没有说明这一点——尽管它看起来像是一个正确的副本。