问题标签 [wandb]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pytorch - 权重和偏差观察日志导致 CUDA 内存不足
我正在尝试使用 WandB 梯度可视化来调试我在 Google Colab 上的神经网络中的梯度流。没有 WandB 日志记录,训练运行没有错误,在 p100 gpu 上占用 11Gb/16GB。但是,添加此行wandb.watch(model, log='all', log_freq=3)
会导致 cuda 内存不足错误。
WandB 日志记录如何产生额外的 GPU 内存开销?
有什么方法可以减少开销吗?
--添加训练循环代码--
- - -编辑 - - -
我认为 WandB 在日志预处理期间创建了一个额外的梯度副本。这是回溯:
- -更新 - -
确实,注释掉有问题的行flat = flat[~torch.isinf(flat)]
使日志记录步骤几乎不适合 GPU 内存。
machine-learning - 什么时候应该运行 wandb.watch 以便权重和偏差正确地跟踪参数和梯度?
我正在尝试 wandb 库并运行wandb.watch
,但这似乎不适用于我的代码。它不应该是任何复杂的东西,所以我很困惑为什么它不起作用。
代码:
wandb - 有没有办法在wandb中缩放图轴?
我正在处理重量和偏差(wandb)。
但是,它会逐步记录。在比较运行时,这会使情节令人不安。
例如,我有一个运行 A 和运行 B(假设它们使用相同的数据集运行)。
运行 A: 30epochs, 4 batch, 200step/epoch
运行 B: 30epochs, 8 batch, 100step/epoch
然后,当与运行 B 一起显示时,运行 A 的图在 x 轴上变长(在本例中为双倍)。
如何缩放 x 轴取决于训练后的运行?
question-answering - 使用saimpletransformers时如何在wandb中记录工件?
我正在使用simpletransformers创建一个问答模型。我还想使用 wandb 来跟踪模型工件。据我从wandb docs了解到,simpletransformers有一个集成接触点,但没有提到日志记录工件。
我想记录在训练、验证和测试阶段生成的工件,例如 train.json、eval.json、test.json、output/nbest_predictions_test.json 和最佳性能模型。
authentication - 如何退出wandb的登录?两个人在一台机器上有两个帐户......除了重新登录之外还有什么办法?
有两个人在一台机器上使用 wandb api。如果一个人在跑步前忘记重新登录,另一个人的跑步将显示在prevois one's account中。我想知道是否有一种方法可以退出登录状态,然后另一个人会在他/她开始运行程序之前知道他/她没有登录。急于寻求帮助。我实验室的高年级学生要求我尝试这样做,但我根本不知道怎么做,也找不到答案。
tensorflow2.0 - WandbCallback 中的“save_graph”关键字是什么意思?
我正在使用权重和偏差来跟踪我的深度学习模型。为了监视我使用的所有WandbCallback
内容.fit
。在WandbCallback 文档save_graph
中有默认为 True的关键字。描述非常简短,我想知道保存的图表是什么以及它的用途是什么?保存图表是一项昂贵的操作吗?为什么需要它?(就像它补充了其他东西一样,比如保存最好的模型?)
python - Wandb 训练杀死了 jupyter 实验室中的内核
在我的 jupyter 中,我可以在 batch_size=8 上训练我的模型,但是当我总是在 9 次迭代后使用 wandb 时,进程被终止并且内核重新启动。更奇怪的是,相同的代码在 colab 上运行,但使用我的 GPU (RTX 3080),我永远无法完成该过程。
有谁知道如何克服这个问题?
编辑:我注意到内核每次尝试将渐变记录到 wandb 时都会死机。这可以解决吗?
带有wandb的代码:
没有wandb的代码:
python-3.x - 一旦我在 TrainingArguments 中引入 << report_to = 'wandb' >>,模型就停止了训练
我正在下载模型https://huggingface.co/microsoft/Multilingual-MiniLM-L12-H384/tree/main microsoft/Multilingual-MiniLM-L12-H384 然后使用它。
变压器版本:'4.11.3'
我写了下面的代码:
执行后:
模型卡在这一点上:
***** 跑步训练 *****
可能的解决方案是什么?
wandb - 上传图片时如何处理wandb文件名字符无效异常
我正在使用 Windows 10 & venv & python 3.9.7 这是我将图像上传到 wandb 的代码
图片的完整目录是“C:\Users\이준혁\Documents\Github\terenz\tmp.jpg” 但是它会产生这个错误
重新安装 wandb 无助于解决此问题。
有什么建议么?谢谢
python - wandb:artifact.add_reference() 选项添加特定(非当前)versionId 或 ETag 以停止重新上传到 s3 的需要?
我觉得这应该是可能的,但我查看了 wandb SDK 代码,但找不到简单/合乎逻辑的方法。稍后可能通过修改清单条目来破解它(但可能在工件被记录到 wandb 之前,然后清单和条目可能被锁定)?我在 SDK 代码中看到了这样的内容:
所以,我想我们可能可以编辑那些?
更新
所以,我试图用这样的东西来破解它,它可以工作,但感觉不对:
我在正确的轨道上吗?我想另一种解决方法是在 s3 上制作一个副本(这样旧版本又是最新的)但我想避免这种情况,因为我想使用旧版本的 1 文件是一个大型 NLP 模型和唯一的文件我要更改的是小的 config.json 文件等(因此再次上传所有文件似乎非常浪费)。
我还想知道,当我将旧版本的对象复制回存储桶中的同一个键时,是否会创建一个真正的副本,或者就像指向同一个底层对象的指针一样。boto3 和 AWS 文档都没有说明这一点——尽管它看起来像是一个正确的副本。