问题标签 [wandb]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
989 浏览

python - YoloV5 在第一个纪元被杀死

我在 Windows 10 上使用具有此配置的虚拟机:

我按照官方文档中的描述为 Ubuntu 安装了 docker 。
我按照 docker 的yolo github 部分所述提取了 docker 映像。
由于我没有 NVIDIA GPU,我无法安装驱动程序或 CUDA。我从roboflow中拉出水族箱并将其安装在折叠水族箱上。我运行了这个命令来启动图像并安装了我的水族馆文件夹

并受到了这个横幅的欢迎

============= == PyTorch ==

NVIDIA 版本 21.03(内部版本 21060478)PyTorch 版本 1.9.0a0+df837d0

容器图像 版权所有 (c) 2021,NVIDIA CORPORATION。版权所有。

版权所有 (c) 2014-2021 Facebook Inc. 版权所有 (c) 2011-2014 Idiap Research Institute (Ronan Collobert) 版权所有 (c) 2012-2014 Deepmind Technologies (Koray Kavukcuoglu) 版权所有 (c) 2011-2012 NEC Laboratories America (Koray Kavukcuoglu) ) 版权所有 (c) 2011-2013 NYU
(Clement Farabet) 版权所有 (c) 2006-2010 NEC 美国实验室 (Ronan Collobert, Leon Bottou, Iain Melvin, Jason Weston) 版权所有 (c) 2006 Idiap Research Institute (Samy Bengio) 版权所有 ( c) 2001-2004 Idiap Research Institute (Ronan Collobert, Samy Bengio, Johnny Mariethoz) 版权所有 (c) 2015 Google Inc. 版权所有 (c) 2015 Yangqing Jia 版权所有 (c) 2013-2016 Caffe 贡献者保留所有权利。

NVIDIA 深度学习分析器 (dlprof) 版权所有 (c) 2021,NVIDIA CORPORATION。版权所有。

各种文件包括修改 (c) NVIDIA CORPORATION。版权所有。

此容器映像及其内容受 NVIDIA 深度学习容器许可证的约束。通过拉取和使用容器,即表示您接受本许可的条款和条件: https ://developer.nvidia.com/ngc/nvidia-deep-learning-container-license

警告:未检测到 NVIDIA 驱动程序。GPU 功能将不可用。使用“nvidia-docker run”启动这个容器;请参阅 https://github.com/NVIDIA/nvidia-docker/wiki/nvidia-docker

注意:未检测到用于多节点通信的 MOFED 驱动程序。多节点通信性能可能会降低。

所以那里没有错误。
我安装了 pip 并使用 pip wandb 添加了 wandb。我使用wandb login并设置了我的 API 密钥。

我运行了以下命令:

并收到此输出:

从这个输出中,我认为完成了 0 个时期。
我的 data.yaml 包含以下代码:

wandb.ai不显示任何指标,但我有文件 config.yaml、requirements.txt、wandb-metadata.json 和 wandb-summary.json。

为什么我没有得到任何输出?
实际上根本没有培训吗?
如果有培训,我该如何使用我的模型?

0 投票
1 回答
603 浏览

python - 如何将多行导出到wandb

我正在使用库权重和偏差。我的模型输出曲线(时间序列)。我想看看这条曲线在整个训练过程中是如何变化的。所以,我需要某种滑块,我可以在其中选择纪元,它会显示该纪元的曲线。它可能与使用直方图所做的非常相似(它显示跨时期的直方图图像,当您将鼠标悬停时,它会显示与该时期相对应的直方图)。有没有办法做到这一点或使用类似的东西wandb

目前我的代码如下所示:

我会很感激任何帮助!谢谢!

0 投票
1 回答
159 浏览

huggingface-transformers - 控制使用 wandb 和 HuggingFace 时的记录频率和内容

我正在使用wandbHuggingFace 代码。我想记录损失和其他指标。现在我有两个问题

  • 如何wandb决定何时记录损失?这是由logging_stepsin决定的TrainingArguments(...)吗?</li>
  • 如何确保wandb记录其他指标(例如,在每个 epoch 之后添加验证指标)?这会自动发生吗?
0 投票
0 回答
303 浏览

python-requests - wandb 记录 PermissionError 和 OSError

描述:

  • 在使用Weights and Biases(wandb) 运行实验时,我偶尔会得到一个PermissionError用于 Pythonlogging库和OSError访问 TLS CA 证书的文件。

  • 我有以下堆栈跟踪,用不同类型的“消息”重复了很多次。我无法辨别操作的顺序,但我猜无法访问证书并导致脚本崩溃,但我不知道为什么它只是有时会发生。

  • 如果相关,我会在 Ubuntu 服务器上运行实验,并通过 Kerberos 进行身份验证。

我试过的:

  • 我已经手动检查了 CA 证书,并且有一半以上的时间可以成功运行实验。因此,我认为它与thisthis不同。

堆栈跟踪

0 投票
0 回答
780 浏览

python - AttributeError:“NoneType”对象没有属性“_global_run_stack”

描述

我正在使用带有 A3C 模型的 PTAN 库,我正在尝试使用wandb 扫描,但我遇到了一些奇怪的问题,我不确定这是否是关于扫描的错误(因为如果我只想使用一个简单的模型没有任何涉及的线程将正常工作)或者我做错了什么。

如何重现

训练功能:

主功能:

错误信息:

环境

  • 操作系统:Manjaro 5.21.5
  • 环境:PyCharm 本地
  • Python版本:3.9
0 投票
1 回答
244 浏览

huggingface-transformers - Kaggle 中的 trainer.train(): StdinNotImplementedError: getpass was called, 但是这个前端不支持输入请求

在 Kaggle 中保存版本时,我得到StdinNotImplementedError: getpass was called,但是每当我使用 Transformers.Trainer 类时,这个前端都不支持输入请求。我使用的一般代码:

我现在正在运行的特定单元格:

当 trainer.train() 被调用时,我得到下面的错误,如果我用本机 PyTorch 训练,我不会得到。我知道错误出现是因为我被要求输入密码,但是在使用本机 PyTorch 代码时,也没有在 Google Colab 上使用相同的代码与 trainer.train() 时询问密码。任何解决方案都可以,例如:

  1. 避免被询问密码。
  2. 在 Kaggle 上保存笔记本时启用输入请求。之后,如果我理解正确,我需要去https://wandb.ai/authorize(在创建帐户之后)并将生成的密钥复制到控制台。但是,我不明白为什么需要 wandb,因为到目前为止我从未明确使用过它。
0 投票
2 回答
424 浏览

python - wandb.wandb_agent - 错误 - 连续检测到 5 次失败运行,正在关闭

在尝试设置wandb时,我遇到以下错误:

代码:

base_config.py

train.py

我不确定编写agentfor的正确方法是什么wandb。当前代码以日志结尾,例如python --lr=0.01 --optimizer=Adam . 文件名似乎不见了。在那种情况下,我需要写wandb.agent一个单独的文件还是使用 CLI 界面?我期待为不同的超参数wandb.agent调用函数的行为run_and_collect_results

0 投票
2 回答
408 浏览

python - 通过权重和偏差记录 keras 中的学习率计划

我正在训练一个 keras 模型并为优化器使用自定义学习率调度程序(类型为 tf.keras.optimizers.schedules.LearningRateSchedule),我想通过权重和偏差框架记录学习率变化。我找不到如何将它传递给 WandbCallback 对象或以任何方式记录它

0 投票
1 回答
199 浏览

python - wandb:获取所有工件集合和这些工件的所有别名的列表

wandb 文档似乎没有解释如何做到这一点 - 但它应该是我想象的一个相当常见的用例?

我基本上(但不是完全)实现了我想要的,但它似乎有点笨拙?我本来希望在实例上有一个self.aliases属性?ArtifactCollection

我想如果需要的话,我可能会考虑编写一个自定义的 graph-ql 查询,或者只是使用这个笨重的方法。

我错过了什么吗?有没有更清洁的方法来做到这一点?

这个笨重的方法缺少的一件事是任何旧别名 - 它只显示最新模型,然后显示任何别名(比如说“最新”和“v4”等) - 不确定这将/应该如何显示但我也希望能够获得旧别名(即指向旧版本工件的别名)。虽然,这不太重要。

编辑- 在浏览了他们的 sdk 代码几个小时后,我有了这个(仍然对它的笨拙感到不满意):

0 投票
1 回答
75 浏览

python - 如何绘制不同训练样本的置信区间

我正在与训练集的不同部门一起进行训练。我得到的图(使用 wandb)很好,但在我看来信息量不是很大,而且方差很大。 在此处输入图像描述

有没有办法绘制图的平均值,然后围绕它的置信区间?类似于下图的东西。或者,有没有办法在训练期间绘制方差?

在此处输入图像描述