问题标签 [clearml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
107 浏览

trains - Trains 会自动记录 Tensorboard HParams 吗?

我知道可以将超参数作为字典发送到 Trains。

但它也可以自动记录使用 TF2 HParams 模块记录的超参数吗?

编辑:这是在HParams 教程中使用hp.hparams(hparams).

Tensorboard HParams

0 投票
1 回答
90 浏览

trains - Trains 应该如何与 RayTune 等超参数优化工具一起使用?

什么是合理的设置?我可以在同一次执行中多次调用 Task.init() 吗?

0 投票
3 回答
966 浏览

python - pip install tr​​ains 失败

pip install trains在我的虚拟环境中运行时

我正进入(状态

我知道在使用 venv 时我不应该在 sudo 下运行,所以我不太明白这个问题

例如运行pip install pandas确实有效。

蟒蛇 3.8

如何安装火车?


编辑:

跑步pip install trains --userpip install --user trains给予

0 投票
1 回答
65 浏览

trains - 火车:重用以前的任务ID

reuse_last_task_id=True用来覆盖现有任务(具有相同的项目和任务名称)。但实验包含火炬模型,因此不会覆盖现有任务,而是创建一个新任务。如何将模型与任务分离?

0 投票
1 回答
47 浏览

trains - 如何修复 trainserver 空服务器?

我试图在 k8s 集群上安装一个 allegroai trains-server。

我尝试了以下3种方法

我严格按照 linux 安装,在 k8s 安装中使用以下命令访问 trains webserver kubectl port-forward -n trains svc/webserver-service 9999:80 的暴露端口

在所有三种情况下,我都设法到达服务器,但它看起来是空的,并且大多数操作都失败了。这是网络服务器外观的屏幕截图

我尝试从头开始多次执行所有 3 次,甚至重建了我的 k8s 集群,但没有任何效果。

有谁知道如何解决这个问题?

0 投票
1 回答
397 浏览

trains - ClearML(以前的 Trains)可以在本地服务器上工作吗?

我正在尝试从ClearML(以前称为 Trains)开始。

我在文档中看到我需要在 ClearML 平台本身或使用 AWS 等的远程机器上运行服务器。

我真的很想绕过这个限制并在我的本地机器上运行实验,而不是连接到任何远程目的地。

根据这个我可以trains-server在任何远程机器上安装它,所以理论上我也应该能够在我的本地机器上安装它,但它仍然需要我有 Kubernetes 或 Docker,但我没有使用它们中的任何一个。

有人在本地服务器上使用 ClearML(或 Trains,我认为它仍然是完全相同的 API 和所有)有任何运气吗?

  • 我的操作系统是 Ubuntu 18.04。
0 投票
1 回答
158 浏览

devops - ClearML 服务器 IP 地址未与 localhost 和 SSH 端口转发一起使用

尝试在自己的 Ubuntu 18.04.5 上使用 clearml-server。

我使用 env 变量来设置我的 clearml-server 的 IP 地址。

但它仍然可以通过外部服务器 IP 获得。如何在 clearml-server 配置中停用外部 IP 的侦听器?

编辑:据此:我使用 SSH 端口转发从网络外部的计算机访问本地实例。但我无法访问自定义上传的图像(任务-> 调试示例),因为它们不会使用我的端口转发 URL。

0 投票
1 回答
79 浏览

devops - ClearML SSH 端口转发文件服务器在 WEB Ui 中不可用

尝试在自己的带有 SSH 端口转发的 Ubuntu 18.04.5 上使用 clearml-server 并且无法看到我的调试示例。

我的设置:

  • 主机 A 上的 ClearML 服务器
  • 通过 localhost:18080 从工作机器访问 Web App 的 SSH 隧道连接
  • 网络应用程序:ssh -N -L 18081:127.0.0.1:8081 user@hostA
  • 文件服务器:ssh -N -L 18081:127.0.0.1:8081 user@hostA

在 Task->Results->Debug Samples 下的 Web App 中,图像仍然被 localhost:8081 引用

我在哪里可以在 Web App 中将文件服务器 URL 设置为 localhost:18081?我尝试了 ~/clearml.conf,但这不起作用(我认为它适用于我的 python 脚本)。

0 投票
1 回答
141 浏览

clearml - ClearML 如何在 AWS Sagemaker 中更改 clearml.conf 文件

我正在使用 AWS Sagemaker Jupyter 笔记本。我已经在 J​​upyter 的 AWS Sagemaker 中安装了 clearml 包。ClearML 服务器安装在 AWS EC2 上。我需要将工件和模型存储在 AWS S3 存储桶中,因此我想在 clearml.conf 文件中指定 S3 的凭证。如何更改 AWS Sagemaker 实例中的 clearml.conf 文件?看起来好像对它上面的所有文件夹都拒绝了权限。或者也许有人可以提出更好的方法。

0 投票
1 回答
161 浏览

devops - 单个脚本中的 ClearML 多个任务更改记录的值名称

我为自定义超参数搜索训练了具有不同配置的多个模型。我使用 pytorch_lightning 及其日志记录(TensorboardLogger)。在 Task.init() 之后运行我的训练脚本时,ClearML 会自动创建一个任务并将记录器输出连接到服务器。

我记录每个应变阶段trainval以及test每个时期的以下标量lossacciou

当我有多个配置时,例如networkAnetworkB第一个训练将其值记录到loss,acciou,但第二个记录到networkB:loss,networkB:accnetworkB:iou。这使得价值观无法比较。

我的任务初始化训练循环如下所示:

方法 pl_train 是使用 Pytorch Ligtning 进行整个训练的包装器。此方法中没有 ClearML 代码。

您是否有任何提示,如何使用完全分离的任务在脚本中正确使用循环?


编辑:ClearML 版本是 0.17.4。问题已在主分支中修复。