问题标签 [trains]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
107 浏览

trains - Trains 会自动记录 Tensorboard HParams 吗?

我知道可以将超参数作为字典发送到 Trains。

但它也可以自动记录使用 TF2 HParams 模块记录的超参数吗?

编辑:这是在HParams 教程中使用hp.hparams(hparams).

Tensorboard HParams

0 投票
1 回答
90 浏览

trains - Trains 应该如何与 RayTune 等超参数优化工具一起使用?

什么是合理的设置?我可以在同一次执行中多次调用 Task.init() 吗?

0 投票
3 回答
966 浏览

python - pip install tr​​ains 失败

pip install trains在我的虚拟环境中运行时

我正进入(状态

我知道在使用 venv 时我不应该在 sudo 下运行,所以我不太明白这个问题

例如运行pip install pandas确实有效。

蟒蛇 3.8

如何安装火车?


编辑:

跑步pip install trains --userpip install --user trains给予

0 投票
1 回答
65 浏览

trains - 火车:重用以前的任务ID

reuse_last_task_id=True用来覆盖现有任务(具有相同的项目和任务名称)。但实验包含火炬模型,因此不会覆盖现有任务,而是创建一个新任务。如何将模型与任务分离?

0 投票
1 回答
47 浏览

trains - 如何修复 trainserver 空服务器?

我试图在 k8s 集群上安装一个 allegroai trains-server。

我尝试了以下3种方法

我严格按照 linux 安装,在 k8s 安装中使用以下命令访问 trains webserver kubectl port-forward -n trains svc/webserver-service 9999:80 的暴露端口

在所有三种情况下,我都设法到达服务器,但它看起来是空的,并且大多数操作都失败了。这是网络服务器外观的屏幕截图

我尝试从头开始多次执行所有 3 次,甚至重建了我的 k8s 集群,但没有任何效果。

有谁知道如何解决这个问题?

0 投票
1 回答
397 浏览

trains - ClearML(以前的 Trains)可以在本地服务器上工作吗?

我正在尝试从ClearML(以前称为 Trains)开始。

我在文档中看到我需要在 ClearML 平台本身或使用 AWS 等的远程机器上运行服务器。

我真的很想绕过这个限制并在我的本地机器上运行实验,而不是连接到任何远程目的地。

根据这个我可以trains-server在任何远程机器上安装它,所以理论上我也应该能够在我的本地机器上安装它,但它仍然需要我有 Kubernetes 或 Docker,但我没有使用它们中的任何一个。

有人在本地服务器上使用 ClearML(或 Trains,我认为它仍然是完全相同的 API 和所有)有任何运气吗?

  • 我的操作系统是 Ubuntu 18.04。
0 投票
1 回答
158 浏览

devops - ClearML 服务器 IP 地址未与 localhost 和 SSH 端口转发一起使用

尝试在自己的 Ubuntu 18.04.5 上使用 clearml-server。

我使用 env 变量来设置我的 clearml-server 的 IP 地址。

但它仍然可以通过外部服务器 IP 获得。如何在 clearml-server 配置中停用外部 IP 的侦听器?

编辑:据此:我使用 SSH 端口转发从网络外部的计算机访问本地实例。但我无法访问自定义上传的图像(任务-> 调试示例),因为它们不会使用我的端口转发 URL。

0 投票
1 回答
79 浏览

devops - ClearML SSH 端口转发文件服务器在 WEB Ui 中不可用

尝试在自己的带有 SSH 端口转发的 Ubuntu 18.04.5 上使用 clearml-server 并且无法看到我的调试示例。

我的设置:

  • 主机 A 上的 ClearML 服务器
  • 通过 localhost:18080 从工作机器访问 Web App 的 SSH 隧道连接
  • 网络应用程序:ssh -N -L 18081:127.0.0.1:8081 user@hostA
  • 文件服务器:ssh -N -L 18081:127.0.0.1:8081 user@hostA

在 Task->Results->Debug Samples 下的 Web App 中,图像仍然被 localhost:8081 引用

我在哪里可以在 Web App 中将文件服务器 URL 设置为 localhost:18081?我尝试了 ~/clearml.conf,但这不起作用(我认为它适用于我的 python 脚本)。

0 投票
1 回答
161 浏览

devops - 单个脚本中的 ClearML 多个任务更改记录的值名称

我为自定义超参数搜索训练了具有不同配置的多个模型。我使用 pytorch_lightning 及其日志记录(TensorboardLogger)。在 Task.init() 之后运行我的训练脚本时,ClearML 会自动创建一个任务并将记录器输出连接到服务器。

我记录每个应变阶段trainval以及test每个时期的以下标量lossacciou

当我有多个配置时,例如networkAnetworkB第一个训练将其值记录到loss,acciou,但第二个记录到networkB:loss,networkB:accnetworkB:iou。这使得价值观无法比较。

我的任务初始化训练循环如下所示:

方法 pl_train 是使用 Pytorch Ligtning 进行整个训练的包装器。此方法中没有 ClearML 代码。

您是否有任何提示,如何使用完全分离的任务在脚本中正确使用循环?


编辑:ClearML 版本是 0.17.4。问题已在主分支中修复。

0 投票
1 回答
35 浏览

devops - ClearML Web UI 自定义列不持久

我正在使用 ClearML Web UI 中项目的实验页面来可视化一些自定义指标。因此,我已经自定义了我的表格 vie ( https://allegro.ai/clearml/docs/docs/webapp/webapp_exp_table.html?highlight=customize#adding-metrics ) 但是每当我离开另一个项目的页面并返回时,该表将被重置。有没有办法存储特定项目的配置?