问题标签 [clearml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
trains - Trains 应该如何与 RayTune 等超参数优化工具一起使用?
什么是合理的设置?我可以在同一次执行中多次调用 Task.init() 吗?
python - pip install trains 失败
pip install trains
在我的虚拟环境中运行时
我正进入(状态
我知道在使用 venv 时我不应该在 sudo 下运行,所以我不太明白这个问题
例如运行pip install pandas
确实有效。
蟒蛇 3.8
如何安装火车?
编辑:
跑步pip install trains --user
或pip install --user trains
给予
trains - 火车:重用以前的任务ID
我reuse_last_task_id=True
用来覆盖现有任务(具有相同的项目和任务名称)。但实验包含火炬模型,因此不会覆盖现有任务,而是创建一个新任务。如何将模型与任务分离?
trains - 如何修复 trainserver 空服务器?
我试图在 k8s 集群上安装一个 allegroai trains-server。
我尝试了以下3种方法
我严格按照 linux 安装,在 k8s 安装中使用以下命令访问 trains webserver kubectl port-forward -n trains svc/webserver-service 9999:80 的暴露端口
在所有三种情况下,我都设法到达服务器,但它看起来是空的,并且大多数操作都失败了。这是网络服务器外观的屏幕截图。
我尝试从头开始多次执行所有 3 次,甚至重建了我的 k8s 集群,但没有任何效果。
有谁知道如何解决这个问题?
devops - ClearML 服务器 IP 地址未与 localhost 和 SSH 端口转发一起使用
尝试在自己的 Ubuntu 18.04.5 上使用 clearml-server。
我使用 env 变量来设置我的 clearml-server 的 IP 地址。
但它仍然可以通过外部服务器 IP 获得。如何在 clearml-server 配置中停用外部 IP 的侦听器?
编辑:据此:我使用 SSH 端口转发从网络外部的计算机访问本地实例。但我无法访问自定义上传的图像(任务-> 调试示例),因为它们不会使用我的端口转发 URL。
devops - ClearML SSH 端口转发文件服务器在 WEB Ui 中不可用
尝试在自己的带有 SSH 端口转发的 Ubuntu 18.04.5 上使用 clearml-server 并且无法看到我的调试示例。
我的设置:
- 主机 A 上的 ClearML 服务器
- 通过 localhost:18080 从工作机器访问 Web App 的 SSH 隧道连接
- 网络应用程序:
ssh -N -L 18081:127.0.0.1:8081 user@hostA
- 文件服务器:
ssh -N -L 18081:127.0.0.1:8081 user@hostA
在 Task->Results->Debug Samples 下的 Web App 中,图像仍然被 localhost:8081 引用
我在哪里可以在 Web App 中将文件服务器 URL 设置为 localhost:18081?我尝试了 ~/clearml.conf,但这不起作用(我认为它适用于我的 python 脚本)。
clearml - ClearML 如何在 AWS Sagemaker 中更改 clearml.conf 文件
我正在使用 AWS Sagemaker Jupyter 笔记本。我已经在 Jupyter 的 AWS Sagemaker 中安装了 clearml 包。ClearML 服务器安装在 AWS EC2 上。我需要将工件和模型存储在 AWS S3 存储桶中,因此我想在 clearml.conf 文件中指定 S3 的凭证。如何更改 AWS Sagemaker 实例中的 clearml.conf 文件?看起来好像对它上面的所有文件夹都拒绝了权限。或者也许有人可以提出更好的方法。
devops - 单个脚本中的 ClearML 多个任务更改记录的值名称
我为自定义超参数搜索训练了具有不同配置的多个模型。我使用 pytorch_lightning 及其日志记录(TensorboardLogger)。在 Task.init() 之后运行我的训练脚本时,ClearML 会自动创建一个任务并将记录器输出连接到服务器。
我记录每个应变阶段train
,val
以及test
每个时期的以下标量loss
:acc
和iou
当我有多个配置时,例如networkA
,networkB
第一个训练将其值记录到loss
,acc
和iou
,但第二个记录到networkB:loss
,networkB:acc
和networkB:iou
。这使得价值观无法比较。
我的任务初始化训练循环如下所示:
方法 pl_train 是使用 Pytorch Ligtning 进行整个训练的包装器。此方法中没有 ClearML 代码。
您是否有任何提示,如何使用完全分离的任务在脚本中正确使用循环?
编辑:ClearML 版本是 0.17.4。问题已在主分支中修复。